T-61.5020 Luonnollisten kielten tilastollinen käsittely
Vastaukset 7, ke 14.3.2007, 12:15-14:00 -- 
Sanojen merkitysten erottelu 
Versio 1.0
|  | 
 :
:
|  |  |  | |
|  |  | 
 . Keskitytään tässä tarkastelemaan termiä
. Keskitytään tässä tarkastelemaan termiä  .
. 
Kontekstiksi valitaan vaikkapa sanaa ympäröivät 10 sanaa:
|  | 
 merkintöjen helpottamiseksi. Tässä siis sanojen järjestyksellä on
väliä, sitä voidaan merkitä laittamalla sanat kaarisulkuihin.
Tällaisilla piirrevektoreilla tunnistimen opettaminen on käytännössä
mahdotonta, koska kahta täysin samaa 10 sanan kontekstia tuskin
löytyy opetus- ja testijoukosta. Approksimoidaan tätä mallia
olettamalle, että sanojen järjestyksellä ei ole
väliä (aaltosulut):
merkintöjen helpottamiseksi. Tässä siis sanojen järjestyksellä on
väliä, sitä voidaan merkitä laittamalla sanat kaarisulkuihin.
Tällaisilla piirrevektoreilla tunnistimen opettaminen on käytännössä
mahdotonta, koska kahta täysin samaa 10 sanan kontekstia tuskin
löytyy opetus- ja testijoukosta. Approksimoidaan tätä mallia
olettamalle, että sanojen järjestyksellä ei ole
väliä (aaltosulut):
|  | 
|  | 
|  | |||
|  |  | ||
|  |  | 
Kirjoitetaan vielä kaava auki
|  |  |  | |
|  |  | ||
|  |  | 
Kannattaa huomata, että mikään matkan varrella tehdyistä approksimaatioista ei ole täysin oikein. Karkein virhe tehdään ehkä arvioidessa kontekstin sanat riippumattomiksi. Näin saadaan kuitenkin käyttökelpoinen menetelmä.
|  |  |  | |
|  |  | 
 on konteksissa esiintyneet sanat.
 on konteksissa esiintyneet sanat.
Tarvitsemme laskun suorittamiseen kahta estimaattia, todennäköisyyttä
 että kontekstin sana
 että kontekstin sana  esiintyy merkityksen
 esiintyy merkityksen  kanssa ja merkityksen prioritodennäköisyyttä
kanssa ja merkityksen prioritodennäköisyyttä  . 
Koska näytejoukossamme on yhtä monta esintymää
merkitykselle sataa=sade ja sataa=luku, voimme
ainoastaan asettaa prioritodennäköisyydeksi
. 
Koska näytejoukossamme on yhtä monta esintymää
merkitykselle sataa=sade ja sataa=luku, voimme
ainoastaan asettaa prioritodennäköisyydeksi  . 
Kirjan laskuissa sovelletaan järjestään ML-estimointia (suurimman
uskottavuuden estimointi). Tehtävässä kuitenkin pyydettiin käyttämään
prioreita, joten määritellään
todennäköisyydelle
. 
Kirjan laskuissa sovelletaan järjestään ML-estimointia (suurimman
uskottavuuden estimointi). Tehtävässä kuitenkin pyydettiin käyttämään
prioreita, joten määritellään
todennäköisyydelle 
 pieni priori, että kaikki sanat ovat
yhtä todennäköisiä kaikissa konteksteissa ja lisätään seuraaviin
estimaatoreihin
 pieni priori, että kaikki sanat ovat
yhtä todennäköisiä kaikissa konteksteissa ja lisätään seuraaviin
estimaatoreihin 
 . Suuremman
. Suuremman  :n valinnalla
voidaan korostaa prioriuskon merkitystä ja vähäinen todistus
opetusjoukossa ei vielä suuremmin hetkauta tuota uskomusta. Tätä tapaa
kutsutaan MAP (Maksimi A Posteriori) -estimoinniksi. Se voidaan
ajatella vaikka niin, että kuvitellaan jo etukäteen nähdyksi
opetusjoukon, jossa jokainen tunnettu sana on esiintynyt 0.5 kertaa
molemmissa konteksteissa.
:n valinnalla
voidaan korostaa prioriuskon merkitystä ja vähäinen todistus
opetusjoukossa ei vielä suuremmin hetkauta tuota uskomusta. Tätä tapaa
kutsutaan MAP (Maksimi A Posteriori) -estimoinniksi. Se voidaan
ajatella vaikka niin, että kuvitellaan jo etukäteen nähdyksi
opetusjoukon, jossa jokainen tunnettu sana on esiintynyt 0.5 kertaa
molemmissa konteksteissa. 
 .
.
Lasketaanpa sama merkitykselle sataa=luku:
  
|  |  |  | |
|  |  |  | |
|  |  |  | |
|  |  |  | 
|  |  |  | |
|  |  |  | |
|  |  |  | |
|  |  |  | |
|  |  |  | |
|  |  |  | |
|  |  |  | |
|  |  |  | 
|  |  |  | |
|  |  |  | 
|  |  |  | |
|  |  |  | |
|  |  |  | |
|  |  |  | 
|  |  |  | |
|  |  |  | 
Tässä tapauksessa ampumista tarkoittavan merkityksen selostuksesta löytyy sanat ``harjoitella'' ja ``varusmies'', jotka löytyvät suoraan annetusta lauseesta. Sana ``sarjatuli'' löytyy sanan ``kivääri'' selityksestä, joten ampumista tarkoittavalle merkitykselle 3 pistettä.
Lehmän ammunta tarkoittavan merkityksen selostuksesta löytyy sana ``niityllä'', joka löytyy myös suoraan lauseesta. Tälle merkitykselle 1 piste.
Ilmeisesti siis nyt on kyseessä ampuminen (3>1).
| prices | go up | 111000 | 
| price | goes up | 88100 | 
| 199100 | ||
| prices | slant | 58 | 
| prices | lean | 2520 | 
| prices | lurch | 21 | 
| price | slants | 1 | 
| price | leans | 63 | 
| price | lurches | 114 | 
| 2777 | 
Tämän äänestyksen voittaa selvästi kallistua sanan merkitys ``go up'', nousta.
Entäpä toinen esimerkkimme? Jos teemme käännöksen ja haun noudattaen
  annettua sanajärjestystä, emme saa yhtään osumaa (pl. tämän 
  laskaritehtävän edellisvuosilta). Kokeillaan siis
  etsiä dokumenttejä, joissa sanat esiintyvät missä tahansa
  järjestyksessä:
  
    
| want | shin | hoof | liver | or | snout | 260 | 
| like | shin | hoof | liver | or | snout | 304 | 
| covet | shin | hoof | liver | or | snout | 219 | 
| desire | shin | hoof | liver | or | snout | 243 | 
| 1026 | ||||||
| want | kick | poke | cost | or | suffer | 43500 | 
Huomataan, että sanojen verbimerkitykset voittavat tässä, vaikkakin tämä merkitys on ilmeisesti väärä. Kaikkia hakuja ei tarvitse edes suorittaa, koska jo ensimmäinen haku tuottaa enemmän osumia kuin toisten merkitysten haut yhteensä. Lisäksi suurin osa ensimmäisen 4 haun palauttamista osumista oli sanakirjoja. Huomataan, että koska merkitykset shin, hoof, liver ja snout ovat paljon harvinaisempia kuin verbimuodot, niitä myös löytyy suhteessa paljon vähemmän. Tässä tilanteessa pitäisi hakua varmaankin normalisoida jollain tavoin. Hakua vaikeuttaa myös se, että annettu lause ei ole kiinteä ilmaisu, kuten ensimmäisessä kohdassa.
 todennäköisyys, kun
tiedetään konteksti
 todennäköisyys, kun
tiedetään konteksti  .
. 
|  | 
 sanat eivät riipu
toisistaan:
 sanat eivät riipu
toisistaan:
|  | 
 . Ilman kohinaa
  algoritmi ei tule konvergoimaan, koska kaikki tapahtumat ovat yhtä
  todennäköisiä.
. Ilman kohinaa
  algoritmi ei tule konvergoimaan, koska kaikki tapahtumat ovat yhtä
  todennäköisiä. 
  
|  | 
 on tunnettujen sanojen määrä.
 on tunnettujen sanojen määrä.
|  | 
 on erilaisten merkitysten määrä.
 on erilaisten merkitysten määrä.
|  | 
|  | 
|  | 
| ![\begin{figure}\centering\mbox{\subfigure[$P(w_j\vert s_0)$: Todennäköisyys, että...
...s_0$\ yhteydessä]
{\epsfig{figure=sp.eps,width=0.45\linewidth}}}
\end{figure}](img79.png) | 
Kuvassa 1 on esitetty algorimin konvergointi, kun E- ja
M-askelta iteroidaan vuorotellen. Tässä tapauksessa
prioritodennäköisyydet  pidettiin
 pidettiin  :ssa ensimmäiset 15
iteraatiota, mikä paransi algoritmin stabiilisuutta. Huomataan, että
algoritmi kykenee pomimaan numerot ja puulajit erilleen. Lauseille 8
ja 9 malli ylioppii ja sijoittaa ne varmasti jompaan kumpaa
merkitykseen. Datan määrän kasvaessa nämäkin estimaatit varmaan
asettuisivat paremmin kohdalleen.
:ssa ensimmäiset 15
iteraatiota, mikä paransi algoritmin stabiilisuutta. Huomataan, että
algoritmi kykenee pomimaan numerot ja puulajit erilleen. Lauseille 8
ja 9 malli ylioppii ja sijoittaa ne varmasti jompaan kumpaa
merkitykseen. Datan määrän kasvaessa nämäkin estimaatit varmaan
asettuisivat paremmin kohdalleen.
Käytännössä aivan samaa algorimia voidaan käyttää jakamaan dokumenttikokoelma eri aihepiireihin. Silloin kontekstina on koko dokumentti. [6.]
Tehtävän ratkaisu vaihe vaiheelta. Tärkeimmät kohdat, jossa on tehty mielivaltainen päätös, jonka voi aiheuttaa epätarkkuutta menetelmään ja jonka voisi helposti tehdä toisin on merkitty kursiivilla.
Menetelmää käyttäen saadaan taulukossa 1 annetut
tulokset. Tässä käytettiin  kokoista karttaa. Jos oikeita
vastauksia ei ole saatavilla, on silmämääräisesti helpompi arvioida
tulokset vähemmästä määrästä ryhmiä. Esim. sanoilla ``sade'' ja
``komissio'',
 kokoista karttaa. Jos oikeita
vastauksia ei ole saatavilla, on silmämääräisesti helpompi arvioida
tulokset vähemmästä määrästä ryhmiä. Esim. sanoilla ``sade'' ja
``komissio'', 
 kartan tulokset olivat  59 %  ja  98%. 
Kuvassa 2 on annettu sanojen ``sade'' ja ``komissio''
ryhmittyminen
 kartan tulokset olivat  59 %  ja  98%. 
Kuvassa 2 on annettu sanojen ``sade'' ja ``komissio''
ryhmittyminen 
 kartalle.
 kartalle.
  
| opetus | testi | ||||
|  |  |  oikein % |  oikein % |  oikein % |  oikein % | 
| Lappi | Pariisi | 63 | 55 | 61 | 53 | 
| sade | komissio | 66 | 93 | 66 | 92 | 
| Venäjä | tammikuu | 80 | 60 | 78 | 60 | 
| Halonen | TPS | 62 | 74 | 63 | 70 | 
| leijona | ydinvoima | 70 | 55 | 75 | 48 |