T-61.5020 Luonnollisen kielen tilastollinen käsittely
Vastaukset 5, ke 21.2.2007, 12:15-14:00 -- Kollokaatiot
Versio 1.0
Normalisoitu frekvenssi | ||
liukas | keli | 1981 |
aste | pakkanen | 386 |
heittää | veivi | 293 |
herne | nenä | 268 |
valkoinen | talo | 180 |
tuntematon | sotilas | 163 |
vihainen | mielenosoittaja | 68 |
kova | tuuli | 35 |
ottaa | onki | 21 |
venäjä | presidentti | 10 |
oppia | lukea | 8 |
hakea | työ | 1 |
olla | ula | 0 |
sekä | myös | 0 |
ja | olla | 0 |
Keskiarvo | Varianssi | ||
herne | nenä | -1.000 | 0.000 |
vihainen | mielenosoittaja | -1.000 | 0.000 |
tuntematon | sotilas | -1.025 | 0.025 |
valkoinen | talo | -0.975 | 0.083 |
ottaa | onki | -1.250 | 0.188 |
venäjä | presidentti | -1.128 | 0.472 |
kova | tuuli | -0.880 | 0.492 |
liukas | keli | -0.788 | 0.608 |
oppia | lukea | -0.606 | 1.087 |
heittää | veivi | -0.500 | 1.250 |
aste | pakkanen | -0.465 | 1.347 |
hakea | työ | -0.433 | 2.046 |
olla | ula | -0.250 | 2.438 |
sekä | myös | 0.252 | 2.981 |
ja | olla | -0.083 | 3.635 |
Tarkasteluikkunan leveys vaikuttaa tietysti alueeseen, josta kollokaatioita etsitään. Jos aluetta kasvatetaan liian suureksi, rupeavat sanat esiintymään yhä useammin myös satunnaisesti yhdessä ja varianssi kasvaa suureksi. Liian pienellä ikkunalla ei pidempivaikutteisia kollokaatioita löydetä. Jos kollokaation toinen sana voi olla sekä referenssisanan edessä että takana, menetelmä tietysti hämääntyy täydellisesti.
T-testissä oletetaan että todennäköisyydet ovat normaalijakautuneita, ja tutkitaan eroaako havaintojoukon odotusarvo nollahypoteesin antaman jakauman odotusarvosta. Lasketaan siis t-arvot
Jos t-testin tulos on yli 6.314, näyte on vedetty alle 5%
todennäköisyydellä riippumattomasta jakaumasta. Valkoinen
talo vaikuttaa siis kollokaatiolta. Taulukossa 4
on kaikkien sanojen tulokset. Huomataan, että viimeiset sanaparit
saivat negatiivisia arvoja. Tämä johtuu siitä että ne esiintyvät
vierekkäin harvemmin kuin nollahypoteesi antaa olettaa.
-testissä katsotaan annettujen sanojen esiintymistodennäköisyydet ja lasketaan niiden perusteella, kuinka monta kertaa sanojen pitäisi esiintyä yhdessä. Tätä lukua verrataan havaittuun lukuun ja jos nämä poikkeavat suuresti toisistaan, todetaan että sanojen pitää olla kollokaatioita.
Aloitetaan kasaamalla
seuraavanlainen taulukko (taulukko 5):
Nämä arvot voidaan sijoittaa sitten kahden muuttujan -testin
kaavaan:
liukas | keli | 591591 |
valkoinen | talo | 358771 |
aste | pakkanen | 173726 |
tuntematon | sotilas | 70409 |
ja | olla | 29194 |
kova | tuuli | 26644 |
venäjä | presidentti | 18147 |
heittää | veivi | 4120 |
herne | nenä | 2258 |
vihainen | mielenosoittaja | 1321 |
ottaa | onki | 525 |
oppia | lukea | 449 |
hakea | työ | 47 |
sekä | myös | 45 |
olla | ula | 0 |
MI | ||
liukas | keli | 12.4 |
aste | pakkanen | 10.1 |
heittää | veivi | 9.7 |
herne | nenä | 9.6 |
valkoinen | talo | 9.0 |
tuntematon | sotilas | 8.8 |
vihainen | mielenosoittaja | 7.6 |
kova | tuuli | 6.6 |
ottaa | onki | 5.9 |
venäjä | presidentti | 4.8 |
oppia | lukea | 4.5 |
hakea | työ | 1.7 |
olla | ula | 0.5 |
sekä | myös | -0.8 |
ja | olla | -2.5 |
Tulokset vaikuttavat hyviltä. Hieman kommenttia kirjan kritikkiin, että menetelmä erityisesti suosisi harvinaisia sanoja: Yksi tekijä joka tähän johtaa, on laskussa käytettyjen todennäköisyyksien estimointi -- tässä käytetään maksimiuskottavuusestimaattoreita. Paremman tuloksen saa varmasti, jos asettaa sanapareille priorin, että ne ovat riippumattomia ja antaa datan sitten muokata tätä oletusta.
Yhteenvetona koko laskarista voisi sanoa vaikka seuraavaa: Heuristisilla menetelmillä (1. ja 2. tehtävä) voidaan päästä helpohkosti kohtalaisiin tuloksiin. Tehtävissä 3-4 sinänsä perustellut matemaattiset mallit mittaavat sanojen esiintymisen korrelaatiota, ei sitä, ovatko sanat kollokaatioita. Näillä menetelmillä voidaan silti saada hyviä tuloksia. Tilastomatematiikkaa on ehkä vaikeampi hahmottaa ja sitä käyttäessä on ymmärrettävä testin vaatimat oletukset. Todennäköisyyslaskuissa (4. tehtävä) nämä oletukset tuodaan eksplisiittisemmin esille. Todennäköisyyteen perustuvissa laskuissa joutuu myös harkitsemaan, miten tarvittavat todennäköisyydet approksimoidaan. Tässä on käytetty suurimman uskottavuuden estimaatteja (ML), jotka ovat ehkä liian herkkiä satunnaisvaihtelulle, kun näytteitä on suhteessa vähän. Parempana estimaattina voisi käyttää maksimi a posteriori (MAP) -estimaattia, jossa prioriuskomuksena olisi, että sanat eivät ole riippuvia. Tällöin malli väittäisi sanoja riippuviksi vasta kuin riittävä määrä dataa todistaa asian puolesta.