T-61.5020 Luonnollisen kielen tilastollinen käsittely
Harjoitus 1, ke 24.1.2007, 12:15-14:00 -- Todennäköisyyslaskennan
perusteita
Versio 1.0
Laite kertoo meille, että erään sanan ``siitä'' perusmuoto on ``siittää''. Millä todennäköisyydellä laite on oikeassa?
![]() |
Päteekö Zipfin laki satunnaisesti generoidulle kielelle, jossa on 30 kirjainta, joista yksi on sanaväli?
Ideaalinen pienin kuvauspituus on osoitettu mahdottomaksi löytää, ja siksi
menetelmästä on vähemmän objektiivisia mutta käyttökelpoisempia versioita.
Kaksiosaisessa koodausmenetelmässä (two-part coding scheme) valitaan ensin
mallien luokka, joka kuvaa dataa annetulla parametrijoukolla .
Tarkoitus on kuvata ja lähettää pienimmällä mahdollisella bittimäärällä
datajoukko
, jonka oletetaan olevan generoitu jollain luokan malleista.
Vastaanottaja tietää mallien luokan, muttei sen parametrien arvoja, joten
myös ne pitää lähettää. Merkitään parametrien kuvauspituutta
:lla
ja data kuvauspituutta, kun mallin parametrit tiedetään,
:lla.
Tarkoitus on minimoida kokonaiskuvauspituus
.
Tilastollisessa mallinnuksessa malliluokan koodausta vastaa
todennäköisyysjakauma
ja parametrien koodausta
jakauma
.
Informaatioteoriasta tiedämme, että jos viestin todennäköisyys on
,
sen optimaalinen koodauspituus on
bittiä. Näytä, että
parametrien valinta kaksiosaisessa koodausmenetelmässä vastaa
mallin posterioiritodennäköisyyden valintaa Maximum A Posteriori
(MAP) -estimoinnissa.