T-61.5020 Luonnollisen kielen tilastollinen käsittely
Harjoitus 1, ke 24.1.2007, 12:15-14:00 -- Todennäköisyyslaskennan
perusteita
Versio 1.0
Laite kertoo meille, että erään sanan ``siitä'' perusmuoto on ``siittää''. Millä todennäköisyydellä laite on oikeassa?
Päteekö Zipfin laki satunnaisesti generoidulle kielelle, jossa on 30 kirjainta, joista yksi on sanaväli?
Ideaalinen pienin kuvauspituus on osoitettu mahdottomaksi löytää, ja siksi menetelmästä on vähemmän objektiivisia mutta käyttökelpoisempia versioita. Kaksiosaisessa koodausmenetelmässä (two-part coding scheme) valitaan ensin mallien luokka, joka kuvaa dataa annetulla parametrijoukolla . Tarkoitus on kuvata ja lähettää pienimmällä mahdollisella bittimäärällä datajoukko , jonka oletetaan olevan generoitu jollain luokan malleista. Vastaanottaja tietää mallien luokan, muttei sen parametrien arvoja, joten myös ne pitää lähettää. Merkitään parametrien kuvauspituutta :lla ja data kuvauspituutta, kun mallin parametrit tiedetään, :lla. Tarkoitus on minimoida kokonaiskuvauspituus .
Tilastollisessa mallinnuksessa malliluokan koodausta vastaa todennäköisyysjakauma ja parametrien koodausta jakauma . Informaatioteoriasta tiedämme, että jos viestin todennäköisyys on , sen optimaalinen koodauspituus on bittiä. Näytä, että parametrien valinta kaksiosaisessa koodausmenetelmässä vastaa mallin posterioiritodennäköisyyden valintaa Maximum A Posteriori (MAP) -estimoinnissa.