T-61.5020 Luonnollisen kielen tilastollinen käsittely
Vastaukset 2, ke 31.1.2007, 12:15-14:00 -- Entropia ja hämmentyneisyys
Versio 1.0
Lähteen entropia, kun tiedetään, että edellinen symboli kuului joukkoon on
Tämän laskemiseksi meidän pitää osata laskea ehdollinen entropia
. Lasketaan tämä sanalle 'kissa':
Mikä on sitten todennäköisyys, että satunnainen sana on 'kissa'?
Koska molemmat luokat ja ovat yhtä todennäköiset, tulos on
Tästä voimme päätellä, että kun tunnemme lähteen toiminnan paremmin, sen tuottamat sanat ovat vähemmän yllättäviä ja voimme koodata ne vähemmällä määrällä bittejä (0.9 bittiä < 2.5 bittiä).
Merkitään kielen lausetodennäköisyyksiä ja mallin antamia
todennäköisyyksiä . Haluamme laskea odotusarvon kielen lauseen
koodauspituudelle mallin antamilla todennäköisyyksillä:
Mallin antamat verbien ja substantiivien todennäköisyydet ovat toisistaan
riippumattomia, joten
. Sijoitetaan se
lausekkeeseen, ja kirjoitetaan summaus auki ensin substantiivien ja sitten
verbien osalta:
Jokaisessa lauseessa on kaksi sanaa, joten keskimääräinen yhden sanan koodauspituus on 2.50 bittiä. Tulos on sama kuin a)-kohdassa, eikä se ole sattumaa: Kummassakin tapauksessa jakauma, jonka yli odotusarvo mallin antamille koodauspituuksille lasketaan, on sama.
Vastaavasti, tietyn kahden merkin pituisen sanan todennäköisyys on
Lasketaan tällaisen lähteen entropia:
Kun tämä hässäkkä sijoitetaan alkuperäiseen ongelmaan, saadaan
On myös syy, miksi tulosten ei pitäisi olla aivan samat: Ensimmäinen lähde voi tuottaa sanan, jossa on kaksi välilyöntiä peräkkäin, kun taas toinen lähde ei voi annetun formuloinnin mukaan sitä tuottaa. Tästä johtuen pitäisi toisen lähteen entropia per merkki olla hieman alempi.
Seuraavaksi itse laskuihin:
Tämän esimerkin valossa kielimallit 1 ja 3 ovat vertailukelpoiset. Kielimalli 3 vaikuttaa näistä selvästi paremmalta. Kielimalli 2 ei voi verrata muihin, sillä se operoi selvästi pienemmällä symbolijoukolla. Selvempi esimerkki olisi ehkä kielimalli, jonka mielestä kaikki sanat kuuluvat ryhmään 1 ja tämän ryhmän todennäköisyys on siis 1. Tämä kielimalli siis hämmentyneisyyden mukaan täydellinen, sillä se ei ole yhtään yllättynyt mistään sanasta.
Malliin kolme sopii vain kaksi ensimmäistä sanaa:
Ovatko b)-kohdan tulokset vertailukelpoisia? Malli 2 voidaan diskata samoilla perusteilla kuin a)-kohdassakin. Malleja 1 ja 3 voidaan vertailla, kun otetaan myös huomioon ohi kieliopin menneet sanat. Malli 1 kattaa sanaston paremmin, mutta malli 3 antaa paremman hämmentyneisyyden. Usein kielimallin laatiminen on tasapainottelua näiden kahden ominaisuuden välillä.
Loppuyhteenvetona lista erilaisista entropiamitoista: