- 1.
- Todennäköisyyksistä ensimmäinen
kertoo, että jos me näemme kolmikirjaimisen sanan, se on
todennäköisyydellä lyhenne ja todennäköisyydellä jotain
muuta.
Toinen kaava
kertoo, että satunnainen sana on todennäköisyydellä
kolmikirjaiminen ja todennäköisyydellä jotain muuta.
Todennäköisyys, että satunnainen sana on kolmikirjaiminen lyhenne
saadaan kertomalla
edellä annetut todennäköisyydet keskenään. Eli ensin katsotaan, kuinka
todennäköistä on, että sana on kolmikirjaiminen ja sitten vielä kuinka
todennäköistä on, että kolmikirjaiminen sana olisi lyhenne:
Sivuhuomautuksena sanottakoon, että annetut todennäköisyydet eivät
varmaankan päde todelliselle englannin kielelle.
- 2.
- Merkitään kantamuotoa ``se'' :llä ja kantamuotoa ``siittää'' :lla. Tunnistustulos olkoon ja oikea luokka
. Kirjoitetaan tehtävässä annetut todennäköisyydet:
Nyt voimme laskea Bayesin kaavan
avulla todennäköisyyden, että laiteen väittäessä sanan perusmuodoksi
``siittää'' se on myös oikeassa.
Sanoista, joiden perusmuodoksi laite on ehdottanut ``siittää''
vain joka viideskymmenes on oikein jäsennetty. Vaikka Åke olikin
saanut ihan hyvät tunnistustulokset sinänsä, käytännön testejen
jälkeen hän päätti romuttaa tunnistimensa ja ryhtyä jazz-muusikoksi.
- 3.
- Jotta tällainen satunnainen kieli generoisi yksikirjaimisen sanan, sen
pitää generoida kaksi merkkiä (joku muu kuin sanaväli ja sanaväli).
Tällaisia sanoja on 29 kappaletta.
Vastaavasti, tietyn kahden merkin pituisen sanan todennäköisyys on
Tällaisia sanoja on kappaletta. Kolmikirjaimiset sanat
ja näitä sanoja on siis kappaletta.
Koska sanan esiintymistodennäköisyys on suoraan verrannollinen sen
odotettuun esiintymistiheyteen testiaineistossa, voimme tehdä kirjan
taulukon 1.3 kaltaisen taulukon suoraan laskemalla todennäköisyyksiä.
Koska samanpituiset sanat ovat yhtä todennäköisiä eikä niitä voi
asettaa yleisyysjärjestykseen, laskemme :n arvon vain yhdelle
samanpituisista sanoista. Tulokset on
esitetty taulukossa 1 ja piirretty kuvaan 1.
Taulukko:
Zipfin vakio. Taulukon vasempaan sarakkeeseen on merkitty
kuinka monenneksi yleisin sana on kyseessä. Keskellä lukee, kuinka
monta kertaa voimme odottaa näkevämme sanan 1000000 sanan pitusessa
aineistossa. Oikealla on laskettu vakio , kahden ensimmäisen
sarakkeen tulo.
|
|
|
15 |
1111 |
16111 |
450 |
37.04 |
16648 |
13064 |
1.235 |
16129 |
378900 |
0.0412 |
15593 |
1098800 |
0.00137 |
15073 |
318660000 |
0.0000457 |
14570 |
Huomataan, että satunnaisellakin kielellä pysyttelee melko
samansuuruisena hyvin suurella :n vaihteluvälilläkin.
Zipfin löytö ei ehkä
tunnu tämän faktan valossa aivan niin hämmästyttävltä.
- 4.
- Tehtävän ratkaisussa oletetaan tunnetuksi seuraavat kaavat:
- a)
- Lasketaan odotusarvo yhden heiton silmäluvuksi. Noppa
laskeutuu jokaiselle 101:lle sivustaan yhtä todennäköisesti, eli
jokaisen tapahtuman todennäköisyys
.
Odotusarvo:
Varianssi voidaan laskea kaavalla:
Nyt voimme käyttää avuksemme seuraava kaavaa
jolloin saamme tulokseksi
- b)
- Ratkaistaksemme tämän tehtävä, tarvitsemme muutamia
todennäköisyyslaskun peruskaavoja. Kaavat on tässä johdettu, mutta
niiden johtamisen osaaminen ei ole olennaista kurssin kannalta.
Riippumattomien satunnaismuuttujien summan oletusarvo
Olkoon satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden
satunnaismuuttujien summan oletusarvo.
Vakiolla kerrotun satunnaismuuttujan varianssi
Riippumattomien satunnaismuuttujien summan varianssi
Olkoon satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden
satunnaismuuttujien summan varianssi.
Tämän pakerruksen jälkeen päästään itse asiaan. Nyt halutaan laskea
oletusarvo lauseelle , missä on ensimmäiseen heittoon
liittyvä satunnaismuuttuja ja on toiseen heittoon liittyvä
satunnaismuuttuja.
Huomaamme siis, että odotusarvo ei muutu. Entä miten käykään varianssin?
- c)
- Heitämme kymmentä noppaa, sovellamme edelle opittuja
tuloksia. Odotusarvo
Varianssi
- d)
- Kun heitämme yhä useampaa noppaa, tarkentuu jakauma
odotusarvon ympärille. Rajalla odotusarvo on 50 ja varianssi 0 eli
saamme aina varmasti tulokseksi 50.
Odotusarvo ja varianssi eivät suinkaan kerro kaikkea
jakaumasta. Kuvassa 2 on simuloitu matlabilla erilaisia
määriä nopanheittoa. Huomaamme että jakauman muoto muuttuu, mitä
useampaa nopaa heitetään. Muoto tulee lähemmäksi ja lähemmäksi
normaalijakaumaa. Tämän takia useita luonnollisia ilmiöitä
mallinnetaan normaalijakaumalla: Jos tulokseen vaikuttaa monta pientä
satunnaista asiaa, tulos on normaalisti jakautunut. Tämä on myös hyvä
tekosyy käyttää normaalijakaumaa, jolla saadaan laskut usein helppoon
muotoon.
Formaalimpi todistelu siitä, että jakauma lähestyy normaalijakaumaa
löytyy http:// mathworld.wolfram.com/CentralLimitTheorem.html
Kuva:
Nopanheittoa. Kutakin kuvaa varten on koe toistettu miljoona kertaa.
|
- 5.
- Tarkoitus on siis minimoida kokonaiskuvauspituutta
Merkitään lausekkeen minimoivaa parametrijoukkoa
:lla. Saadaan
Sijoitetaan tähän optimaaliset kuvauspituudet
ja
:
Yhdistetään termit logaritmien laskusääntöä käyttäen:
Logaritmi on monotonisesti kasvava funktio, ja sen vastaluku siten
monotonisesti laskeva, joten sama arvo saadaan maksimoimalla
todennäköisyyksien tuloa:
Lopuksi muistetaan Bayesin kaavasta
:
Jakauma ei riipu parametreista, joten se voidaan tiputtaa pois.
Näin ollen samaan lopputulokseen päästään mallin posteriorijakauman
maksimoinnilla: