T-61.5020 Luonnollisen kielen tilastollinen käsittely
Ratkaisut 1, ke 24.1.2007, 12:15-14:00 -- Todennäköisyyslaskennan
perusteita
Versio 1.0
Toinen kaava
kertoo, että satunnainen sana on todennäköisyydellä
kolmikirjaiminen ja todennäköisyydellä
jotain muuta.
Todennäköisyys, että satunnainen sana on kolmikirjaiminen lyhenne
saadaan kertomalla
edellä annetut todennäköisyydet keskenään. Eli ensin katsotaan, kuinka
todennäköistä on, että sana on kolmikirjaiminen ja sitten vielä kuinka
todennäköistä on, että kolmikirjaiminen sana olisi lyhenne:
![]() |
|||
![]() |
![]() |
||
![]() |
![]() |
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
Nyt voimme laskea Bayesin kaavan
![]() |
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
![]() |
Vastaavasti, tietyn kahden merkin pituisen sanan todennäköisyys on
![]() |
![]() |
Koska sanan esiintymistodennäköisyys on suoraan verrannollinen sen
odotettuun esiintymistiheyteen testiaineistossa, voimme tehdä kirjan
taulukon 1.3 kaltaisen taulukon suoraan laskemalla todennäköisyyksiä.
Koska samanpituiset sanat ovat yhtä todennäköisiä eikä niitä voi
asettaa yleisyysjärjestykseen, laskemme :n arvon vain yhdelle
samanpituisista sanoista. Tulokset on
esitetty taulukossa 1 ja piirretty kuvaan 1.
![]() |
![]() |
![]() |
15 | 1111 | 16111 |
450 | 37.04 | 16648 |
13064 | 1.235 | 16129 |
378900 | 0.0412 | 15593 |
1098800 | 0.00137 | 15073 |
318660000 | 0.0000457 | 14570 |
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
Odotusarvo:
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
Varianssi voidaan laskea kaavalla:
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Riippumattomien satunnaismuuttujien summan oletusarvo
Olkoon satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden
satunnaismuuttujien summan oletusarvo.
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
Vakiolla kerrotun satunnaismuuttujan varianssi
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
Riippumattomien satunnaismuuttujien summan varianssi
Olkoon satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden
satunnaismuuttujien summan varianssi.
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
|||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
|||
![]() |
![]() |
||
![]() |
![]() |
Tämän pakerruksen jälkeen päästään itse asiaan. Nyt halutaan laskea
oletusarvo lauseelle , missä
on ensimmäiseen heittoon
liittyvä satunnaismuuttuja ja
on toiseen heittoon liittyvä
satunnaismuuttuja.
![]() |
![]() |
|||
![]() |
![]() |
![]() |
Odotusarvo ja varianssi eivät suinkaan kerro kaikkea jakaumasta. Kuvassa 2 on simuloitu matlabilla erilaisia määriä nopanheittoa. Huomaamme että jakauman muoto muuttuu, mitä useampaa nopaa heitetään. Muoto tulee lähemmäksi ja lähemmäksi normaalijakaumaa. Tämän takia useita luonnollisia ilmiöitä mallinnetaan normaalijakaumalla: Jos tulokseen vaikuttaa monta pientä satunnaista asiaa, tulos on normaalisti jakautunut. Tämä on myös hyvä tekosyy käyttää normaalijakaumaa, jolla saadaan laskut usein helppoon muotoon.
Formaalimpi todistelu siitä, että jakauma lähestyy normaalijakaumaa löytyy http:// mathworld.wolfram.com/CentralLimitTheorem.html
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |