T-61.5020 Luonnollisten kielten tilastollinen käsittely
Harjoitus 6, ke 28.2.2007, 12:15-14:00 -- Samankaltaisuusmitat
Versio 1.1
- 1.
- Kevätflunssaa odotellessa Teemu T. Teekkari testaili
flunssalääkkeitä. Kokeiltavana olivat Tintus-yskänlääke,
Koskisen Korvalääke ja Otaniemen Termiitti.
Kutakin lääkettä tarkkaan maistellessaan hän samalla kuvaili
makutuntemuksiaan. Paikalla ollut virallinen tarkkailija kirjasi 5
valitun adjektiivin kohdalta ylös, kuinka usein Teemu lääkettä
kuvaillessaan käytti tätä adjektiivia.
Taulukko 1:
Dokumentti-sana -matriisi
|
raikas |
hapokas |
makea |
hedelmäinen |
pehmeä |
Tintus |
0 |
0 |
5 |
1 |
4 |
Korvalääke |
10 |
6 |
2 |
1 |
0 |
Termiitti |
1 |
4 |
3 |
3 |
3 |
|
Laske kunkin lääkkeen etäisyydet toisistaan käyttäen kaikkia
allalistattuja mittoja:
- a)
- Euklidinen etäisyys (-normi)
- b)
- -normi
- c)
- Kosini
- d)
- Informaatiosäde
Miksi Kullback-Leibler -divergenssin käyttö olisi epäkäytännöllistä
tässä tehtävässä?
- 2.
- Tarkastellaan seuraavia mittoja
- a)
- Kullback-Leibler -divergenssi
- b)
- Informaatiosäde
- c)
- -normi
Jos yhden mitan mukainen etäisyys on pienin mahdollinen, tarkoittaako
se, että myös muiden mittojen mukaan etäisyys on pienin mahdollinen?
- 3.
- Tarkastellaan edelleen toisessa tehtävässä annettuja
mittoja. Etsi kullekin mitalle jakaumat, jotka antavat suurimman
mahdollisen etäisyyden. Vinkki: Informaatiosäteelle suurin
mahdollinen etäisyys on .
svirpioj@cis.hut.fi