- 1.
- Muutetaan tehtävässä annettu taulukko sellaiseen muotoon,
joka paremmin sopii ensimmäisten mittojen laskemiseksi.
Taulukko:
Muokatut taulukot. Taulukkoihin on merkattu myös
tp (True Positives, oikein hyväksytyt),
fp (False Positives, väärin hyväksytyt),
fn (False Negatives, väärät hylätyt) ja
fp (True Negatives, oikeat hylätyt)
kone 1 |
relevantit |
ei relevantit |
valitsi |
4 tp |
6 fp |
ei valinnut |
2 fn |
9988 tn |
kone 2 |
relevantit |
ei relevantit |
valitsi |
6 tp |
4 fp |
ei valinnut |
0 fn |
9990 tn |
|
Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu
luvut.
Taulukko:
Tulokset. Huomataan, että vain tarkkuuden ja palautuksen
tulosprosentti liikkuu helposti miellettävällä alueella.
mitta |
measure |
|
|
|
Kuinka suuri osa |
tarkkuus |
precision |
|
|
|
löytyneistä relevantteja
|
saanti |
recall |
|
|
|
relevanteista löytyi |
hajoama |
fallout |
|
|
|
ei-relevanteista palautettiin
|
täsmäävyys |
accuracy |
|
|
|
luokiteltiin oikein |
virhe |
error |
|
|
|
luokiteltiin väärin |
|
F-mitta määritellään tarkuuden ja palautuksen avulla:
missä P on tarkkuus ja R on palautus. säätää näiden välistä
painotusta. Jos valitaan
saadaan
Ensimmäiselle koneelle saadaan näinollen ja toiselle .
Interpoloimatonta keskitarkkuutta laskiessa katsotaan tarkkuutta
aina kun löydetään relevantti dokumentti ja keskiarvoistetaan näiden
tarkkuuksien yli. Relevantit dokumentit, joita ei palautettu, lasketaan
mukaan tarkkuudella 0.
- 2.
- Tehtävänannossa annettiin sanojen dokumenttifrekvenssit:
ja . Lisäksi tiedetään että
kokoelmafrekvenssit ovat ja . Kaikenkaikkiaan
kokoelmassa on dokumenttia. Käänteinen
dokumenttifrekvenssi määritellään
, joten
sanalle se on
ja sanalle
se on
.
Residuaalisen käänteisen dokumenttifrekvenssin (RIDF) kohdalla kirjan
ensimmäisessä painoksessa on runsaasti virheitä. RIDF:n kantava
idea perustuu seuraavanlaiselle päättelylle: Voimme mallintaa
sanan esiintymistä Poisson-jakaumalla . Tämä toimii hyvin
sanoille, jotka ovat suhteellisen tasaisesti jakautuneet
korpuksessa. Sisällöllisesti merkittävät sanat esiintyvät yleensä
ryhmissä asiaa käsittelevän dokumentin sisällä, ja Poisson-jakauma
antaa siis tällöin väärän ennusteen sanojen yleisyydestä. RIDF:ssä
mitataan käänteisen dokumenttifrekvenssin ja Poisson-jakauman
välistä eroa. Mitä suurempi ero, sitä enemmän sana kuvaa
dokumentin sisältöä.
Tässä siis Poisson-jakauman käyttölogiikka on seuraava:
Approksimodaan, että dokumentissä esiintyy sana keskimäärin
kertaa. Todennäköisyys sille, että
jossain tietyssä dokumentissä sana esiintyy kertaa
saadaan Poisson-jakaumasta
RIDF määritellään siis
Tässä siis Poisson-jakaumasta otetaan todennäköisyys, että
dokumentissä esiintyy haluttu sana vähintään kerran
(
)).
Sievennellään RIDF:n lauseketta:
Sijoitellaan kaavaan luvut:
Huomataan, että RIDF painotti sanaa 2.5 kertaa enemmän kuin
IDF. Molempien menetelmien mielestä on relevantimpi
hakutermi kuin .
- 3.
- Pyydetty dokumentti-sanamatriisi on esitetty taulukossa 3.
Taulukko:
Dokumentti-sana-matriisi
|
|
|
|
|
|
|
|
Schumacher |
0 |
1 |
0 |
1 |
0 |
0 |
0 |
rata |
1 |
1 |
1 |
0 |
0 |
1 |
0 |
formula |
1 |
0 |
1 |
1 |
0 |
0 |
0 |
kolari |
0 |
0 |
1 |
1 |
0 |
0 |
0 |
galaksi |
0 |
0 |
0 |
0 |
1 |
1 |
0 |
tähti |
0 |
0 |
1 |
0 |
0 |
1 |
1 |
planeetta |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
meteoriitti |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
|
SVD-hajotelmassa (Singular Value Decomposition) puretaan
() matriisi palasiksi:
Tässä on ortogonaalinen
matriisi, on diagonaalinen
matriisi ja ortogonaalinen
matriisi.
Dimensiota voidaan pienentää ottamalla :stä vain suurinta
singulaariarvoa ja matriiseista ja niitä vastaavat
singulaarivektorit. Esitys on neliöllisen virheen mielessä
optimaalisin.
Lasketut matriisit on esitetty taulukoissa 4,
5 ja 6. (Matlab palauttaa oletuksena hieman
erilaiset matriisit kuin mitä yllä mainittiin: Nyt on
,
ja
. Käytännön merkitystä asialla
ei ole; singulaariarvot, niiden määrä ja tulos dimension pudotuksen
jälkeen ovat samoja.)
Taulukko:
|
|
|
|
|
|
|
|
|
Schumacher |
-0.200 |
-0.336 |
0.290 |
0.115 |
0.823 |
0.007 |
0.121 |
-0.243 |
rata |
-0.590 |
0.007 |
0.184 |
0.686 |
-0.232 |
-0.183 |
0.025 |
0.243 |
formula |
-0.435 |
-0.464 |
-0.040 |
-0.225 |
-0.333 |
0.609 |
0.045 |
-0.243 |
kolari |
-0.317 |
-0.361 |
-0.108 |
-0.494 |
0.071 |
-0.438 |
-0.285 |
0.485 |
galaksi |
-0.200 |
0.400 |
0.602 |
-0.242 |
-0.053 |
0.028 |
-0.563 |
-0.243 |
tähti |
-0.464 |
0.376 |
-0.408 |
-0.213 |
0.034 |
-0.345 |
0.275 |
-0.485 |
planeetta |
-0.257 |
0.476 |
-0.234 |
-0.070 |
0.363 |
0.530 |
-0.007 |
0.485 |
meteoriitti |
-0.026 |
0.116 |
0.534 |
-0.336 |
-0.132 |
-0.048 |
0.713 |
0.243 |
|
Taulukko:
2.949 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2.107 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1.459 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1.311 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1.183 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0.638 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0.460 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
Taulukko:
|
|
|
|
|
|
|
|
|
-0.348 |
-0.217 |
0.099 |
0.352 |
-0.478 |
0.669 |
0.152 |
|
-0.268 |
-0.156 |
0.325 |
0.611 |
0.499 |
-0.275 |
0.316 |
|
-0.613 |
-0.210 |
-0.255 |
-0.187 |
-0.390 |
-0.559 |
0.130 |
|
-0.323 |
-0.551 |
0.098 |
-0.460 |
0.474 |
0.279 |
-0.261 |
|
-0.077 |
0.245 |
0.779 |
-0.440 |
-0.157 |
-0.030 |
0.328 |
|
-0.512 |
0.598 |
0.099 |
0.124 |
0.094 |
0.048 |
-0.587 |
|
-0.244 |
0.404 |
-0.440 |
-0.216 |
0.335 |
0.290 |
0.583 |
|
Taulukko:
Skaalattu
|
|
|
|
|
|
|
|
|
-0.913 |
-0.924 |
-0.971 |
-0.634 |
-0.400 |
-0.768 |
-0.646 |
|
-0.407 |
-0.384 |
-0.238 |
-0.773 |
0.917 |
0.640 |
0.764 |
|
Taulukko:
Korrelaatiot
|
|
|
|
|
|
|
|
|
1.000 |
|
|
|
|
|
|
|
1.000 |
1.000 |
|
|
|
|
|
|
0.984 |
0.988 |
1.000 |
|
|
|
|
|
0.894 |
0.882 |
0.800 |
1.000 |
|
|
|
|
-0.008 |
0.018 |
0.171 |
-0.455 |
1.000 |
|
|
|
0.441 |
0.464 |
0.594 |
-0.008 |
0.894 |
1.000 |
|
|
0.279 |
0.304 |
0.446 |
-0.180 |
0.958 |
0.985 |
1.000 |
|
Tiputetaan sisäinen dimensio kahteen jättämällä ja
-matriiseista muut dimensiot pois ja ottamalla -matriisista vain
kaksi suurinta ominaisarvoa. Nyt dokumenttien samankaltaisuutta voi
verrata matriisilla . Jos matriisin sarakeet skaalataan yhden
pituisiksi, on helppo laskea korrelaatioita rivien välillä. Tällainen
skaalattu matriisi on esitetty taulukossa 7 ja siitä
lasketut korrelaatiot taulukossa 8. Sanojen
samankaltaisuutta voitaisiin verrata matriisista .
Korrelaatiomatriisista huomataan, että formula-artikkelit ja
tähtitiedeartikkelit korreloivat sisäisesti paljon enemmän kuin
ristiin. Alunperin täysin korreloimattomata dokumentit ja
korreloivat nyt selvästi. Olemme projisoineet datan
2-ulotteiseen avaruuteen ja samantyyppiset artikkelit ovat päätyneet
lähekkäin tähän alempiulotteiseen avaruuteen.
Lopuksi vielä pieni varoitus: kirjan kappaleessa 15 on runsaasti
pikkuvirheitä, kannattaa tarkastaa kirjan errata
(http://www-nlp.stanford.edu/fsnlp/errata.html).