next up previous contents
Next: Tulokset Up: Konttoreiden jaottelu soittojen aiheiden Previous: Esikäsittely Matlabissa

Tarkasteltavien muuttujien valinta

Aluksi valitsin aiheprofiiliin kaikki aiheet, joista oli tullut enemmän kuin yksi kysymys, ja otin mukaan dataan kaikkien 717 konttorin profiilt. Aiheita putosi pois kahdeksan kappaletta, joten kuvassa 4.7 on u-matriisin lisäksi 27 komponenttitasoa[*]. Kuvan perusteella on hankala tehdä päätelmiä keskinäisistä riippuvuuksista. Aiheita on paljon, ja osa niistä on hyvin harvinaisia. Tämä näkyy myös kartalla: osa skaaloista on nollaa (asteikot on pyöristetty kahden desimaalin tarkuuteen). U-matriisista ei löydy selkeää klusterirakennetta.


  
Figure: Kaikki 27 kysymystyyppiä (717 datavektoria) $14\times7$ kartalla komponenttitasoittain. Väripalkin asteikko on takaisinskaalattu ja kertoo aiheen suhteellisen osuuden. Muutamat komponentit ovat häviävän pieniä (esim B, X ja U). Esimerkiksi komponenttitasojen B ja E tai C ja W perusteella voi päätellä, että nämä kysymykset saattavat esiintyä tyypillisesti yhdessä, kun taas esimerkiksi L:n ja C:n esiintymät ovat jossain määrin käänteisesti riippuvia. Alustavan tutkimuksen helpottamiseksi voisi käyttää samaa menettelyä kuin kuvassa 4.3.
\begin{figure}
\begin{center}

\rotatebox {90}{\epsfig{file=kuvat/kysymysjaottelu/kaikki.eps, width=.8\textwidth}}\end{center}\end{figure}

Datavektorin dimension määrää tarkasteltavien aiheiden lukumäärä. Jos konttorin esittämien kysymyksien määrä on pieni verrattuna datavektorin dimensioon, voi konttorin aiheprofiili olla enemmänkin sattuman tulosta kuin indikoida konttorin todellista ongelmaprofiilia. Konttoreista puolet on esittänyt alle kuusi kysymystä. Jos aiheita on 35 ja konttori on esittänyt vain viisi kysymystä, ei kysymysten jakautumalla ole kovin suurta painoarvoa. Vektoriin mukaan otettavia aiheita ja opetusdataan mukaan otettavia konttoreita on syytä karsia siten, että datalla olisi enemmän merkittävyyttä.

Kartta kuvassa 4.7 ei siis vielä sovellu konttoreiden jaotteluun. Olisi päätettävä, mitkä aiheet ovat erityisen merkittäviä tai mitkä voitaisiin yhdistää. Jos aiheet kartan mukaan korreloivat selvästi ja ovat asiallisesti yhteydessä toisiinsa, voitaisiin niitä kuvata yhteisellä komponentilla.

Alustavia tuloksia varten tyydyin kuitenkin nopeampaan ja yksinkertaisempaan ratkaisuun: jätin harvinaisemmat tapaukset pois ja valitsin kymmenen yleisintä komponenttia. Oletin siis, että yleisimmät ongelmat ovat myös merkittävimpiä. Tämä käytännöllinen oletus voi olla virheellinen: jako aiheisiin pitäisi tehdä sen perusteella, mitä kartalla halutaan tutkia. Tässä tapauksessa mielekäs jako voisi olla koulutuspakettien sisällön mukainen.


next up previous contents
Next: Tulokset Up: Konttoreiden jaottelu soittojen aiheiden Previous: Esikäsittely Matlabissa
Johan Himberg
12/11/1997