Laboratory of Computer and Information Science / Neural Networks Research Centre CIS Lab Helsinki University of Technology

T-61.2020 Datasta tietoon Harjoitustyö (1 op)

in English T-61.2020 From data to knowledge, Assignment (1 cr)
[ 2008-2009: III (19.1.-6.3.2009) | Prof. Erkki Oja ]
Ajankohtaista (20.2.2009)
o Avauspalaveri ma 26.1.: jakaannuttiin ryhmiin ja jaettiin aiheet
o Tutkijakeskustelut helmikuun lopulta maaliskuun alkuun
o Vastaanotto (Jukka Parviainen), esim. R-ohjelmisto tai työn yksityiskohdat, ke 25.2. klo 13-14 Maari-M
o Loppupalaveri ma 16.3. klo 14-16 T5-salissa, T-talon pohjakerroksessa, sisäänkäynti keskusaulasta kirjaston kohdalta

Yleistä

Aihepiiri kurssin T-61.2010 osalta, omaa aihetta voi ehdottaa. Laajuus 1 op eli noin 26,7 tuntia. Tähän tapaamiset (alku ja loppu sekä mahdollinen vastaanotto), työhön tutustuminen, taustojen selvittäminen, tekeminen, keskustelu ICS-tutkijan kanssa ja dokumentointi. Toisin sanoen itse työ on "parin päivän" juttu.

Kevään 2009 kokeilu: keskustelu tutkijan kanssa. Kun ryhmä on tehnyt pienen työnsä, se sopii tutkijan kanssa tapaamisesta (noin 1 tunti). Ryhmä esittelee lyhyesti työn taustat ja huomiot. Tämän jälkeen keskustelua aiheesta tai sen vierestä.

Keskeisinä elementtinä itse työssä on työkaluihin tutustuminen: LaTeX ja Matlab tai R:

Vaatimukset

Vastaanotto

Helmikuun aikana voidaan järjestää assarin vastaanotto esimerkiksi Maarintalolle Matlabiin, LaTeXiin tai R:ään liittyen. Ota yhteyttä!

Pääassistentin vastaanotto ke 25.2. klo 13-14 Maari-M, Maarintalon 2. kerros. Vastaanotolla voi kysyä tarkennuksia tai vinkkejä, asentaa R-ohjelmiston omalle koneelle yms.

Tutkijatapaamiset

Pyritään saamaan jokaiselle ryhmälle yksi tutkija. Kurssin koordinaattori kysyy tutkijoilta aikataulua ja ehdottaa niitä eteenpäin ryhmille (doodle?).

Jos aihe sopii tutkijan omaan erikoisalaan, hän voi kommentoida ryhmän työn tuloksia.

Tutkijat: Jos useampi ryhmä tekee työn samasta aiheesta, voi ryhmät jakaa ajatuksiaan päätöstapaamisessa.

Aiheet

Aihe 1: verkosta haku

Kurssin T-61.2010 loppupuolella oli luento parista algoritmista verkosta hakuun. Toteuta perusalgoritmi(t) johonkin testiympäristöön (muodosta verkko itse tai ota pala oikeaa Internetiä).

Esimerkiksi "keskukset ja auktoriteetit" - sillä tasolla mitä esitetty luennoilla - on hyvin lyhyt ja yksinkertainen esimerkiksi iteraationa. Tuottaako se "järkeviä" tuloksia?

Etsi monimutkaisempia algoritmeja (katsaus/toteutus). Osaako joku selittää Googlen tehokkuuden? Tai mitä sellainen maksaa ja vaatii?

Aihe 2: "Maakuntien geeniperimät poikkeavat selvästi toisistaan"

Lokakuussa 2008 julkistettiin Hesarissa tutkimustulos, jossa vertailtiin geenien osalta otoksia muutamista kansallisuuksista "Maakuntien geeniperimät poikkeavat jyrkästi toisistaan" (lehdestä skannattu artikkeli, jossa mukana arvostelu kuvaaja). Itse tutkimus "Genome-Wide Analysis of Single Nucleotide Polymorphisms Uncovers Population Structure in Northern Europe" on julkaistu 24.10.2008 PLoS ONE -tiedenettilehdessä.

Geeniaineiston dimensio oli noin 200000, joka Hesarin visualisoinnissa oli pudotettu 2:een, ihmisiä vajaa 1000. Kurssilla T-61.2010 esiteltiin lineaarinen PCA. Mitä visualisointeja varsinainen paperi esitti (multi-dimensional scaling)? Kokeile eri visualisointeja jollekin datalle.

Toinen lähestysmistapavaihtoehto on pohtia tieteen popularisointia. Käy läpi artikkelin pohjalta virinnyttä keskustelua Hesarin netin lukijapalstalla.

Aihe 3: ominaiskasvot

Pääpiirteiset ohjeet kuten syksyn 2006 harjoitustyöaiheessa 1, katso myös tietokoneharjoitus 2. Poikkeuksena datasetti, jossa kasvokuvat huomattavasti suurempiresoluutioisia kuin 19x19. Tällöin lienee parasta pyörittää (SVD) matriisit niin, että homma ei kaadu valtavan matriisin omainaisarvojen laskemiseen, kts. esim. eräs opiskelijatyö. Omaa kasvokuvadatasettiä voi googlata tai kerätä itse.

Toteutuuko kasvontunnistus nyt isolla dimensiolla? Millaisia menetelmiä nykyään käytetään ja/tai tutkitaan?

Aihe 4: FastICA

Tutustuminen ICA-algoritmiin. Matlabia varten on olemassa Infolabrassa tehty FastICA-paketti, jossa graafinen käyttöliittymä "fasticag".

R-ohjelmaa käyttävät: googlaa "R fastica" tai etsi r-project.org tai muun R-sivuston kautta. Esimerkkidataa löytyy myös varsin helposti.

Yksi esimerkki signaalien erotuksesta on ns. Cocktail-ilmiö. Voit kokeilla tilannetta, jossa sotket vaikkapa neljää äänilähdettä s (puhetta, musiikkia, ...) keskenään jossain suhteessa A, saat tulokset neljä eri signaalia x = As, ja annat ICA:n etsiä alkuperäiset lähteet s-hattu.
%% ladataan N kpl mielivaltaisia äänitiedostoja
[x1, fs1] = wavread('nayte1.wav');
[x2, fs2] = wavread('nayte2.wav');
...
%% jos eri näytteenottotaajuudella, niin laita samaksi fs:ksi
fs = 22050;  % valittu 22050 Hz
x1u = resample(x1, fs1, fs);
...
%% Leikataan samanpituisiksi
x1u = x1u(1 : K);
x2u = x2u(1 : K);
...
%% 
X = [x1u x2u x3u ...];
A =  % miksausmatriisi
Y = X * A;  % miksatut äänet
Entäpä jos ryhmällä olisi mahdollisuus saada käyttöönsä useampi mikrofoni ja tallentaisi vaikkapa kolmen henkilön yhtäaikaista puhetta samassa tilassa kolmella mikrofonilla. Toimiiko erotus nyt yhtä hyvin?

Aihe 5: oma aihe

...

-- R-ohjelmistoon tutustuminen --

R on laskentaan soveltuva ilmainen "open source" ohjelmapaketti, jossa laajennuksia moniin sovellusalueisiin. R:n voi ladata linuxiin, windowssiin ja maciin osoitteesta http://www.r-project.org/. Tutustumista voi tehdä yllämainittujen töiden parissa, koska R:stä pitäisi löytyä FastICA-paketti ja ominaisarvojen laskeminen.

Kurssin opettaja haluaa myös tutustua R:n käyttöön. Joitakin huomioita ensimmäisistä käyttökerroista täällä.

Ryhmät 2009

Aihe Ryhmä Dokumentti Tutkija
1 1: Arto M, Janne P . Antti Ukkonen
2 8: Sini A, Joonas J, Jyri O . Antti Honkela
2 7: Joonas K, Jaakko L, Antti T . Harri Lähdesmäki
3 5: Reeta K, Rony L, Lauri V . Markus Ojala, Niko Vuokko
3 2: Essi L, Valtteri W, Daniel L . Markus Koskela
4 4: Sakari B, Samuli H, Sanna P . Erkki Oja
4 3: Heidi S, Paul T . Teemu Hirsimäki
5 6: Ville P, Tommi V, Eelis S, Eric M . N.N

Arvostelu

Työ arvostellaan palautetun dokumentin myötä skaalalla 0-5. Arviointikriteerit ympäripyöreästi:

0: työ keskeneräinen
1: työ täyttää minimiehdot: tehty (mieluiten) LaTeXilla, Matlab-koodi tms. mukana
2: tulokset suurinpiirtein oikeita
3: työ "perustasoa", teksti helposti luettavaa, tulokset ja johtopäätökset oikeita
4: työ "perustasoa" parempaa, omaa tiedonhankintaa (viitteitä)
5: työ "erityisen hyvä", mukana omia lähteitä ja tiedonhankintaa, edistyksellistä omaa pohdintaa

Lopputapaaminen ma 16.3.2009

[ email: t612020 (at) cis.hut.fi | news://news.tky.hut.fi/opinnot.tik.informaatiotekniikka | Sijainti ]
[ WWWTopi | T-61 Luku- ja tenttijärjestykset | Muut T-61-kurssit ]

You are at: CIS → T-61.2020 / Etusivu

Page maintained by t612020 (at) cis.hut.fi, last updated Friday, 20-Feb-2009 15:19:21 EET

Google
WWW www.cis.hut.fi