T-61.2020 Datasta tietoon Harjoitustyö (1 op)
T-61.2020 From data to knowledge, Assignment (1 cr)
[
2008-2009: III (19.1.-6.3.2009) |
Prof. Erkki Oja ]
Ajankohtaista (20.2.2009)
o Avauspalaveri ma 26.1.: jakaannuttiin ryhmiin ja jaettiin aiheet
o Tutkijakeskustelut helmikuun lopulta maaliskuun alkuun
o Vastaanotto (Jukka Parviainen), esim. R-ohjelmisto tai
työn yksityiskohdat, ke 25.2. klo 13-14 Maari-M
o Loppupalaveri ma 16.3. klo 14-16 T5-salissa, T-talon pohjakerroksessa,
sisäänkäynti keskusaulasta kirjaston kohdalta
|
Yleistä
Aihepiiri kurssin T-61.2010 osalta, omaa aihetta voi ehdottaa.
Laajuus 1 op eli noin 26,7 tuntia. Tähän tapaamiset
(alku ja loppu sekä mahdollinen vastaanotto), työhön tutustuminen,
taustojen selvittäminen, tekeminen, keskustelu ICS-tutkijan kanssa
ja dokumentointi. Toisin sanoen itse työ on "parin päivän" juttu.
Kevään 2009 kokeilu: keskustelu tutkijan kanssa.
Kun ryhmä on tehnyt pienen työnsä, se sopii tutkijan
kanssa tapaamisesta (noin 1 tunti). Ryhmä esittelee lyhyesti
työn taustat ja huomiot. Tämän jälkeen keskustelua
aiheesta tai sen vierestä.
Keskeisinä elementtinä itse työssä on työkaluihin tutustuminen:
LaTeX ja Matlab tai R:
Vaatimukset
- Yksi alla oleva aihe sovitulla kokoonpanolla (2-3 henkilöä).
- Ryhmäkeskustelu tutkijan kanssa (jos aikataulut saadaan yksiin)
- Ryhmä palauttaa raportin pe 13.3.2009 mennessä spostilla parvi at tkk.fi
- dokumentointi mieluiten LaTeXia käyttäen. Voit käyttää esimerkiksi
valmista pohjaa, johon ohjeet
täällä. Jos haluat Matlabin kuviin suuremman fontin,
niin käytä esim. setfontsize(20).
Ota yhteyttä, jos tarvitset apua.
Omaan Windows-koneeseen voi ladata MikTeXin.
- "normaalin" työnkuvauksen lisäksi vielä
aikatoteutuma ja kommentit LaTeXin käytöstä
- dokumentin tekstiosuus noin 2 sivua + kuvia / taulukoita,
joihin viittauksia tekstistä sekä viiteluettelo, jossa
vähintään yksi artikkeli / teos ja joka generoidaan
LaTeXin/Wordin omalla työkalulla.
- loppupalaveri ma 16.3.2009 14-16 T5-salissa, T-talon 1. kerros
- "omaan työhön ei saa käyttää 20 tuntia enempää", arvosanaohjeet
tämän sivun lopussa
Vastaanotto
Helmikuun aikana voidaan järjestää assarin vastaanotto
esimerkiksi Maarintalolle Matlabiin, LaTeXiin tai R:ään liittyen.
Ota yhteyttä!
Pääassistentin vastaanotto ke 25.2. klo 13-14 Maari-M, Maarintalon
2. kerros. Vastaanotolla voi kysyä tarkennuksia tai vinkkejä, asentaa
R-ohjelmiston omalle koneelle yms.
Tutkijatapaamiset
Pyritään saamaan jokaiselle ryhmälle yksi tutkija.
Kurssin koordinaattori kysyy tutkijoilta aikataulua
ja ehdottaa niitä eteenpäin ryhmille (doodle?).
Jos aihe sopii tutkijan omaan erikoisalaan,
hän voi kommentoida ryhmän työn tuloksia.
Tutkijat:
- professori Harri Lähdesmäki
- professori Erkki Oja
- dosentti Antti Honkela
- johtava tutkija Timo Honkela (???)
- johtava tutkija Jaakko Hollmén (???)
- tutkija Niko Vuokko, Markus Ojala
- tutkija Markus Koskela
- tutkija Teemu Hirsimäki
- N.N (???)
Jos useampi ryhmä tekee työn samasta aiheesta,
voi ryhmät jakaa ajatuksiaan päätöstapaamisessa.
Aiheet
Aihe 1: verkosta haku
Kurssin T-61.2010 loppupuolella oli luento
parista algoritmista verkosta hakuun.
Toteuta perusalgoritmi(t) johonkin testiympäristöön
(muodosta verkko itse tai ota pala oikeaa Internetiä).
Esimerkiksi "keskukset ja auktoriteetit" - sillä
tasolla mitä esitetty luennoilla - on hyvin lyhyt ja
yksinkertainen esimerkiksi iteraationa. Tuottaako se "järkeviä" tuloksia?
Etsi monimutkaisempia algoritmeja (katsaus/toteutus). Osaako joku
selittää Googlen tehokkuuden? Tai mitä sellainen
maksaa ja vaatii?
Aihe 2: "Maakuntien geeniperimät poikkeavat selvästi toisistaan"
Lokakuussa 2008 julkistettiin Hesarissa tutkimustulos,
jossa vertailtiin geenien osalta otoksia muutamista
kansallisuuksista
"Maakuntien geeniperimät poikkeavat jyrkästi toisistaan" (lehdestä
skannattu artikkeli, jossa mukana
arvostelu kuvaaja).
Itse tutkimus
"Genome-Wide Analysis of Single Nucleotide Polymorphisms Uncovers
Population Structure in Northern Europe"
on julkaistu 24.10.2008 PLoS ONE -tiedenettilehdessä.
Geeniaineiston dimensio oli noin 200000, joka
Hesarin visualisoinnissa oli pudotettu 2:een, ihmisiä vajaa 1000.
Kurssilla T-61.2010 esiteltiin lineaarinen PCA.
Mitä visualisointeja varsinainen paperi esitti (multi-dimensional scaling)?
Kokeile eri visualisointeja jollekin datalle.
Toinen lähestysmistapavaihtoehto on pohtia
tieteen popularisointia.
Käy läpi artikkelin pohjalta virinnyttä
keskustelua Hesarin netin lukijapalstalla.
Aihe 3: ominaiskasvot
Pääpiirteiset ohjeet kuten syksyn 2006
harjoitustyöaiheessa 1,
katso myös
tietokoneharjoitus 2.
Poikkeuksena datasetti, jossa kasvokuvat huomattavasti
suurempiresoluutioisia kuin 19x19. Tällöin lienee parasta
pyörittää (SVD) matriisit niin, että homma ei kaadu
valtavan matriisin omainaisarvojen laskemiseen, kts. esim.
eräs opiskelijatyö.
Omaa kasvokuvadatasettiä voi googlata tai kerätä itse.
Toteutuuko kasvontunnistus nyt isolla dimensiolla?
Millaisia menetelmiä nykyään käytetään ja/tai tutkitaan?
Aihe 4: FastICA
Tutustuminen ICA-algoritmiin.
Matlabia varten on olemassa Infolabrassa tehty
FastICA-paketti,
jossa graafinen käyttöliittymä "fasticag".
R-ohjelmaa käyttävät: googlaa "R fastica" tai etsi
r-project.org tai muun R-sivuston kautta.
Esimerkkidataa löytyy myös varsin helposti.
Yksi esimerkki signaalien erotuksesta on
ns. Cocktail-ilmiö.
Voit kokeilla tilannetta, jossa sotket vaikkapa neljää äänilähdettä
s
(puhetta, musiikkia, ...) keskenään jossain suhteessa
A, saat
tulokset neljä eri signaalia
x = As, ja
annat ICA:n etsiä alkuperäiset lähteet
s-hattu.
%% ladataan N kpl mielivaltaisia äänitiedostoja
[x1, fs1] = wavread('nayte1.wav');
[x2, fs2] = wavread('nayte2.wav');
...
%% jos eri näytteenottotaajuudella, niin laita samaksi fs:ksi
fs = 22050; % valittu 22050 Hz
x1u = resample(x1, fs1, fs);
...
%% Leikataan samanpituisiksi
x1u = x1u(1 : K);
x2u = x2u(1 : K);
...
%%
X = [x1u x2u x3u ...];
A = % miksausmatriisi
Y = X * A; % miksatut äänet
Entäpä jos ryhmällä olisi mahdollisuus saada
käyttöönsä useampi mikrofoni ja tallentaisi
vaikkapa kolmen henkilön yhtäaikaista puhetta
samassa tilassa kolmella mikrofonilla.
Toimiiko erotus nyt yhtä hyvin?
Aihe 5: oma aihe
...
-- R-ohjelmistoon tutustuminen --
R on laskentaan soveltuva ilmainen "open source" ohjelmapaketti,
jossa laajennuksia moniin sovellusalueisiin. R:n voi ladata
linuxiin, windowssiin ja maciin osoitteesta
http://www.r-project.org/.
Tutustumista voi tehdä yllämainittujen töiden parissa,
koska R:stä pitäisi löytyä FastICA-paketti ja ominaisarvojen
laskeminen.
Kurssin opettaja haluaa myös tutustua R:n käyttöön.
Joitakin
huomioita ensimmäisistä käyttökerroista
täällä.
Ryhmät 2009
Aihe |
Ryhmä |
Dokumentti |
Tutkija |
1 |
1: Arto M, Janne P |
. |
Antti Ukkonen |
2 |
8: Sini A, Joonas J, Jyri O |
. |
Antti Honkela |
2 |
7: Joonas K, Jaakko L, Antti T |
. |
Harri Lähdesmäki |
3 |
5: Reeta K, Rony L, Lauri V |
. |
Markus Ojala, Niko Vuokko |
3 |
2: Essi L, Valtteri W, Daniel L |
. |
Markus Koskela |
4 |
4: Sakari B, Samuli H, Sanna P |
. |
Erkki Oja |
4 |
3: Heidi S, Paul T |
. |
Teemu Hirsimäki |
5 |
6: Ville P, Tommi V, Eelis S, Eric M |
. |
N.N |
Arvostelu
Työ arvostellaan palautetun dokumentin myötä skaalalla 0-5.
Arviointikriteerit ympäripyöreästi:
0: työ keskeneräinen
1: työ täyttää minimiehdot: tehty (mieluiten) LaTeXilla,
Matlab-koodi tms. mukana
2: tulokset suurinpiirtein oikeita
3: työ "perustasoa", teksti helposti luettavaa, tulokset ja
johtopäätökset oikeita
4: työ "perustasoa" parempaa, omaa tiedonhankintaa (viitteitä)
5: työ "erityisen hyvä", mukana omia lähteitä ja tiedonhankintaa,
edistyksellistä omaa pohdintaa
Lopputapaaminen ma 16.3.2009
[ email: t612020 (at) cis.hut.fi |
news://news.tky.hut.fi/opinnot.tik.informaatiotekniikka |
Sijainti ]
[ WWWTopi |
T-61 Luku- ja tenttijärjestykset |
Muut T-61-kurssit ]