T-61.5020 Luonnollisten kielten tilastollinen käsittely
Harjoitus 9, ke 28.3.2007, 12:15-14:00 -- Tilastollinen konekääntäminen
Versio 1.0
Valitaan rinnakkaiskorpuksista suomi-englanti -aineisto2. Tekstit sisältävät XML-tyylisiä tageja ynnä muuta ``turhaa'' informaatiota, jotka siivotaan pois. Kurssin sivuilta löytyy valmis Python-ohjelma tätä varten3. Aineistossa on erilliset tiedostot englannin- ja suomenkielisille lauselle, ja samassa tiedostossa samalla rivinumerolla olevat lauseet vastaavat toisiaan.
Valitse seuraavaksi suhteellisen yleinen aineistosta löytyvä suomenkielinen sana (), esimerkiksi ``tosiasia''. Etsi suomekielisistä teksteistä kaikki lauseet joissa sana esiintyy, ja kerää vastaavista englanninkielisistä lauseista mahdolliset käännössanat (), sekä jokaiselle sanalle esiintymien yhteismäärä niissä lauseissa, joissa valittu suomenkielinen sana esiintyi ().