Salla Salmela

19. kesäkuuta 2019

STT avasi uutisarkistonsa tutkijoille – eilisen uutiset auttavat kehittämään huomisen teknologiaa

STT:n toimittajia töissä tietokoneiden ääressä, vasemmassa laidassa STT:n logo
STT:n sähköinen arkisto on tutkijoiden käytössä Kielipankin kautta. Lehtikuva / Jussi Nukari

Suomen Tietotoimisto on luovuttanut sähköisen uutisarkistonsa tutkijoiden käyttöön. STT:n suomenkielisiä uutisjuttuja on nyt mahdollista ladata tutkimuskäyttöön yliopistojen ylläpitämästä Kielipankista.
Kielipankki palvelee erilaisia kieliaineistoja käsitteleviä tutkijoita.

Toivomme näin hyödyttävämme yliopistotutkimusta erityisesti kieliteknologiaan, koneoppimiseen ja tekoälyyn liittyvissä tutkimushankkeissa. STT:n tehtäviin kuuluu kehittää sisällöntuotannon automaatiota ja robotiikkaa siten, että se palvelee yleisesti suomalaista media-alaa. Jos tutkimusryhmillä ei ole pääsyä median tuottamaan materiaaliin, on tuohon materiaaliin pohjautuvia sovelluksia luonnollisesti mahdotonta rakentaa

STT:n toimitusjohtaja Kimmo Pietinen

Kielipankkiin ladattu suomenkielinen uutisarkisto sisältää vuodet 1992–2018. Pääosa yli 2,7 miljoonasta jutusta on eripituisia uutistekstejä.

STT:n uutisarkisto on ladattavissa Kielipankista kokonaisuudessaan raakamateriaalina. STT arvioi ja hyväksyy kaikki tutkimussuunnitelmat ennen kuin pääsy arkistoon myönnetään.

STT:n materiaali tutkimuskäytössä Suomessa ja maailmalla

Kielipankin kautta STT:n arkistomateriaalia on jo jaettu esimerkiksi kansainvälisen Embeddia-tutkimusprojektin käyttöön.

Eurooppalaisessa tutkimus- ja innovaatiohankkeessa tavoitellaan uutisrobotiikkakomponentteja, jotka skaalautuvat yli kielirajojen ja voisivat tukea mediayrityksiä erilaisin tavoin automaattisesta tekstintuotannosta aina kommenttien moderointiin. Keskiössä ovat Suomen kaltaiset pienet kielialueet, joilla ei ole voitu hyödyntää kaikkia teknologioita, joita esimerkiksi anglosaksisella kielialueella on kehitetty.

Tänä vuonna alkaneeseen kolmivuotiseen Embeddia-projektiin osallistuu kuusi eurooppalaista yliopistoa ja STT:n lisäksi kolme muuta yritystä media-alalta ja tekstianalytiikan saralta. Suomesta mukana on Helsingin yliopisto.

Lisäksi STT:n uutisaineisto on mukana mahdollistamassa data-analyysiin perustuvan Moniäänisyysmittarin kehitystyötä. Moniäänisyysmittarin taustalla on parempaa yhteiskunnallista keskustelua journalismin ja viestinnän keinoin edistävä sovittelujournalistien yhdistys Sopiva ry.

Tavoitteena ymmärtää julkisen keskustelun moniäänisyyttä

Uutisraivaaja-kilpailuun osallistuvassa kehitysprojektissa on tavoitteena rakentaa työkalu, joka antaa ajantasaista tietoa siitä, kuinka moniäänistä julkinen keskustelu on. Kehitystyössä Sopiva ry hyödyntää STT:n uutisarkistoa.

STT:n toimituspolitiikkaan kirjattiin moniäänisyyden tavoite jo yli vuosikymmen sitten. Uutistoimiston usein pakkotahtisessa arjessa tavoite on vaikea saavuttaa, joten työkalu sen tueksi on tervetullut.

STT:n vastaava päätoimittaja Minna Holopainen

STT:n uutismateriaalia on jo aiemminkin ollut tutkijoiden käytössä esimerkiksi STT:n uutisrobotiikkaprojekti Scoopmaticin kautta.

Turun yliopiston NLP-kieliteknologiaryhmä on materiaalin avulla kehittänyt suomenkielen malliaan ja luonut erillisen mallin ”STT-suomelle”. Tavoitteena on kehittää tekoälyä ja koneoppimista hyödyntävä uutisapulainen, joka kirjoittaa erilaiseen dataan perustuvia uutisia suomeksi.

.

Embeddia-hanke saa EU:n Horisontti2020-rahoitusta.
STT:n osuus rahoituksesta on reilut 100 000 euroa.