Pihla Lehmusjoki

29. marraskuuta 2018

Tukea pienen kielialueen uutisrobotiikan tarpeisiin – STT mukana eurooppalaisessa yhteistyöhankkeessa

STT on mukana vuonna 2019 alkavassa laajassa tutkimus- ja innovaatiohankkeessa, jonka keskiössä on uutisrobotiikan skaalautuminen yli kielirajojen. Embeddia-hankkeeseen osallistuu kuusi eurooppalaista yliopistoa ja STT:n lisäksi kolme muuta media-alan yritystä. Suomesta mukana on Helsingin yliopisto.

STT haluaa löytää kielialueiden yli skaalautuvia uutisrobotiikkakomponentteja.

Hankkeen tavoitteena on selvittää, miten uutisrobotiikkaan liittyvät teknologiset ja sisällölliset ratkaisut voisivat olla nykyistä helpommin hyödynnettävissä yli kielirajojen. Pienillä kielialueilla, kuten Suomessa, ei ole voitu hyödyntää kaikkia niitä teknologioita, joita esimerkiksi anglosaksisella kielialueella on kehitetty.

– Embeddia tarjoaa STT:lle uuden ainutlaatuisen verkoston, josta ammentaa asiantuntemusta omaan kehitystyöhön, toteaa STT:n toimitusjohtaja Kimmo Pietinen.

Kolmevuotinen hanke saa EU:n Horisontti2020-rahoitusta. STT:n osuus rahoituksesta on reilut 100 000 euroa.

Helsingin yliopiston juttu aiheesta

STT:n jutuissa ”liikaa ihmistä”

STT:n osalta hanke nivoutuu luontevaksi osaksi muita uutisrobotiikkaprojekteja. STT jatkaa tekstirobotiikan kehittämistä suomen kielellä modernin kieliteknologian keinoin niin Embeddian kuin aiemmin startanneen Scoopmatic-projektin puitteissa.

– Scoopmatic-projektissa hyödynnetään neuroverkkoja tavalla, joka on periaatteiltaan kieliriippumaton. Scoopmaticissä tavoite on, että pystyisimme luomaan mahdollisimman automaattisesti uusia uutistekstejä perustuen aiempiin teksteihin, selittää uutiskehittäjä Maija Paikkala.

Tämän vuoden alkupuolella alkaneessa Scoopmatic-projektissa on jo törmätty ensimmäisiin teknologisiin rajoitteisiin.

– Meillä on laadullinen ongelma: STT:n uutisjutut sisältävät ”liikaa ihmistä”, jotta mallinnus osaisi yhdistellä uudet uutiset kaikilta osin oikealla tavalla. Esimerkiksi jääkiekkouutisissa mallinnus voi hyödyntää aiemmista jutuista vain niitä lauseita, jotka perustuvat koneelle annettavaan otteludataan. Niinpä esimerkiksi pelaajien tai joukkueiden kuvailut tuottavat erikoisia lopputuloksia, kun ne yhdistyvät mallinnuksessa väärin, kertoo Paikkala.

Maalivahti Pekka Rinteen kuvaileminen voi saada koneen hämilleen. Lehtikuva / Heikki Saukkomaa

Esimerkiksi lause ”viime kaudella liigan parhaana vahtina palkittu (Pekka) Rinne päästi kiekon vain kahdesti ohitseen” saa koneen hämilleen.

STT jatkaa mallinnuksen kehittämistä yhdessä Turun yliopiston NLP-kieliteknologiaryhmän ja teknologiayritys Namian kanssa. Samaan aikaan STT kuitenkin lähestyy tekstirobotiikkaa myös toisesta suunnasta.

– Koska näyttää, että tässä vaiheessa täysin automaattinen tekstipohjien generointi on haastavaa, testaamme myös niin kutsuttua templaterobotiikkaa. Siinä ajatus on, että ihminen luo koneelle säännöt ja tekstikatkelmat, joita kone sitten yhdistelee saamansa datan pohjalta. Etsimme parasta mahdollista lopputulosta täyden automaation ja ihmistyön välimaastosta, Paikkala linjaa.

Tavoitteena on kehittää uutisrobotiikkaa, joka hyödyttää STT:n asiakkaita.

– Tämä on STT:ssä kaiken kehitystyön tarkoitus, Pietinen muistuttaa.

Uutisrobotiikka parantaa uutispalvelun laatua ja ainakin osa komponenteista on otettavissa käyttöön myös muissa toimituksissa. Tästä esimerkki on STT Pikkulintu, joka lennähtää toimitusten käyttöön vuoden 2019 alkupuolella.

Tutustu STT:n uutisrobotiikkaprojekteihin