Avatar photo

1. lokakuuta 2020

Tekoälyllä on kyltymätön datan himo ja muut opit STT:n Scoopmatic-projektista

Tutkimuksen nimi: Scoopmatic – Älykäs uutisrobotti

Osallistujat: STT ja Turun yliopiston kieliteknologiaryhmä

Hypoteesi: Vanhoista uutisista voi luoda uusia, kun kyseessä on toisteinen aihe ja tuore data antaa suuntaviivat.

Suunnitelma: Rakennetaan kielimalli ja neuroverkko, joka pystyy luomaan uusia jääkiekkouutisia käyttäen STT:n vanhoja jääkiekkouutisia ja tulosdataa. Oikeastaan kyseessä on käännöskone, joka kääntää tulokset tekstiksi.

Lopputulos: Koneellisesti pystytään tuottamaan jääkiekko-ottelusta raportti, mutta faktat eivät aina ole aivan kohdillaan. Kieli on periaatteessa melko rikasta, mutta koska kone ei ymmärrä yhteyttä edelliseen lauseeseen, se saattaa toistaa samankaltaisia lauseita peräkkäin.

KooKoo voitti TPS:n 5–0.
Trevor Mingoia viimeisteli 1–0 -johdon.
Kotijoukkueen 2-0 -maalin viimeisteli Joonas Oden.
3-0 -osuman viimeisteli Trevor Mingoia.
Vilmos Gallo viimeisteli 4-0.
Trevor Mingoia viimeisteli 5-0.

Kun STT:llä muutama vuosi sitten lähdimme yhteisprojektiin maailmallakin tunnetun suomalaisen tutkimusryhmän kanssa, olimme todella innoissamme. Olimme jonkin aivan uuden äärellä. Tiesimme, että tavoitteemme oli korkealla, mutta ulkopuolisen rahoituksen turvin meidän oli mahdollista tavoitella sitä. Hypoteesimme ei lopulta toteutunut, mutta opimme matkalla valtavasti.

Liian vähän dataa, liikaa ”ihmistä”

Kielimallin rakentamisen haasteena on se, että nykyiset neuroverkkoihin perustuvat tekstin generointimenetelmät vaativat todella paljon dataa. STT:n yli 20 vuoden aikana tuottamat noin 3500 jääkiekko-otteluluraporttia eivät datannälkää pystyneet riittävästi ruokkimaan.

Raportit myös sisälsivät liikaa asioita, joita ei datassa suoraan kerrottu: adjektiiveja ja muuta kuvailua, tietoja voittoputkista ja pistepörsseistä. Tämä oli toisaalta hyvä tieto. Toimittajat ovat tehneet työtä, johon kone ei suoraan pysty. Projektin kannalta tämä oli kuitenkin ongelmallista.

Konetta oli siis pakko auttaa. Vanhoista otteluraporteista merkittiin ottelutapahtumia, kuten lopputulosta, maaleja ja jäähyjä käsittelevät lauseet. Tämän jälkeen kone pystyi itsenäisesti tuottamaan uutta tekstiä, joka kuta kuinkin pysyi asiassa.

Tampereen Ilves kaatoi Vaasan Sportin 3–1.
Toisessa erässä Santeri Haarala vei vieraat johtoon.
Ilveksen Lassi Thomson iski 1-1 -tasoituksen.
Toisessa erässä Ilveksen Joona Ikonen viimeisteli 2–1 -johdon.
Kolmannen erän alussa Ilves iski 3–1 -johdon.

Virheiden määrä jäi kuitenkin projektin aikana tuotetussa kielimallissa ja -generaattorissa liian suureksi, jotta Scoopmaticin tekstejä voisi julkaista sellaisenaan. SaiPa ei vain voi voittaa uutistekstissä SaiPaa.

Mitä opimme?

  1. Vapaasti temmeltävä tekoäly ja journalistinen luotettavuus sopivat huonosti yhteen
    Neuroverkkojen päättelyketjuja on mahdoton jäljittää. Vaikka tekoälyllä on jonkinlaiset rajat, on mahdotonta täysin tietää, miksi se kirjoittaa juuri niin kuin se kirjoittaa. Miksi se tekee virheitä? Voiko se vääristää näkökulmia?
  2. Dataa ei voi olla liikaa
    Maailmalla isot mediatalot ovat pystyneet tekemään kiinnostavia tekoälysovelluksia esim. taustatietojen hakemiseen heidän omasta aineistostaan. Harvalla suomalaisella mediatalolla on kuitenkaan riittävästi dataa, käytännössä siis juttuja, tehdäkseen samaa. Mistä siis saada riittävästi dataa tekoälyn opettamiseen?
  3. Suomen kieli ei ole ongelma
    Edelleen kuulee ajoittain pohdintaa siitä, onko suomen kieli liian vaikeaa tekoälylle. Ei ole. Kunhan opetusaineistoa on riittävästi, kone kyllä oppii kielen kuin kielen. Myös Scoopmatic kirjoittaa varsin hyvää suomea.
  4. Aina ei voi voittaa, ei edes joka kerta
    Innovointiin ja uuden kehittämiseen kuuluvat paitsi menestystarinat myös epäonnistumiset ja hylätyt projektit. Se, että tavoitetta ei saavuteta, ei välttämättä tarkoita, etteikö projekti olisi voinut olla hyödyllinen. Tämä projekti on siitä osoitus.