Koodista kieleksi: Puheentunnistus toi tekoälyn reaalimaailmaan

KOODISTA KIELEKSI:

PUHEENTUNNISTUS TOI TEKOÄLYN REAALIMAAILMAAN

Teuvo Kohonen is pictured in the right middle ground of a sepia coloured photograph. Three other members in his research group stand in the background. There are various machines and instruments against the back wall of the room and also in the foreground. — Professor Teuvo Kohonen with his research group, 1970s. Kohonen is one of the world's best-known researchers in neural networks. Aalto University Archives

1982: Tekoälytutkimuksen uranuurtaja haki inspiraatiota ihmisaivoista

Teuvo Kohosen pioneerityö oli aikansa lainatuimpia suomalaistutkimuksia, ja sen jälki näkyy tiedemaailmassa edelleen.

Tammikuussa 1982 tieteellinen Biological Cybernetics -julkaisu teki suomalaista tiedehistoriaa. Lehdessä julkaistiin Teknillisen korkeakoulun professorin Teuvo Kohosen (1934–2021) teksti uudenlaisesta neurolaskenta-algoritmista, jota Kohonen nimitti itseorganisoituvaksi kartaksi (self-organising map, SOM).

Se on tiedon järjestämisen menetelmä, jossa algoritmi opettaa samanlaiset havainnot ja asiat hakeutumaan toistensa läheisyyteen ja näyttää kasaumat kartalla.

Itseorganisoituva kartta herätti niin paljon kiinnostusta neuroverkkoja tutkivassa tiedeyhteisössä, että Kohosen tekstistä kasvoi vähitellen yksi aikansa lainatuimmista suomalaistutkimuksista.

Kohosen entinen oppilas, tietojenkäsittelytekniikan emeritusprofessori Erkki Oja muistaa Kohosen hakeneen inspiraatiota ihmisaivojen tavasta käsitellä tietoa.

”Kohonen yritti siirtää pohdintansa matemaattisiksi algoritmeiksi ja menetelmiksi, joita nykyään kutsutaan tekoälyksi”, Oja sanoo.

1980-luvulla näkemykset ajatteluprosessien koneellisesta mallintamista olivat jakautuneet kahteen leiriin.

Osa tutkijoista näki tietokoneet järjestelmänä, jossa mielen toimintaa mallinnettaisiin loogisilla suhteilla ja säännöillä.

Kohosen edustama neurolaskenta pohjautui puolestaan ajatukseen, että tiedon prosessointia voidaan kuvata parhaiten hermosoluverkkojen tasolla.

Nykyajassa molemmat suuntaukset luetaan tekoälyksi, ja Kohonen tunnetaan tekoälytutkimuksen pioneerina.

”Parhaita opetuksia”

Oja muistaa Kohosen korostaneen, että algoritmeja pitää testata todellisella datalla. Ensimmäinen itseorganisoituvan kartan käytännön sovellusalue löydettiin puheentunnistuksen tutkimuksesta.

”Se oli parhaita opetuksia, mitä hän ryhmällemme antoi. Älkää tehkö kokeita keinotekoisella datalla, vaan mitatulla, jotain esittävällä datalla.”

Myöhemmin Kohosen keksintöä sovellettiin monella alalla kemiasta lääketieteeseen, prosessiteollisuuteen ja sähkötekniikkaan asti.

Sittemmin syväoppivien neuroverkkojen kaltaiset menetelmät syrjäyttivät Kohosen kartan tutkimuskohteena. Kohosen jättämä jälki näkyy silti yhä edelleen suomalaisessa tiedemaailmassa.

Itseorganisoituvaa karttaa väitöskirjassaan tutkinut Aalto-yliopiston professori Samuel Kaski sanoo, että Kohonen antoi kannustavan esimerkin pioneeritutkimuksen tekemisestä ja vaikutti välillisesti myös korkeakoulujen koulutus- ja tutkimuspainotuksiin.

Kaski korostaa, että nykyisin suomalainen tekoälytutkimus on kuitenkin huomattavan laajaa menneisiin vuosikymmeniin verrattuna. Kyse ei enää ole vain yksittäisestä professorista ja muutamasta hänen oppilaastaan.

”Suomessa on erittäin merkittävää tekoälytutkimusta myös maailman mittakaavassa”, Kaski sanoo.

Teksti: Panu Räty

A computer control board is in the centre of the frame on a black base. the board is covered in metallic computer chips and behind it are railings out of focus. — Speech Recognizer Board, Teuvo Kohonen research equipment. Aalto University

Mikko Kurimo: Puheentunnistus tuo tekoälyn reaalimaailmaan

Tulevaisuudessa tekoäly ratkoo yhä vaikeampia ongelmia esimerkiksi lääkkeiden ja käyttöliittymien suunnittelussa.

Suomen kieli voi olla asiakaspalveluautomaateille ja ääniohjatuille sovelluksille kova pala.

”Puhuttu suomen kieli poikkeaa paljon kirjoitetusta kielestä. Sanat ovat erilaisia ja niitä lyhennellään ja yhdistellään paljon. Sen hallitsemiseen vaaditaan sekä suuria puhekielisiä opetusaineistoja että uusia monikerroksisia algoritmeja”, sanoo Aalto-yliopiston puheen- ja kielenkäsittelyn professori Mikko Kurimo.

Tulevaisuuden tekniikka ymmärtää kuitenkin paremmin myös suomenkielistä puhetta.

Puheentunnistus on jo vuosikymmeniä ollut tärkeä tekoälymenetelmien koealusta. Prosessin eri vaiheissa sovelletaan syviä neuroverkkoja. Ne ovat koneoppimismalleja, jotka koostuvat eräänlaisista kerroksittain kootuista, toistensa kanssa kommunikoivista laskureista.

”Puheentunnistus on yksi niistä teknologian sovelluksista, jotka ovat tuoneet tekoälyn reaalimaailmaan”, Kurimo sanoo.

Kieliteknologiaa kehittävät suomalaisyritykset hyödyntävät jo nyt Aallon tutkimusta niin puheella toimivissa asiakaspalveluroboteissa, televisio-ohjelmien tekstittämisessä kuin terveydenhuollon puheentunnistusratkaisuissa.

Puheentunnistuksen tutkiminen suomen, suomenruotsin ja pohjoissaamen kaltaisilla pienillä kielillä on Kurimon mukaan tärkeää siksi, että maailman teknojätit panostavat etupäässä englantiin ja muihin suuriin kieliin.

”Kukaan ei puolestamme kehitä meidän kieliimme parhaiten sopivia algoritmeja ja teknologioita, joten meidän täytyy tehdä se itse”, Kurimo sanoo.

Aalto-yliopiston tietojenkäsittelytieteen professori ja Suomen tekoälykeskuksen (FCAI) johtaja Samuel Kaski lisää, että pienten kielten tutkimus voi tuottaa yleispäteviä puheentunnistuksen malleja, jotka taipuisivat muillekin maailman pienille kielille.

”Tässä suomi hyvinvoivana pienenä kielenä on hyvä tutkimuskohde”, Kaski sanoo.

Huippututkimusta arvostava ympäristö

FCAI painottaa etenkin tilastomatematiikkaa ja tietojenkäsittelytiedettä yhdistävään koneoppimiseen perustuvien älykkäiden apuvälineiden kehittämistä. Sovellusalueita ihmistä auttavalle tekoälylle löytyy esimerkiksi koneiden, käyttöliittymien tai vaikkapa lääkemolekyylien suunnittelusta.

Tärkeä tutkimuskohde on myös koneoppimisen yhdistäminen data-analyysiin siten, ettei lähdeaineistosta voida tunnistaa yksilöityjä henkilötietoja.

”Näin esimerkiksi sairaaloiden dataa olisi mahdollista käyttää lääketieteelliseen tutkimukseen uhraamatta yksityisyydensuojaa”, Kaski sanoo.

FCAI toimii osana tekoälytutkimuksen tutkimuskeskittymien ELLIS-verkostoa, joka pyrkii parantamaan tekoälytutkimuksen toimintamahdollisuuksia Euroopassa. Kaski muistuttaa, että kansallisen kilpailukyvyn nimissä myös Suomen kannattaa pysyä kiinnostavana tutkimusympäristönä tekoälyn osaajille.

"Meidän pitää luoda huippututkimusta arvostava ympäristö. Siitä saadaan maailman mittakaavassa johtava sillä, että verkotetaan huippututkijat keskenään.”

Teksti: Panu Räty