Oppiva tietokone tunnistaa pian kaunokirjoitusta

Kännyköihin ja muihin pienikokoisiin laitteisiin on mahdotonta sisällyttää edes kohtuullisesti käytettävää näppäimistöä. TKK:n informaatiotekniikan laboratoriossa on keskitytty kaunokirjoitusta lukevan tietokoneen kehittämiseen.

Tulevaisuuden mobiililaitteisiin on siis kehitettävä uuden tyyppinen käyttöliittymä, joka joko tunnistaa kirjoitettua tekstiä tai puhetta.

Kaikelle kansalle sopivia vaihtoehtoja on oikeastaan vain kaksi: puhetta tai käsin kirjoitettua tekstiä ymmärtävä kone, sanoo Erkki Oja, akatemiaprofessori TKK:n informaatiotekniikan laboratoriossa toimivasta neuroverkkojen tutkimusyksiköstä.

Suurimman mullistuksen lukeva tietokone aiheuttaisi kuitenkin aasialaisten kielten alueella, joiden tuhansia kirjainmerkkejä on vaikea saada mahtumaan laajaankaan näppäimistöön.

Tekstintunnistus on jo käytössä

Painettua tekstiä lukeva kone on jo teknisesti ratkaistu, sillä skannerit lukevat kirjan sivut luotettavasti tiedostoiksi ocr-ohjelmistojen avulla.

Samoin kone pystyy tunnistamaan käsin kirjoitetun tekstiä, jos se saa eteensä valmiin, siististi kirjoitetun ja muodoltaan rajoitetun tekstin, vaikkapa postin lajitteluhihnalla.

Kämmentietokoneistakin esimerkiksi Palm OS- ja Microsoft Pocket PC —laitteet tunnistavat kirjoitusta, mutta tällöin kirjaimet on esimerkiksi syötettävä järjestelmän määräysten mukaan: laite tunnistaa kirjaimet muutaman pisteen perusteella aloitus ja lopetuspisteen ollessa ratkaisevia. Tällöin voidaan puhua lähinnä kynäohjauksesta.

Sen sijaan kämmenkokoisen tietokoneen käyttöliittymältä vaadittava käsinkirjoitetun tekstin reaaliaikainen, kirjoittamisen tahtiin etenevä online-tunnistus on vasta kehitysvaiheessa.

Irrallisten merkkien tekstaus siistillä käsialalla alkaa toimia suhteellisen hyvin. Mutta jos käyttäjä kirjoittaa merkit yhteen kaunokirjoituksella, eikä koneella ole etukäteen tietoa kielestä, ei kone vielä lue tekstiä kovinkaan hyvällä tarkkuudella, selvittää tutkija Vuokko Vuori. Vuori väittelee koneellisesta tekstintunnistuksesta ensi lauantaina TKK:lla Espoon Otaniemessä.

Jatkuvasti oppiva tekstintunnistus

Informaatiotekniikan laboratoriossa on kehitetty järjestelmää, joka oppisi käyttäjän kirjoitustavan huomaamatta, ohjaamatta ja jatkuvasti.

Tutkimuksissa on käytetty epälineaaristen aikasarjavertailujen menetelmää, joka vääntelee ja muotoilee tuntemattomia merkkejä ja vertaa niitä koneen muistissa oleviin mallikirjaimiin.

Kone ilmoittaa aina tulkintansa piirretystä merkistä. Jos käyttäjä korjaa koneen tuottamia tunnistustuloksia, kone oppii virheistään ja muuttaa muistissaan olevia mallikirjaimia käyttäjän kirjoitustyyliä vastaaviksi.

Järjestelmä on siis aluksi käyttäjäriippumaton toimien useilla erilaisilla käsialoilla kohtuullisen hyvin, mutta muuttuu oppimisen kautta vähitellen käyttäjäriippuvaksi järjestelmäksi eli hallitsee yhden kirjoittajan käsialan erityisen hyvin.

Oppiminen perustuu oppivaan vektorikvantisaatioon, menetelmään, joka nojaa akateemikko Teuvo Kohosen neuroverkkotutkimuksen perinteeseen.

Seuraavassa vaiheessa, kun taskutietokoneiden laskentateho ja muisti yltävät kielimallien, eli esimerkiksi lauseenjäsennyksen mukaan ottamiseen tekstintulkintaan, saattaa tietokone hyvinkin ymmärtää, mitä sille hätäisesti raapustamme, ilman napin painallustakaan.