His­to­rial­li­set sa­no­ma­leh­det in­ter­ne­tiin

Kaikkien aikojen ensimmäisiä Suomessa ilmestyneitä sanomalehtiä pääsee nyt lukemaan aivan uudella tavalla - internetin välityksellä. Laajan alkuperäisaineiston käyttömahdollisuuksia lisää sanahaku.

Uuden vuoden virsi. Oulun Wiikko-Sanomien ensimmäinen numero ilmestyi tammikuussa 1829.
Uuden vuoden virsi. Oulun Wiikko-Sanomien ensimmäinen numero ilmestyi tammikuussa 1829.
Kuva: Helsingin yliopiston kirjasto

Suomen kansalliskirjaston, Helsingin yliopiston kirjaston toteuttama Aurora-hanke synnytti ilmeisesti maailman ensimmäisen vanhojen lehtien digitaalisen internet-arkiston. Ainakin se on lajissaan kattavin, sillä hanke toi kaikki Suomessa vuosina 1771-1860 ilmestyneet sanomalehdet, kaikkiaan 44 nimikettä ja noin 180 000 sivua koko kansan nettilukemistoksi.

Historiallinen sanomalehtikirjasto, johon pääsee tutustumaan osoitteessa http://digi.lib.helsinki.fi, on ollut avoinna lokakuussa 2001 alkaneesta koekäyttövaiheesta lähtien.

Suomen kansalliskirjaston hanke on osa yhteispohjoismaista Tiden-projektia, jonka suomalaisten osuus valmistui keväällä 2002. Suomalaisten projekti on yhteispohjoismaisessa hankkeessa mukanaolevista kansalliskirjastoista kunnianhimoisin, sillä muissa kirjastoissa ei laadita yhtä kattavaa, kaikkia julkaisuja käsittävää arkistoa.

"Heti keväällä jatkoimme työtä vuosina 1860-1890 ilmestyneiden lehtien parissa", sanoo Mikkelissä toimivan kirjaston Mikrokuvaus- ja konservointilaitoksen pääsuunnittelija Marko Tenkanen. Elokuussa internet-sivuilta pääsi selailemaan kaikkiaan 47 nimikettä ja lähes 200 000 sivua. Marraskuun lopulla eri lehtiä oli saatavilla jo 50, ja kun koko hanke vuosilta 1771-1890 valmistuu, kirjastossa on noin 130 lehteä ja yhteensä noin 700 000-900 000 sivua historiallista alkuperäismateriaalia.

Lehdet kattavat Suomen historian tapahtumat 119 vuoden ajalta, Ruotsin vallan alta aina viimeisiin tsaareihin. Yhdessä muiden pohjoismaisten kirjastojen tarjoaman lehtiaineiston kanssa saa yhteyden aina 1640-luvulle, eli 30-vuotisen sodan aikoihin saakka. Syystäkin vanhat sanomalehdet ovat historian ammattitutkijoiden ja harrastajien perusaineistoa.

Käyttäjät ovat löytäneet arkiston hyvin, sillä vierailuja sivuilla on ensimmäisen toimintavuoden aikana kertynyt jo puoli miljoonaa.

"Käyttäjäpalautteen perusteella joukossa on niin akateemisia tutkijoita kuin suku- tai paikallishistorian harrastajia", sanoo Tenkanen. Palvelu on toistaiseksi ilmainen, eikä sen siirtämisestä maksulliseksi ole edes keskusteltu käynnistysvaiheen jälkeen. "Ammattitutkijat olisivat varmasti valmiit maksamaan sivujen selailusta, mutta moni paikallishistoriasta kiinnostunut ja palvelua harvemmin käyttävä ei siitä maksaisi", arvelee pääsuunnittelija.



Tarkka tulos
sumealla haulla


Vapaa sanahaku on yksi historiallisen sanomalehtikirjaston vahvuuksista. "Suomessa tavoitteena oli alusta alkaen järjestelmä, jossa oli mukana vapaa sanahaku", sanoo Tenkanen.

Alkuperäisten sivujen lukemisessa käytetään optiseen merkkien tunnistamiseen perustuvaa OCR-ohjelmaa (Optical Character Recognition). Ennen projektin alkua vanhojen sanomalehtien goottilaisia kirjasimia pidettiin mahdottomana luettavana optisille tekstintunnistustekniikoille.

"Jo ennen Tiden-projektin alkua Mikrokuvaus- ja konservointilaitoksella tutkittiin tekstintulkintaa vertailemalla OCR-ohjelmia", sanoo Marko Tenkanen.

Tarjolla olevat ohjelmat kehittyivät merkittävästi juuri hankeen alkuvaiheessa. Optisesti luettu teksti sisältää suuren määrän virheitä, joten sanahaku on toteutettu ohjelmalla, joka perustuu niinsanottuun sumeaan hakuun.

Nimestä huolimatta menetelmällä päästään kohtalaiseen tarkkuuteen, sillä hakusana löytyy arkiston sadoilta tuhansilta sivuilta noin 90-prosenttisella varmuudella.

"Täydellisen, sadan prosentin tavoittelu merkitsisi käytännössä tekstin lukemista ja uudelleenkirjoittamista käsin", sanoo Marko Tenkanen. Tällä tavalla toteutettuna hanke olisi huomattavasti kalliimpi, ja sivut tulisivat verkkokäyttöön hitaasti. Aiemmin ainakin Agricola, Suomen historiaverkko -hanke julkaisi Suometar-lehden kaksi ensimmäistä vuosikertaa koneella kirjoitettuna.

Sumean haun etu on sekin, että se hyväksyy alkuperäisessä tekstissä esiintyvät sanojen erilaiset kirjoitusmuodot ja kirjoitusvirheet. Esimerkiksi hakusanalla tervanpoltto löytyvät esimerkiksi terwanpoltto tai terwanpolttaja. OCR-ohjelman virheellisesti tulkitsemat merkit näkyvät esimerkiksi muodossa termanpoltto.

Menetelmä helpottaa vaikkapa paikannimien historiallisen kirjoitusasun selvittämistä. Esimerkiksi Espanja kirjoitettiin 1700-luvulla hispania, myöhemmin 1800-luvulla keskusteltiin kovasti, josko oikea muoto on espania, espanja vai peräti spanja. Kaikki käytetyt muodot löytyvät joka tapauksessa yhdellä ja samalla hakusanalla.

Vanhojen, usein jo huonokuntoisten sanomalehtien saattaminen jokaisen tietokonekäyttäjän ruutuun on arvatenkin hidasta työtä. Myös hakutoiminnan tarkkuus riippuu vanhanaikaisella fraktuura-tyypillä ladottujen alkuperäisten lehtien kunnosta.

Hieman yllättäen vanhemmat, 1800-luvun alkupuolen lehdet ovat paremmin säilyneitä kuin sitä uudemmat. Syynä on se, että 1850-luvulta alkaen sanomalehdissä siirryttiin paperinvalmistuksessa puupohjaisiin materiaaleihin.

"Sitä ennen paperia valmistettiin vielä lumpuista", huomauttaa Marko Tenkanen.

Lehtien digitointi verkkokäyttöön alkaa alkuperäiskappaleiden esivalmistelusta. Ensimmäiset, 1700-luvun ja 1800-luvun alun lehdet olivat pienikokoisia, koska niiden valmistuksessa käytettiin käsipainimia, jotka oli tarkoitettu kirjojen painamiseen. Rautapainimien myötä sanomalehtien sivukokokin alkoi kasvaa, ensin A2-kokoiseksi ja suuremmaksikin.

Lehtien valmistelu mikrofilmirullalle kuvausta varten on aikaa vievin työvaihe. "Yhden, noin 650 sivua käsittävän rullan kuvaamiseen saattaa kulua muutamasta päivästä viikkoon", havainnollistaa Marko Tenkanen.

Valmisteltujen lehtien mikrokuvaus ja valmiin mikrofilmirullan digitointi vie tämän jatkoksi enää muutamia tunteja per työvaihe.



Tekijänoikeudet muuttumassa


Tekijänoikeuskysymykset askarruttavat myös historiallisten sanomalehtien uudelleenjulkaisussa. Suomen nykylainsäädännön mukaan oikeudet säilyvät tekijällä vielä 70 vuotta kuoleman jälkeen. Kaikkein vanhimpien lehtien tekijänoikeuksista ei tarvitse juuri huolta kantaa, mutta erityisesti vuosien 1861-1890 väliseltä ajalta tällaista materiaalia voi yhä löytyä.

Jotta lehti olisi tekijänoikeuksista täysin vapaa vuonna 2003, sen viimeisenkin kirjoittajan - tai kuvittajan - kuolinvuoden pitäisi olla 1933, mikä esimerkiksi 1890 ilmestyneen lehden osalta on epävarmaa. Lainsäädäntö on kuitenkin tekijänoikeuksien osalta muuttumassa väljempään suuntaan aivan lähivuosina. Muutokset saattavat tulla voimaan jo ennen kuin digitointityössä ennätetään käsitellä näitä viimeisimpiä lehtiä.

"Nykykapasiteetilla työn loppuun saattamiseen menee aikaa vielä noin neljä vuotta", arvioi Marko Tenkanen.

Lehtien digitoinnissa ja tekstintulkinnassa työskentelee Mikkelissä päätoimisesti kuusi henkilöä. Kaksi muuta vastaa tietotekniikasta ja ohjelmistojen suunnittelusta. Hankeen alkuvaiheissa yhden sivun digitoinnin hinnaksi arvioitiin 2,5-3,5 euroa. Työvoimakustannusten ohella hankkeen aloitusvaiheen suurimmat menoerät muodostuvat tietotekniikasta ja ohjelmistoista.

"Palvelinlaitteistojen ja ohjelmistojen hankinta digikirjastoa perustettaessa oli suhteellisen suuri kuluerä", sanoo pääsuunnittelija.