Katoavien aineistojen ongelma

Kuka muistaa korpun ja lerpun? Nyt gigatavukokoluokan älykännyköiden aikaan ne tuntuvat muinaisilta tallennusvälineiltä. Ja kapasiteetiltaan vaatimattomilta, mahtuihan niille vain runsaan megatavun verran tiedostoja.

Tieteen historiassa ne olivat kuitenkin hetken aikaa ylivertaisia tallennusvälineitä, joille tallennettiin rutiininomaisesti tutkimustietoja. Pieni laatikollinen korppuja oli huikea edistys hyllyjä täyttäneiden mappirivistöjen korvaajaksi.

Levykkeestä ei kuitenkaan ollut arkistoksi. Tiedeyhteisö on nimittäin havahtunut siihen, että tuoreidenkin tutkimusten alkuperäisaineisto katoaa huolestuttavaa vauhtia.

Current Biology -tiedelehdessä juuri julkaistu kanadalaistutkijoiden selvitys paljastaa, että raakadata katoaa jo 10–20 vuodessa.

Aineistoksi valittiin 516 biologian alan tutkimusartikkelia vuosilta 1991–2011. Julkaisujen tekijöitä pyydettiin osallistumaan tutkimukseen, jossa selvitettiin aineistojen säilymistä.

Lähes kaikki tuoreimmat tiedot löytyivät, mutta todennäköisyys, että alkuperäisaineistot olivat käytettävissä, putosi 17 prosentilla vuodessa. 1990-luvun alkupuolen tutkimuksista enää joka viidennen työn aineistot olivat tallessa.

Yleisimmin aineistot olivat saavuttamattomissa joko siksi, että ne olivat kokonaan kadonneet tai siksi, että ne oli tallennettu muodossa, jonka lukemiseen ei enää ollut käytettävissä laitteistoa.

Aineisto saattoi siis yhtä aikaa olla sekä tallessa että lukukelvoton, kiitos nopeasti vanhentuvan tietotekniikan.
Kokonaan oma lukunsa oli tutkijoiden tavoittaminen, sillä tutkimusjulkaisuissa yhteystiedoiksi annetuista sähköpostiosoitteista toimi alle puolet.

Miksi mapit ja levykkeet sitten pitäisi säilyttää? Syitä on monia. Kiistanalaisiin tutkimustuloksiin voidaan esimerkiksi tarvittaessa palata, kun tiedot ovat tallessa.

Tärkein syy on kuitenkin se, että alkuperäisaineistoja voi käyttää jälkeenpäin tarkoituksiin, joita niitä kerätessä ei ollut tultu ajatelleeksikaan.

Joskus uutta käyttötarkoitusta ei olisi alkuperäisen työn tekoaikana voinut edes arvata. Kanadalaistutkimusta tuoreeltaan kommentoinut Nature-lehti löysi heti pari surullista esimerkkiä.

Maataloustieteilijä Melvin McCarty keräsi 1958–1973 laajan aineiston kasvien elinkierroista. Ilmastonmuutoksen noustua tutkimusaiheeksi ekologi Lizzie Wolkovich kiinnostui vanhoista kasvitutkimuksista ja halusi jatkaa McCartyn töitä.

Miten elinkierron piirteet ovat muuttuneet lämpenemisen myötä? McCarty oli kuitenkin kuollut eikä aineistoja löytynyt mistään.

Toinen esimerkki: 1980-luvulla kerätty kasviaineisto oli heitetty surutta roskiin. ”Kukaan ei ollut tiedoista kiinnostunut”, perusteli 20 kansiollisen tuhoamista tutkija Otto Solbrig.

Tarinat kadonneista aineistoista ovat aivan liian yleisiä, Nature painotti. Tutkimusjulkaisuihin ja -raportteihin tiivistetyt tulokset riittävät harvoin luotettaviksi vertailukohteiksi uusille töille, saati vanhojen koeasetelmien huolelliseen toistamiseen.

Mitä katoavien tietojen ongelmalle pitäisi tehdä? Nature ehdottaa, että tutkimuksia julkaisevien tiedelehtien tulisi vaatia kirjoittajilta aineistojen asiallista arkistointia.

Ongelmaksi nousee se, että monilla tutkimusaloilla raakadatan arkistointiin ei ole yhtenäisiä käytäntöjä, joillain aloilla ei ehkä käytäntöjä lainkaan.

Yliopistojen ja tutkimuslaitosten pitäisikin kehittää aineistojen arkistoinnin käytäntöjä ja luoda palveluita. Yliopisto-opetuksessa pitäisi myös painottaa alkuperäisaineistojen arvoa.

Menneiden olosuhteiden tietoja ei voi hankkia jälkikäteen. Ne pitää ymmärtää säilyttää keräyshetkellä.