internet, lyhyt oppimäärä

Vastaukset antoi internetasiantuntija Jukka K. Korpela.

Missä internet oikeastaan sijaitsee? Siis onko jossain joku suuri keskusmuisti vai onko netti ripoteltu tietokoneisiin ympäri maailmaa?

Kyllä voi sanoa, että ripoteltu ympäri maailmaa: maan päälle, meren pohjaan ja avaruuteen. Se ei ole kuitenkaan jakautunut tasaisesti, vaan siinä on kolme perusosaa: palvelinkoneet, tavalliset käyttäjäkoneet ja näitä kaikkia yhdistävät erilaiset tietoliikenneyhteydet. Mitään keskusmuistia ei ole, vaan tieto on hajautuneena erilaisille palvelimille.

Mikä se palvelin oikein on? Onko jossain rakennuksia, jotka ovat täynnä itsekseen hurisevia tietokoneita, vai onko palvelin ihan tavallinen tietokone, jota joku käyttää?

Sekä että, enimmäkseen siltä väliltä. On olemassa yrityksiä, joissa on satojatuhansia koneita, silloin kun halutaan varmistaa jokin palvelu moninkertaisesti. Vastaavasti kuka tahansa voi laittaa palvelimen, eikä se vaadi kovinkaan suurta osaamista, vaan siihen on valmiita ohjelmistoja ja välineitä. Yleensä vain ei ole mitään järkeä pitää omassa kodissa palvelinta, koska sen pitäisi olla ympäri vuorokauden saavutettavissa.

Ennen vanhaan tavattiin puhua kapasiteetin ostamisesta, mutta tänä päivänä sitä on ilmaiseksikin jaossa hyvin paljon. Ihan peruskotitietokoneeseenkin mahtuu paljon tietoa, mutta tiedonsiirtokapasiteetti loppuu, kun miljoona ihmistä haluaa sitä tietoa lukea. Tärkeimmät palvelut on yleensä moninkertaisesti monistettu, eli on esimerkiksi kymmenen tai sata palvelinta jotka jakavat samaa tietoa mutta palvelevat eri ihmisiä. Kapasiteetin kasvattaminen on vähän niin kuin palkattaisiin firmaan lisää asiakaspalveluhenkilökuntaa.

Mikä on se raivostuttava palvelin, joka ei vastaa tai vastaa pyyntöihin liian hitaasti?

Valitettavasti se voi tarkoittaa melkein mitä tahansa. Koska verkko koostuu monesta pienestä osasta, siinä on hyvin monta haavoittuvuutta. On tyypillistä, että kun yrittää varata lippua ja vaikka palvelin olisi lähellä, tieto kulkee monen eri koneen kautta. Monta eri palvelinkonetta välittää pyyntöjä eteenpäin, ja on monta erilaista tietoliikenneyhteyttä. Jos joku niistä on poikki, tulee ongelmia. Yleensä tieto voi kulkea montaa eri reittiä, ja jos joku piuha on poikki, se kulkee muuta kautta. Mutta sitten on yhteyksiä, jotka ovat haavoittuvaisempia kuin muut.

Myös palvelinkoneella voi olla ongelmia, ylikuormitusta tai tekninen häiriötilanne tai huoltokatkoja, ja myös käyttäjän tietokoneessa voi olla häiriötilanne. Yksi keskeinen ongelma on se, ettei internetpalvelun tarjoajan kapasiteetti tahdo riittää, koska käyttäjiä on hyvin suuri määrä.

Kun klikkaan sivulle, mistä se näytölleni saapuu? Vai sijaitseeko sivu aina jossain tietyssä paikassa, ja oma koneeni siirtyy sinne? Onko sivu olemassa, kun se ei ole auki kenelläkään?

Selain lähettää pyynnön sivusta palvelimelle, josta se tulee koneellesi. Palvelin lähettää kuitenkin vain erilaisia teksti- , kuva- ja muotoilutietoja, ja selaimesi muotoilee sivun uudestaan. Eli sivu sellaisena kuin sen näet syntyy sillä hetkellä kuin menet sille. Siinä mielessä sivu on kuitenkin olemassa, että kaikki sen aineisto on valmiina jossain. Mutta sitten on erikseen kyselyitä, esimerkiksi kun haetaan tietoja kirjaston kirjoista. Silloin suoritetaan kirjaston järjestelmästä haku ja palvelin muodostaa siitä sivun ja lähettää sen hakijalle. Se on siinä mielessä ainutkertainen, että kun joku muu tekee myöhemmin saman haun, hän saa ehkä eri tuloksia, koska tilanne on ehtinyt jo muuttua. On hyvinkin paljon sivuja, joita ei ole olemassa ennen kuin joku niitä pyytää ja palvelin ne muodostaa.

Voisiko koko netin pimentää tai sen sisällön hävittää kertaheitolla?

Todennäköisesti ei, ellei nyt sitten samalla onnistuttaisi hävittämään koko ihmiskuntaa - jos vaikka jotain tarpeeksi isoa osuisi maapalloon. Netti on aika hyvin varmistettu, ja alkuperäisen suunnittelun ajatuksia olikin, että se on häiriöitä sietävä. Jos jostain yhteys katkeaa, tieto kulkee muuta kautta, ja jos jostain palvelin tai tietokone häviää, tiedot ovat muualla tai sitten niitä tietoja ei ole, mutta netti muuten toimii. Se, mikä on viime vuosina tullut uhaksi, ovat erilaiset virukset. Mikään ei ole ollut lähelläkään netin pimentämistä, mutta aika pahaa haittaa ne ovat tehneet. Jos virus saataisiin tuhoamaan tai häiritsemään toiminnallisesti keskeisiä osia, jonkinasteinen pimeneminen syntyisi.

Jos kaikki maailman koneet sammutettaisiin yhtä aikaa, olisiko internet vielä olemassa?

Olisi se siinä mielessä, että heti kun koneet pantaisiin pystyyn, se rupeaisi taas toimimaan. Kaikki tieto, joka toiminnallisuuteen tarvitaan, on niissä koneissa itsessään.

Jäävätkö nettisivut olemaan ikuisiksi ajoiksi, jos niitä ei poista? Jos jäävät, miksi 90-luvun alun kammottavia, neonväritaustaisia sivuja ei koskaan tule netissä surffaillessa vastaan?

Ei voi taata, että joku sivu säilyy, muttei myöskään, että se poistuu. Sivusta voi olla lukematon määrä kopioita eri tahoilla, ja on myös olemassa arkistoja, joihin kerätään sivuja sellaisina kuin ne tiettyinä ajanhetkinä ovat olleet. Myös hakukoneet muodostavat omia arkistojaan. Taetta siitä, että sivun saisi kokonaan pois, ei ole. Sivu taas voi hävitä sen takia, että palvelin, jolla se sijaitsee, häviää. Käytännössä säilymisen pystyy takaamaan, jos itse pitää kopioita sivusta ja siirtää sivun, jos palvelin häviää.

Kyllä niitä vanhoja sivuja tulee vielä vastaan, mutta tietysti suhteessa hyvin vähän, koska sivujen määrähän on kasvanut eksponentiaalisesti ja vanhoja on yhä pienenevä osa. Täytyy muuten sanoa, että kammottavat neonväritaustaiset sivut tulivat vasta 90-luvun puolivälissä, kun graafiset selaimet alkoivat yleistyä. Siinä oli se vaihe, että kun värien käyttö kerran oli mahdollista, kaikkia mahdollisia värejä myös piti käyttää.

Mitä järkeä on kirjoittaa http:// nettiosoitteen alkuun, koska eihän sitä tarvita mihinkään?

Alun perin sillä oli tarkoitus ilmoittaa, mikä on se yhteyskäytäntö, jolla sivu haetaan. Niitä oli useampia, ja on periaatteessa edelleenkin. Nykyisin selaimet eivät sitä alkua kuitenkaan käytännössä vaadi. Mutta ei se ihan merkityksetön ole, sillä http:n tilalla voi olla myös esimerkiksi https, jolloin liikenne on salattua. Sitä käytetään esimerkiksi verkkopankissa ja verkkokaupassa. Osoite on siis kokonaisuudessaan se, missä on mukana http ja www, mutta selain lisää ne automaattisesti, koska osoite ei ole mahdollinen ilman niitä.

Miten on mahdollista, että eri hakukoneet löytävät eri määrän osumia tismalleen samalle hakusanalle?

Perussyy on, että ne keräävät tietoa eri tavalla. Mikään hakukone ei kata koko webiä, koska ei ole olemassa mitään yhdistettyä rekisteriä niin kuin kirjastossa. Hakukoneet lähtevät jostakin annetusta joukosta sivuja ja rupeavat seuraamaan sivuilla olevia linkkejä, ja ne voivat tehdä tätä eri tavalla. Hakutoiminnotkin ovat erilaisia: jos haet sanaa "kissa", yksi hakee vain ne sivut, joilla se on siinä muodossa ja toinen nekin, joilla se esiintyy taivutusmuodoissaan.

Jos saat vaikka miljoonia osumia, on hyvin todennäköistä, että niissä on sama sivu moneen kertaan kopioina. Eri hakukoneet tunnistavat eri tavalla sen, että tämä on itse asiassa samansisältöinen sivu kuin tuo toinen. Älykkäämpi kone antaa pienemmän määrän osumia sen takia, että se tunnistaa tällaiset duplikaatit.

Mitä on siellä, minne hakukoneet eivät ylety?

Olen aika varma, että siellä on ainakin yhdeksän kymmenesosaa kaikesta. Siellä on tietoa, joka on tietokannoissa mutta saatavissa vain niin, että tehdään haku. Toiseksi siellä ovat suojatut sivut, joille pääsee vain salasanayhdistelmällä, ja kolmanneksi sivut, joista ei vain ole kerrottu kenellekään mitään. Jos haluat vaikka laittaa perhevalokuvia nettiin, lataat valokuvat palvelimelle ja kerrot niistä ehkä sukulaisille, mutta mikään hakukone ei todennäköisesti löydä niitä niin kauan kuin missään ei ole linkkiä sinne.

Vaikka en levittele sähköpostiosoitettani missään epämääräisissä yhteyksissä, miten ihmeessä se loputon määrä roskapostia löytää tiensä perille?

On monta tapaa päätyä tietämättään ja tarkoittamattaan sähköpostilistalle. Voidaan tehdä ohjelma, joka luo osoitteita ja koettaa lähettää postia niihin. Ehkä yksi tuhannesta osuu kohdalleen, mutta se ei haittaa mainostajaa, koska tällainen toiminta ei paljon maksa. Jos vastaa viestiin mitä tahansa, roskapostittaja tietää, että osoite on käytössä ja siihen voi lähettää postia jatkossakin. Se voidaan esimerkiksi myydä eteenpäin osana isompaa osoitteistoa.

Toinen tapa on, että koneeseen iskee virus, joka hakee käyttäjän sähköpostista osoitekirjan ja lähettää sen sisällön väärinkäyttäjälle. Tai käyttää osoitekirjaa suoraan lähettämällä roskapostia käyttäjän nimissä. Lisäksi on mahdollista, että joku murtautuu ison palveluntarjoajan koneelle ja saa sieltä listan kaikkien asiakkaiden osoitteista.

Ketkä oikein tehtailevat viruksia ja mitä he niistä hyötyvät?

Siitä ei ole olemassa laajaa yksimielisyyttä. Se on selvää, että iso osa tekijöistä on nuoria miehiä, jotka haluavat vain osoittaa, että osaavat tehdä sellaisen. Tiedetään, että on ihmisiä, joilla on matala elintaso mutta tietoteknistä osaamista ja jotka purkavat turhautumista sillä tavalla. Mutta mukana on myös järjestäytynyttä rikollisuutta, joka pyrkii löytämään erilaisia turva-aukkoja. Monesti virus ei edes välttämättä tee mitään haittaa koneella, mutta kun tekijä tietää, millainen virus leviää, sitä voidaan käyttää johonkin järeämpään.

Onko ihmisellä, joka osaa vain tietokoneen peruskäytön, todellisuudessa mitään mahdollisuuksia suojella konettaan, jos joku nettivelho haluaa kaapata sen?

Nykykoneet yleensä hoitavat itse turvapäivitykset, ja ostaessa tulee mukana tietoturvaohjelmisto. Se, joka huolehtii perussuojauksesta, on kyllä melko hyvin turvassa, koska ei rikollisten kannata tuhlata aikaa siihen, minkä pystyy tekemään paljon helpommallakin. Suurempi ongelma tänä päivänä on ihan perinteinen huijaus, jossa ei ole mitään hienoa tekniikkaa takana: ihmiset huijataan sijoittamaan rahansa tai antamaan henkilötietojaan jonnekin. Sellaiselta ei ole oikeastaan myöskään teknistä tapaa suojautua. Mikään tekniikka ei suojaa ihmistä hänen omalta hölmöilyltään.