Yliopistojen 
IT

Etusivu

Yhteystiedot

IT 
UNIVERSITAS

Yhteistyötahot

Ohjeet, 
säännöt

Tapahtumat

Yhteistoiminta

Linkit

Vinkkinurkka

Päivitetty viimeksi 23.9.2004



Takaisin sisällysluetteloon
IT Universitas nro 6 / 23. syyskuuta 2004

Muiston pysyvyys ja datan tallentaminen

Jarmo Saarti, kirjastonjohtaja, Kuopion yliopisto

Jarmo Saarti

Tieto- ja viestintätekniikan kehitys on saattanut meidät kehittyneissä maissa tilanteeseen, joka ei enää vaikuta kovin kehittyneeltä. Pystymme tuottamaan erityyppistä dataa valtavia määriä, mutta emme oikein hyvin säilyttämään sitä jälkipolville. Perinteiset tekniikat - aina kivitaulujen hakkaamisesta asti - pyrkivät tallentamaan pysyviä dokumentteja ja mieluiten ikuisiksi ajoiksi. Jos aiomme elää jatkossakin digitaalisessa ympäristössä, tulee meidän ratkaista ongelma: kuinka siirretään suuret datamassat käyttökelpoisina seuraaville sukupolville ja kuinka suodatetaan näistä massoista olennaiset asiat, jotteivät käyttäjät huku informaation paljouteen.

Tietojenkäsittelyn peruskursseilla opetetaan tietokantoihin liittyen yleensä kolmitasoinen malli, jossa erotetaan raudan tasolla sijaitseva data, ohjelmiston avulla hallittavat rakenteet ja käyttäjälle näkyvät näytöt ja käyttöliittymät. Kullekin tasolle tarvitaan tässä ympäristössä useita eri sovelluksia hallitsemaan tason käytänteet ja ongelmat. Jos ajatellaan perinteistä kirjaa, niin koko paketti on yhdessä kokonaisuudessa. Kun systeemi on luotu - kirja painettu valmiiksi jaeltavaksi - niin sen jälkeen ei enää tarvita kuin varmistaa se, että lukutaitoisia käyttäjiä koulutetaan. Voimme ottaa käteemme satoja vuosia vanhan teoksen ja lukea sitä ymmärrettävästi.

Jos otamme esille tiedoston, niin ongelma ei olekaan enää niin yksinkertainen. Ensimmäiseksi saamme käteemme erilaisia esineitä aina rei'itetyistä papereista erilaisiin magneettisiin ja optisiin muistivälineisiin, joita tuntuu syntyvän kuin sieniä sateella ja joiden määritykset muuttuvat jatkuvasti. Toiseksi meidän tulee selvittää miten fyysisesti tallennus on tapahtunut tuolle välineelle ja millaisessa kone- ja ohjelmistoympäristössä ja millä versioilla.

Seuraava ongelma on selvittää käytetyt tiedostomuodot ja niissä oleva merkistö ja siinä olevat mahdolliset koodaajan tai tallentajan tekemät omat viritykset. Ja kaiken selvitystyön tuloksena saattaa olla, että teoriassa osaisimme lukea välineellä olevan datan, mutta meiltä puuttuu siihen tarvittava laitteisto.

Yksinkertainen matematiikka osoittaa, että muuttujien määrän kasvattaminen kasvattaa systeemin monimutkaisuutta ja riippuvuuksia vähintäänkin suorassa suhteessa. Välillä tuntuu siltä, että tietotekniikka kehittyy täysin yksittäisten komponenttien optimoinnin ehdolla, jolloin systeemin optimointi unohtuu. Kun nykyaikaiset avoimet tietojärjestelmät sisältävät ääretöntä lähestyvän määrän muuttujia, niin ei ole ihme, että niiden hallitseminen alkaa olla mahdotonta. Silloin kannattaa miettiä voisiko monimutkaisia ratkaisuja yksinkertaistaa ja mikä on kaiken tämän toiminnan tarkoitus.

Yliopistojen datamassojen hallinta

Yliopiston kaikki perustehtävät tuottavat runsaasti dataa, joka on tallennettu erityyppisille tallennusvälineille. Opetusmateriaalit tehdään verkkojakeluun joko sovellusohjelmilla tai oppimisympäristöissä. Tutkimus tuottaa perusdataa, joka on tallennettu hyvin eritasoisesti eri ympäristöihin. Ja tutkimusjulkaisut julkaistaan digitaalisessa muodossa, ääripäinä tekstinkäsittelyohjelmalla laadittu käsikirjoitus tai raportti sisäiseen jakeluun ja suuren kustantajan verkkopalvelussa julkaistu artikkeli tai teos. Puhumattakaan siitä suuresta datamäärästä, jonka hallinto tuottaa eri tietojärjestelmissä.

Kun tämä julkaisukäytäntö on vakiintunut yliopistoympäristöön viimeisen parinkymmenen vuoden aikana, on viime vuosina havaittu ne ongelmat, joita datan käytön varmistaminen myös vuosien kuluttua aiheuttaa. Tässä raja-arvoja asettavat juridiset määräykset, esimerkiksi kirjanpidon ja opiskelijahallinnon datan vähimmäiskäyttöajat, ja toisaalta pitkän ajan tavoitteet sitä, että tutkimustulokset tulee olla käytettävissä vähintäänkin useiden ihmissukupolvien ajan.

Kansalliskirjastossa säilytetään kultturiamme
- myös digitaalista

Jos käytetään edellä mainittua yksinkertaisuuden periaatetta, niin lähtökohdaksi tulisi tässä tilanteessa ottaa, että kukin datan tuottaja varmistaa sen, että kaikki säilyttämisen arvoinen informaatio luodaan sellaisilla välineillä - ohjelmistoilla ja tekniikoilla - jotka säilyvät mahdollisimman pitkään. Lisäksi kaikki perusdata tulee dokumentoida hyvin, jotta esimerkiksi tietokantoihin tallennettu tutkimusaineisto on hyödynnettävissä jatkossa. Jos tiedosto sisältää pelkät muuttujien arvot eikä edes kuvauksia muuttujista, ei siitä oikeasti kannata ottaa varmuuskopioita, koska se ei ole tulkittavissa.

Käytännössä tämä ei kuitenkaan toimi. Automaattisen tietojenkäsittelyn lyhyen historian aikana on jo voitu nähdä, että toive valistuneesta käyttäjästä jää haaveeksi. Suurimmalle osalle ihmisiä tietotekniikka on väline, jota käytetään. Ja käytössä otetaan mukaan entisen ympäristön toimintakulttuurit ja -tavat: jos paperille kirjoitettu kerran säilyy kymmeniä vuosia, niin pitäähän tietokoneelle tallennetun säilyä helppokäyttöisenä vähintään yhtä kauan, jos kone kerran tietää ja teksti näytöllä näyttää ihan hyvältä.

Yksinkertaiset ratkaisut monimutkaisiin ongelmiin

Ainoaksi järkeväksi ratkaisuksi organisaatiossa muodostuu tällöin prosessien määrittely ja näille prosesseille tarkoitettujen standardiratkaisujen tukeminen ja pehmeä pakottaminen niiden käyttöönotossa. Internet-ympäristö on erinomainen esimerkki tästä pakottamisesta ja sen toimivuudesta. Standardi html-koodi on periaatteessa luettavissa ikuisesti ja helposti siirrettävissä ympäristöstä toiseen. Sen päälle rakennetut yksittäiset, ei-standardinmukaiset viritykset vanhenevat ja muuttuvat käyttökelvottomiksi hyvin nopeasti. Semanttiset ratkaisut tulevat todennäköisesti olemaan yhtä haavoittuvia, koska semantiikka muuttuu yllättävän nopeasti. Oopiumi oli vielä sata vuotta sitten hyväksytty nautintoaine, ja homoseksuaalit saivat pelätä Suomessa vankeustuomiota tai passitusta mielisairaalaan vain muutama vuosikymmen sitten.

Toinen ratkaisu on turvautua dokumenteissa perinteisiin tallennusmuotoihin varmuuskopioinnissa. Valmis dokumentti sisältää kaikki tulkinnassa tarvittavat rakenteet itsessään. Paperi säilyy näillä näkymin kymmeniä vuosia, mikrofilmeillä päästään satoihin vuosiin. Jos ja kun skannaus ja optisen tunnistuksen menetelmät kehittyvät sitä vauhtia kuin mitä ne ovat viime vuosina kehittyneet, on todennäköistä, että kymmenen vuoden päästä on paljon halvempaa ja nopeampaa lukea teksti tiedostoksi paperilta tai mikrofilmiltä kuin yrittää selvittää käyttöjärjestelmää ja ohjelmistoa, jolla joku tiedosto on tuotettu (katso lisätietoja). Lisäksi kannattaa muistaa, että dokumentin käyttö vähenee radikaalisti sen iän suhteen. Tällöin käytön pitkälle tulevaisuuteen varmistava järjestelmä pitää suunnitella mahdollisemman edulliseksi ja kevyeksi.

Tietojärjestelmistä apua datamassojen säilyttämiseen

Digitaalisten dokumenttien säilyttämistä varten yliopistokirjastot ovat hankkineet DOMs (digital object management )-järjestelmän. Sen avulla on mahdollista tallettaa ja asettaa jatkuvaan käyttöön erityyppisiä dokumenttitiedostomuotoja. Järjestelmä huolehtii sisällään tiedostojen tallennusmuodon ajantasaisuudesta. (Lisätietoja).

Mielenkiintoisen haasteen datan säilyttämiseen ja käyttöönottoon tarjoaa jatkossa erityyppiset tiedonhallinnassa ja uuden tietämyksen luomisessa tarjottavat tietotekniset ratkaisut. Ihmisen kapasiteetti käsitellä suuria datamassoja on hyvin rajallinen. Tällöin tarvitaan jatkossa kehittyneitä, tietojenkäsittelyä hyödyntäviä ratkaisuja. Erittäin haasteelliseksi tämä muodostuu ihmistieteellisten aineistojen ollessa kyseessä, koska tulkinnan osuus on niissä merkittävä. Tietokoneet ovat tulkintojen tekemisessä edelleenkin orjan asemassa ja laskevat sitä, mitä niiden käsketään laskea. Tosin näyttää siltä, että datamassojen käsittelyllä ja hallinnalla on mahdollista saada aikaan uusia löytöjä.

Tietojenkäsittelyn ja tietotekniikan suuri ongelma tietoyhteiskunnassa on, että siitä tahtoo helposti tulla itseisarvo. Tällöin vaarana on, että resursseja tuhlataan päällekkäisyyksiin ja ylimitoitettuihin ratkaisuihin. Käyttäjäystävällisyys ei tarkoita sitä, että orjallisesti seurataan käyttäjin haluja vaan sitä, että tarjotaan käyttäjille heidän todellisia tarpeitaan parhaiten palvelevat työkalut. Optimisuoritus tässäkin ympäristössä on, että asia tehdään kerralla kuntoon ja tarjotaan sitten toisten hyödynnettäväksi.