Yliopistojen IT

Yhteystiedot

IT UNIVERSITAS

Yhteistyötahot

Ohjeet, säännöt

Tapahtumat

Yhteistoiminta

Linkit

Vinkkinurkka

Päivitetty viimeksi 31.1.2007



Takaisin sisällysluetteloon
IT Universitas nro 1 / 31. tammikuuta 2007

Suomalaista kulttuuria semanttisessa webissä:
MuseoSuomesta taotaan KultuuriSampo

Eero Hyvönen
Semanttisen laskennan tutkimusryhmä
Teknillinen korkeakoulu, viestintätekniikan laboratorio ja
Helsingin yliopisto, tietojenkäsittelytieteen laitos

Semanttisen webin ajatuksena on luoda nykyisen webiin uusi (meta)tietokerros, joka kertoo millaisia sisältöjä missäkin verkko-osoitteessa on käytettävissä ja miten nämä liittyvät sisällöllisesti toisiinsa. Sisällönkuvailu perustuu täsmällisesti määriteltyihin sanastoihin, ontologioihin, joiden avulla verkon sisällöt saadaan keskenään yhteismitallisiksi ja tietokoneille ”ymmärrettävään” muotoon. Tämä puolestaan mahdollistaa aiempaan älykkäämpien web-sovellusten toteuttamisen ihmiskäyttäjille, esimerkiksi sisältöperustaisen haun ja tietosisältöjen automaattisen linkittämisen temaattisiksi kokonaisuuksiksi.

Eero Hyvönen

Eero Hyvönen
Kuva: TKK:n arkisto

FinnONTO-hankkeella kohti suomalaista semanttista webiä

Suomessa semanttista webiä kehitetään mm. kansallisessa Suomalaiset semanttisen webin ontologiat (FinnONTO) -hankkeessa 2003-2007. Sen tavoitteena on suomen kieleen ja kulttuuriin perustuvan pohjan luominen kansalliselle semanttiselle webille. FinnONTO-hankkeen tuloksena syntyy kansallisia ontologioita, kuten Yleiseen suomalaiseen asiasanastoon (YSA) perustuva noin 20 000 käsitteen Yleinen suomalainen ontologia (YSO), ontologioiden hyödyntämisessä tarvittavia työkaluja ja ontologiapalveluita sekä demonstraatioita semanttisen webin käytännön sovelluksista.

FinnONTO on päärahoittajansa Tekesin mukaan sen kaikkien aikojen laaja-alaisin hanke yrityskonsortion koolla mitattuna. Mukana on 37 hanketta rahoittavaa yritystä ja julkista organisaatiota. Päävastuu tutkimus- ja kehitystyöstä on Teknillisen korkeakoulun viestintätekniikan laboratoriolla ja Helsingin yliopiston tietojenkäsittelytieteenlaitoksella toimivalla Semanttisen laskennan tutkimusryhmällä (SeCo) (http://www.seco.tkk.fi). Mukana yhteistyössä ovat myös Tampereen yliopiston informaatiotutkimuksen laitos, Helsingin yliopiston yleisen kielitieteen ja käännöstieteen laitokset sekä TKK:n geoinformaatio- ja paikannustekniikan laboratorio.

Yksi FinnONTO-hankkeen keskeinen sovelluskohde on suomalaisen kulttuurin julkaiseminen semanttisessa webissä. Hanke julkisti vuonna 2004 ”MuseoSuomi – Suomen museot semanttisessa webissä” –järjestelmän, joka on saanut sittemmin mm. kansainvälisen tutkijayhteisön Semantic Web Challenge –palkinnon Japanissa ja kotimaassa pääministerin kunniamaininnan innovatiivisimmasta web-sovelluksesta hallituksen Tietoyhteiskuntaohjelman Laatua verkkoon –kilpailussa. MuseoSuomi on demonstraatio julkaisukanavasta, jonka kautta maamme eri museot voivat julkaista yhdessä kokoelmiaan webissä sisällöllisesti yhteismitallisella tavalla.

MuseoSuomen ideana on muodostaa kansalaisille webiin virtuaalisesti yksi yhtenäinen kansallinen museokokoelma, joka koostuu saumattomasti toisiinsa yhdistetyistä eri museoiden kokoelmista. MuseoSuomi tarjoaa käyttäjälleen älykkään web-palvelun, jonka kautta voi 1) hakea tietoja samanaikaisesti kaikista järjestelmään kuuluvista kokoelmista ja 2) samoilla kokoelmissa sisältöjä yhdistäviä temaattisia suositteluja seuraten. Sovellus on koekäytössä webissä Teknillisen korkeakoulun ylläpitämänä (http://www.museosuomi.fi) ja sillä on nykyisin noin 10 000 eri käyttäjää kuukaudessa.

Perinteisistä hakukoneista poiketen MuseoSuomen haku perustuu hakusanojen taustalla oleviin käsitteisiin ja luokitteluihin, ontologioihin, mikä helpottaa merkittävästi hakukyselyiden muodostamista ja johtaa tarkempiin hakutuloksiin. Kysely voidaan tehdä vaivattomasti tekemällä linkkivalintoja yhdeksästä eri luokitteluista (näkymästä), kuten ”esinetyyppi”, ”materiaali” ja ”käyttöpaikka”. Jokaisen valinnan jälkeen hakutuloksena ovat kohteet, jotka vastaavat samanaikaisesti kaikkia tehtyjä valintoihin. Esimerkiksi esinetyypin valinnalla ”päähine” voidaan löytää erityyppiset päähineet, kuten ”silinterit”, ”ylioppilaslakit” tai ”harakat” ilman että käyttäjän tarvitsee pystyä luettelemaan näitä sanoja erikseen. Käyttöpaikan valinnalla ”Etelä-Suomen lääni” voidaan viitata automaattisesti kaikkiin kyseisen alueen kuntiin, kyliin, kaupunkeihin ja kaupunginosiin kuten luonnollisessakin kielessä. Tällainen sanojen taustalla oleviin käsitteisiin perustuva tiedonhaku on lisäksi mahdollista tehdä samanaikaisesti kohteiden eri ominaisuuksien suhteen. Esimerkiksi valitsemalla kiinnostuksen kohteeksi ”päähineet”, kohteen käyttöpaikaksi ”Etelä-Suomen lääni” ja käyttäjäksi ”nainen” löytyvät kaikki ko. läänin eri kunnissa ja kylissä naisten käyttämät erityyppiset päähineet.

Hakupalveluiden ohella järjestelmä tarjoaa kullekin kohteelle automaattisesti muodostettuja suosittelulinkkejä toisiin kiinnostaviin kohteisiin. Suosittelut perustuvat haun tapaan järjestelmän taustalla olevien kokoelmatietojen muodostamaan assosiatiiviseen semanttiseen verkostoon, joka koostuu noin 10 000 käsitteestä seitsemässä eri ontologiassa sekä yli 4000 kokoelmakohteen metatiedoista. Lisäksi tietokoneelle on ohjelmoitu ”maalaisjärkeä” kulttuurisisältöjen merkityksestä logiikan sääntöinä. Kone esimerkiksi ymmärtää, että ylioppilaslakit liittyvät juhlatapahtumiin, joiden eräs erikoistapaus ovat ylioppilasjuhlat.



KultuuriSampo – suomalainen kulttuuri semanttisessa webissä

MuseoSuomi oli ensimmäinen askel kohti laajempaa järjestelmää ”KulttuuriSampo – suomalainen kulttuuri semanttisessa webissä”. KultuuriSammon ideana on kehittää MuseoSuomen kaltainen julkaisukanava kaikenlaisten kulttuurisisältöjen, ei ainoastaan museoiden esinekokoelmien julkaisemiseksi ja automaattiseksi linkittämiseksi semanttisessa webissä. Kehitystyön lähtökohtana on ajatus siitä, että webin kautta saatava kulttuurikokemus syntyy kohteiden ohella näiden välisistä kiinnostavista yhteyksistä ja näiden tietojen avulla luoduista temaattisista kokonaisuuksista, kuten fyysisissä näyttelyissä tai vierailuissa eri kohteissa.

Kuva 1 esittää esimerkkinä semanttisen webin mahdollisuuksista KultuuriSammon ensimmäisen prototyypin käyttöliittymää vuodelta 2005. Siinä käyttäjä tutustuu Ateneumin kokoelmiin kuuluvaan Akseli Gallen-Kallelan maalaukseen ”Kullervon kirous”, joka näkyy vasemmalla. Keskellä näkyvät maalauksen metatiedon ja tämän alla linkkeinä ontologiset käsitteet, joihin maalaus liittyy. Linkkejä painamalla avulla voidaan löytää muut ao. käsitteisiin liittyvät kohteet MuseoSuomen tapaan. Oikealla näkyvät KultuuriSammon loogisen päättelyn tuottamat suosituslinkit muihin sisältökohteisiin sekä suomenkieliset perustelut linkityksille. Ylin linkki johtaa Kansallismuseon kokoelmissa olevaan tuohikonttiin, koska maalauksen metatiedoista löytyy tieto siitä, että tämäntyyppinen kontti esiintyy maalauksessa. Keskimmäinen linkki johtaa maalauksen luoneen Akseli Gallen-Kallelan biografiaan ja alin linkki Kalevalan runon 31 siihen kohtaan, johon maalaus liittyy.


Kuva 1. Akseli Gallen-Kallelan teos Kullervon kirous (Ateneumin taidemuseon kokoelmat)
ja siihen linkkittyneitä sisältöjä KulttuuriSammossa.

Temaattisia kulttuurialan virtuaalinäyttelyitä on tehty runsaasti käsityönä sekä CD-levitykseen että webiin. Tämä onnistuu pienille muuttumattomille aineistoille kohtuullisilla kustannuksilla. MuseoSuomessa ja KultuuriSammossa on kuitenkin kysymys laajoihin ja muuttuviin kokoelmatietokantoihin ja kohdejoukkoihin perustuvista virtuaalinäyttelyistä, jossa voi olla kymmeniä tuhansia erityyppisiä kohteita kuten esineistöä, valokuvia, maalauksia, videoita, maastokohteita, rakennuksia jne. Lisäksi kokoelmat kasvavat ja sisällöt lisääntyvät vuosi vuodelta. Käsin tehtävä kiinteä teemoitus tai linkitys ei aineistojen monimuotoisuuden, laajuuden ja muuttumisen vuoksi ole käytännössä mahdollista, vaan tähän tarvitaan tietokoneen apua.

Tietokone on hyvä väline myös silloin, kun samasta aineistosta halutaan automaattisesti tuottaa erilaisia näyttelyitä. KultuuriSammossa linkityslogiikkaa voidaan muuttaa ilman että aineistoa tarvitsee muokata. Visiona on, että kertaalleen semanttisesti asianmukaisesti tuotettu aineisto voidaan käyttää sellaisenaan hyödyksi eri toimijoiden eri sovelluksissa, ei ainoastaan kunkin sisällön tuottajan omassa ainutkertaisessa tietojärjestelmässä. KultuuriSampo on yhteisöllinen sovellus Web 2.0 hengessä eri sisällöntuottajille. Se on hiili, johon eri sisällöntuottajat voivat yhdessä puhaltaa kansallisen tason KulttuuriSammon takomiseksi.

 

Tapahtumat sisällönkuvailun ytimenä

KultuuriSampo laajentaa MuseoSuomea paitsi uusilla sisältötyypeillä myös uudenlaisella sisällön kuvailun menetelmällä. Keskeiseen asemaan on nostettu tapahtumat sekä näistä muodostuvat laajemmat kokonaisuudet, prosessit ja tarinat. KultuuriSammon vision mukaan kulttuurin sisällöllisen ytimen muodostavat yhteiskunnan ja tarinoiden tapahtumat. Siksi niiden tulisi olla keskeisessä asemassa kulttuurisisältöjen semanttisen haussa ja linkittämisessä. Tapahtumat tarjoavat semanttisen perustan aiempaa tarkempaan kulttuurikohteiden sisällönkuvailuun tietokonetta varten. Niiden avulla voidaan ilmaista sisällönkuvailussa käytettyjä asiasanoja vastaavat ontologiset käsitteet sekä näiden väliset keskinäiset roolit.

Esimerkiksi kuvassa 2 olevassa Akseli Gallen-Kallelan ”Aino triptyykissä” Väinämöinen ajaa takaa Ainoa, joka hukuttautuu järveen. Maalauksen kokoelmatietokannassa olevista metatiedoista löytyvät sisällönkuvailukentässä mm. asiasanat ”Väinämöinen”, ”Aino”, ”hukkuminen” ja ”järvi”. Näiden käsitteiden välisten suhteiden ymmärtäminen edellyttää kuitenkin inhimillistä tietämystä ja tulkintaa maailmasta ja Kalevalasta. Asiasanoista ei esimerkiksi käy ilmi, kuka maalauksessa hukkuu vai liittyykö se vain ylipäänsä hukkumisteemaan. Ongelma ratkaistaan KultuuriSammossa kuvaamalla Ainon hukkuminen YSO-ontologiasta otetulla ”hukkuminen” –käsitteellä, jonka suhteen ”Aino” on aktiivisena toimijana (agent) ja ”järvi” paikkana. Näin tietokone voi ymmärtää, että kuvassa Aino todellakin hukkuu järveen ja ettei esimerkiksi järvi hukkunut Väinämöiseen.


Kuva 2. Akseli Gallen-Kallelan Aino triptyykki (Ateneumin taidemuseo).

Insinöörien ja tietokoneen Kalevala

Yksittäisiä tapahtumia ketjuttamalla voidaan kuvailla laajempia prosesseja ja tarinoita. Koska Kalevalainen symboliikka ja tarinat muodostavat keskeisen inspiraation lähteen suomalaisessa kulttuurissa, ollaan KulttuuriSammossa kokeilemassa Kalevalan esittämistä koneen ymmärtämässä muodossa YSO-ontologian mukaisina tapahtumina. Näin tarjoutuu mm. mahdollisuus yhdistää maalauksia ja maataloudessa käytettyä esineistöä Kalevalan teksteihin ja tätä kautta toisiinsa. Kalevala on käännetty n. 60 eri ihmiskielelle. KulttuuriSammossa kokeillaan ensi kertaa Kalevalan kääntämistä tietokoneen ”ymmärtämälle” kielelle.

Samaa ideaa on kokeillaan myös kulttuuristen prosessien kuvailuun. Esimerkiksi kuva 3 esittää perinteisen kaskiviljelyn vaiheita prosessina. Tällaisten kuvausten avulla voidaan paitsi tallentaa tietoa katoavasta kansanperinteestä myös yhdistää prosessin eri vaiheisiin liittyvää tietoa, kuten kaskiviljelyssä käytettäviä työkaluja tai kaskiviljelyyn liittyviä kohtia Kalevalassa. Myös Suomen historiasta ollaan laatimassa tapahtumiin perustuvaa ontologista kuvausta, sillä historialliset tapahtumat ovat tärkeässä asemaassa kulttuurisisältöjen linkittämisessä.

Kuva 3. Kaskiviljelyn semanttinen kuvailu tapahtumina KultuuriSammossa.

 

Karjala takaisin semanttisessa webissä

KultuuriSampoon kerätään alkuvaiheessa aineistoja liittyen erityisesti Karjalaan, Kalevalaan ja 1800-luvun maataloudesta elävään Suomeen aineistojen linkittymisen edistämiseksi. Luovutetun Karjalan esineistö kulkeutui ja hajasijoitettiin toisessa maailmansodassa evakuoinnin yhteydessä useaan maamme eri museoon, jotka ovat nyt mukana sisällöntuottajina KulttuuriSampo-hankkeessa opetusministeriön tuella. Web tarjoaa julkaisukanavan, jonka avulla hajasijoitetut Karjalan kulttuurisisällöt voitaisiin koota verkon kautta jälleen yhteen. Vastaavanlainen kulttuurisisältöjen hajautuminen eri museoihin ja maihin on hyvin yleistä ja ongelmallista mm. Keski-Euroopassa, puhumattakaan entisistä siirtomaista.

 

Sisältöjen visualisointi ja liittäminen toisiin palveluihin

Sisältöjen hakuun ja visualisointiin käytetään uusinta web teknologiaa. Keskeisessä roolissa tulevat olemaan Google Maps –palvelun satelliitti- ja karttakuvat yhdistettynä MuseoSuomen ja KultuuriSammon omiin sisältöihin. Kuvassa 4 on esimerkki Google Maps -palvelun yhdistämisestä MuseoSuomeen. Kokoelmien esineistö on peilattu niiden paikkatiedon perusteella vasemmalla näkyvälle kartalle. Punaista pallukkaa klikkaamalle käyttäjä voi tehdä automaattisesti haun oikealla näkyvään MuseoSuomeen. Kuvassa valintana on ollut ”Helsinki”, jolloin hakutuloksessa näkyvät kaikki Helsingin alueella valmistetut tai käytetyt esineet. Samalla systeemi on avannut pallukan kohdalle linkkivalikoiman muihin verkossa oleviin hakukoneisiin, kuten Wikipediaan ja Yleisradion uutispalveluun. Linkkiä painamalla voidaan tehdä paikannimeen liittyvä haku linkin osoittamaan palveluun, esimerkiksi hakea Wikipedian Helsinkiä käsittelevä artikkeli.

Kuvassa 5 Google Maps –palvelu on yhdistetty vanhoihin suomalaisiin maanmittauslaitoksen Karjalan karttoihin. Keskellä oleva neliö, eräänlainen ”historiallinen ikkuna”, näyttää samanaikaisesti sekä nykyistä satelliittikuvaa että sotia edeltänyttä vanhaa karttaa Viipurin alueelta. Neliössä näkyvää tarunhohtoista nimeä ”Monrepos” ei nykyistä kartoista enää löydy.

KultturiSammosta on kehitty kaksi tutkimuksellista prototyyppiä vuosina 2005 ja 2006. Sovelluksen lopullinen demonstraatio on tarkoitus ottaa MuseoSuomen tapaan koekäyttöön webissä vuoden 2007 loppuun mennessä.


Kuva 4. MuseoSuomen ja Google Maps –palvelun yhdistäminen ”mash-up”-sovellukseksi.


Kuva 5. Luovutetun Karjalan vanhojen karttojen ja Google Maps –pavelun yhdistäminen. Keskiössä Monreposin puisto.

 

Haasteena semanttinen sisällöntuotanto

Web-sovellusten kehittämisessä kulttuuriyleisölle on runsaasti teknisiä ja käytännöllisiä haasteita. Avainkysymys loppukäyttäjän kannalta on, miten web-sivustoista saadaan kävijöiden kannalta aidosti mielenkiintoisia, hyödyllisiä ja helppokäyttöisiä. Suuria käytännön haasteita semanttisen webin yleistymiseen liittyy tietosisältöjen tuotantoon: miten museoissa, arkistoissa, kirjastoissa ja muissa sisältöä tuottavissa organisaatioissa voitaisiin tuottaa tehokkaasti metatietoa yhteismitallisessa muodossa niin, ettei sisältöjä ei tarvitsisi myöhemmin korjailla käsin kehitettäessä MuseoSuomen ja KultuuriSammon kaltaisia sovelluksia? Nykyinen asiasanoitukseen ja vapaisiin tekstikenttiin perustuva kuvailu ei ole riittävän täsmällistä tietokoneen tulkittavaksi, vaan tarvitsee tulkikseen ihmistä. Esimerkiksi termi ”Nokia” asiasanakentässä voi tarkoittaa joko yritystä, kaupunkia, F. E. Sillanpään romaanihenkilöä tai soopeli-eläintä kontekstista riippuen.

Käyttämällä sisällönkuvailussa semanttisen webin ontologioita ja URI-tunnisteita sanojen eri merkitykset voidaan yksilöidä, määritellä täsmällisesti ja sisällöt voidaan saattaa semanttisesti yhteentoimiviksi. Yhteentoimivien semanttisten sisältöjen avulla voidaan toteuttaa aiempaa käyttökelpoisempia älykkäitä haku ja samoilupalveluita, kuten MuseoSuomi-järjestelmä on osoittanut.

Tärkeä ”liiketaloudellinen” näkökohta on, että semanttisen webin avulla sisällöntuottajille voidaan tarjota yhteinen julkaisukanava. Jokaisen toimijan (Suomessa on esimerkiksi noin 1000 eri museota) ei tarvitse itse toteuttaa ja ylläpitää kalliita web-palveluita erikseen ja silti asiakkaita voidaan palvella aiempaa paremmin semanttisen yhteisportaalin avulla. Ontologioiden ja semanttisen webin teknologioiden kustannustehokas käyttöönotto edellyttää kuitenkin paitsi ontologioiden kehittämistä myös näiden käyttöön liittyviä palveluita, joihin esimerkiksi eri museoiden luettelointijärjestelmät voitaisiin yhdistää ja jota kautta yhteisesti käytettävät tunnisteet voidaan ottaa helposti käyttöön. FinnONTO-hankkeessa ollaankin kehittämässä teknisiä ratkaisuja myös näihin käytännöllisiin ongelmiin, erityisesti ontologiapalvelimia sekä puoliautomaattisen sisällönkuvailun apuvälineitä.

 

Lisätietoja:

MuseoSuomi – Suomen museot semanttisessa webissä: http://www.museosuomi.fi

FinnONTO-hankkeen kotisivu: http://www.seco.tkk.fi/projects/finnonto/

Eero Hyvönen: Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita? Signum 5, 2005. http://www.seco.tkk.fi/publications/2005/hyvonen-miksi-asiasanastot-eivat-riita-2005.pdf

Eero Hyvönen: MuseoSuomi - Suomen museot semanttisessa webissä. Järjestelmä museovieraan ja museon näkökulmasta. Helsingin yliopisto ja HIIT, 1.3.2004.
http://www.seco.tkk.fi/publications/2004/hyvonen-museosuomi-suomen-museot-semanttisessa-webissa-2004.pdf

Eero Hyvönen, Eetu Mäkelä, Mirva Salminen, Arttu Valo, Kim Viljanen, Samppa Saarela, Miikka Junnila and Suvi Kettula: MuseumFinland - Finnish Museums on the Semantic Web. Journal of Web Semantics, vol. 3, no. 2, 2005. http://www.seco.tkk.fi/publications/2005/hyvonen-makela-et-al-museumfinland-finnish-2005.pdf

Eero Hyvönen, Tuukka Ruotsalo, Thomas Häggström, Mirva Salminen, Miikka Junnila, Mikko Virkkilä, Mikko Haaramo, Eetu Mäkelä, Tomi Kauppinen and and Kim Viljanen: CultureSampo - Finnish Culture on the Semantic Web: The Vision and First Results. Developments in Artificial Intelligence and the Semantic Web - Proceedings of the 12th Finnish AI Conference STeP 2006, October 26-27, 2006. http://www.seco.tkk.fi/publications/2006/hyvonen-et-al-culturesampo-finnish-culture-on-the-semantic-web-2006.pdf

Tomi Kauppinen, Riikka Henriksson, Jari Väätäinen, Christine Deichstetter and Eero Hyvönen: Ontology-based Modeling and Visualization of Cultural Spatio-temporal Knowledge. Developments in Artificial Intelligence and the Semantic Web - Proceedings of the 12th Finnish AI Conference STeP 2006, October 26-27, 2006.
http://www.seco.tkk.fi/publications/2006/kauppinen-et-al-ontology-based-modeling-and-visualization-2006.pdf