Digihumppaa teekkareiden kanssa

Biografiasampo, suomalaisten elämäkertojen ja niitä rikastavan datan verkkopalvelu, avattiin syyskuun lopulla osoitteessa http://biografiasampo.fi. Digitaalista humanistista tutkimusta tukeva palvelu rakennettiin Suomalaisen Kirjallisuuden Seuran, Aalto-yliopiston Semanttisen laskennan tutkimusryhmän SeCon ja Helsingin yliopiston digitaalisten ihmistieteiden keskuksen HELDIGin yhteistyönä. Mitä syntyi kun humanisti ja teekkari löivät viisaat päänsä yhteen?

SKS toi Biografiasampoon henkilöhistorialliset tietokantansa, jotka ovat kahdenkymmenen vuoden aikana rakentuneet yhteistyössä tutkijoiden ja tieteellisten seurojen kanssa: Suomen Historiallisen Seuran kanssa tehdyn Kansallisbiografian (noin 6 500 pienoiselämäkertaa), taloushistorioitsijoiden kanssa tuotetun Talouselämän vaikuttajat -kokoelman (2 300) ja kirkkohistorioitsijoiden kokoamat kaksi papiston matrikkelia (4 000).  Kun tähän lisätään vielä Kenraalit ja amiraalit Venäjän sotavoimissa (500), kokonaisuuteen kuuluu yli 13 000 pienoiselämäkertaa. Tietokannat ovat historioitsijoiden ja muiden tutkijoiden peruskauraa: niillä on vuodessa 280 000 käyttäjää.

Tämä aineisto luovutettiin taitavalle ja innokkaalle joukolle datan rikastamiseen ja linkittämiseen erikoistuneita tietojenkäsittelytieteilijöitä, jotka ovat professori Eero Hyvösen johdolla aikaisemmin rakentaneet mm. Kirjasammon ja Sotasammon.  Kollegat Otaniemessä muunsivat ihmissilmälle tarkoitetun tekstin koneen ”ymmärtämään” muotoon, semanttiseksi linkitetyksi dataksi. Sitä tarvitaan data-analyyttiseen tutkimukseen digitaalisen humanismin kasvavalla kentällä. Datamuoto tuo SKS:n henkilöhistorialliseen tietovarantoon kokonaan uuden ulottuvuuden: aineistoa, jota tähän saakka on käytetty kvalitatiivisen tutkimuksen lähteenä, voi nyt käsitellä myös kvantitatiivisin menetelmin. Näin suuren ponnistuksen tuloksena syntynyt aineisto taipuu vastaamaan myös tutkimuksellisen paradigman muutoksiin.

Semanttista dataa voidaan rikastaa automaattisesti uudella datalla. SKS:n henkilöhistoriallisiin tietokantoihin lisättiin tietoa monista keskeisistä tietokannoista, kuten Ylioppilasmatrikkelista, Fennicasta ja Suomen humanistiverkko Agricolan aineistoista louhitusta Suomen historian HISTO-ontologiasta, samoin kuin joistakin kansainvälisistä tietokannoista ja sukututkimussivustoista.

Lopputuloksena on dataa, jossa on tietoja noin 100 000 henkilöstä ja heidän välisistään suhteista. Käyttöliittymä tarjoaa työkaluja, joilla jokainen perustietotekniikkataitoinen ihminen −  humanistikin − pystyy analysoimaan valitsemaansa henkilöä tai henkilöjoukkoa.

Biografiasammosta voi etsiä yksittäisiä ihmisiä tai ryhmiä nimellä, aikakausittain tai syntymäpaikan sukupuolen, ammatin, toimialan ja monen muun kriteerin perusteella. Hakukriteereitä voi myös yhdistää. Palvelu luo jokaiselle kohdehenkilölle oman ”kotisivun”, jossa on elämäkertoja eri lähteistä, sukupuu, verkosto sekä elämänvaiheiden visualisointi kartalla ja aikajanalla. Karttojen kautta tietoja ja ihmisten liikkumista voi tarkastella paikkalähtöisesti. Verkostotyökalu rakentaa sekä egosentrisiä, yhden ihmisen ympärille rakentuvia verkostoja että suurempien ryhmien välisiä verkostoja. Kielityökalu purkaa elämäkertatekstit sanoiksi, joiden esiintymistä erilaisissa teksteissä voi vertailla keskenään. Tilastotyökalu taipuu niin ikään ryhmien väliseen vertailuun.

Digitaalinen humanismi on, kuten kaikki hyvät ja kiinnostavat asiat elämässä, myös vaikeaa. Kukaan ei ymmärrä yhtä aikaa sekä tarjolla olevien työkalujen että työstettävän datan syvintä olemusta, vaan työ vaatii keskustelua, testausta ja viilausta.  Biografiasammossa kohtaa kaksi ajattelutapaa: Humanistille on tärkeää lähdekritiikkiin perustuva tieteellinen tutkimus, näkemyksellinen ja merkityksiä etsivä käsittely ja nautittavasti luettava teksti. Tietojenkäsittelytieteilijät puolestaan pyrkivät kehittämään linkitetyn datan automaattisen työstämiseen yhä parempia välineitä, joita voidaan käyttää myös muualla. Suuren tietomassan automaattinen käsittely tuottaa väistämättä virheitä. Humanisti saa tässä kohtaa valita, jääkö hän kentän laidalle huutelemaan vai meneekö mukaan kehitystyöhön. Parhaimmillaan yhteistyöllä luodut työkalut auttavat hahmottamaan sellaisia historiallisia ilmiöitä, joiden löytäminen suuresta tekstimassasta pelkkien silmien ja järjen avulla on mahdotonta. Juuri tämä on digihumpan ydintä.

Biografiasampo tuo siis noin sataatuhatta suomalaista käsittelevän tiedon digitaalisen humanistisen tutkimuksen käyttöön − kentälle, jossa uutta big dataa tarvitaan paljon käytettyjen aineistojen kuten Historiallisen sanomalehtikirjaston rinnalle.  Näiden aineistojen ja työkalujen käyttö vaatii, samalla tavalla kuin mikä tahansa historiantutkimus, tarkkaa lähdekritiikkiä. On tiedettävä, miten koneen analysoima aineisto on syntynyt, mitkä ovat sen lähtökohdat ja rajoitteet. Samalla on ymmärrettävä, kuinka algoritmi käsittelee ja analysoi tietoa. Visuaaliset työkalut tuottavat kauniita karttoja ja täsmällisen näköisiä tilastoja, joihin kannattaa suhtautua kiinnostuneella kriittisyydellä. Tämä kriittisyyden taito historioitsijoilla ja muilla tutkijoilla jo on, ajatus on vain käännettävä hiukan uuteen asentoon. Samalla Biografiasampoa ja muita verkkopalveluita on kehitettävä tarjoamaan tietoa myös omasta itsestään, siitä kuinka tarjotut työkalut toimivat.

Esimerkkinä tulosten ymmärtämisestä voi käyttää Kansallisbiografian pohjalta tuotettuja verkostoja, tilastoja tai kielianalyysejä. Kansallisbiografia on kokoelma merkittävinä pidettyjen suomalaisten elämäkertoja, jonka tarkoitus on ollut kattaa kaikki elämänalueet tuhannen vuoden ajalta. Toimituskunnan keskeinen työ on ollut valitseminen, sellaisen kokoelman muodostaminen, joka kuvastaa suomalaisen yhteiskunnan ja kulttuurin kehitystä yksittäisten ihmisten elämien kautta.  Tästä syntyprosessista seuraa, että Kansallisbiografian henkilögalleria ei kerro mistään omana aikanaan olemassa olleesta ryhmästä, vaan vuosituhannen vaihteen historiantutkijoiden valinnoista ja arvostuksista. Kun Kansallisbiografian aineistoa analysoidaan kielellisesti tai tilastollisesti, saadaan tietoa ennen kaikkea tutkijoiden painotuksista. Kiinnostava esimerkki on kansanedustajien pienoiselämäkertojen tekstianalyysi, miehistä ja naisista kertovien tekstien vertailu.  Naiskansanedustajien kohdalla mainitaan usein sana ”perhe” ja käsitellään myös heidän omia perhesuhteitaan. Mieskansanedustajien kohdalla perheestä ei juuri puhuta, sen sijaan verbi ”johtaa” on yleisempi kuin naispuolisten kollegoiden elämäkeroissa. Tämä kiinnostava tulos kertoo tekstien kirjoittajien painotuksista, ei kansanedustajien välisistä eroista.

Osa tietokannoista sen sijaan kuvaa tarkasti historiallista, olemassa ollutta joukkoa. Tällainen on Turun hiippakunnan paimenmuisto, joka kattaa hiippakunnan koko papiston uskonpuhdistuksesta isoonvihaan. Myös Biografiasammossa mukana oleva Ylioppilasmatrikkeli 1853−1899 on tällainen prosopografisen tutkimuksen mahdollistava aineisto.  Mahdollisuus ryhmien tutkimukseen ja niiden väliseen vertailuun onkin yksi Biografiasammon tärkeimpiä ominaisuuksia.

Kansallisbiografia ja muut henkilöhistorialliset tietokannat jäävät tietysti edelleen olemaan myös totutussa muodossaan SKS:n biografiakeskuksen sivustolle www.kansallisbiografia.fi. Niissä on hyväksi koetut käyttöliittymät, tieteellisen julkaisun vaatima tausta-aineisto sekä viittaamisen mahdollistavat pysyvät tunnisteet. Niitä myös päivitetään uusilla artikkeleilla, seuraavaksi elokuvan ja teatterin elämäkerroilla. Olemme sopineet, että ensimmäisen vuoden ajan kaikki artikkelitekstit ovat auki ja luettavissa myös Biografiasammon kautta. Näin uuden palvelun ominaisuudet pääsevät parhaiten oikeuksiinsa. Yhteinen tavoitteemme on myös tuottaa henkilöhistoriallista avointa dataa digitaalisen humanismin tarpeisiin.   Tulossa oleva henkilötietolaki sallii henkilötietojen käsittelyn tieteellistä tai historiallista tutkimusta varten ja huomioi myös akateemisen ilmaisun vapauden.  Datan avaaminen koskisi kuitenkin jo edesmenneitä henkilöitä, joita tietosuoja ei enää koske.

Biografisen työkalupakin luomisen lisäksi sammon takominen on tuottanut uutta tietoa tietojenkäsittelytieteen puolella: semanttisista biografia-aineistoista on julkaistu 13 vertaisarvioitua englanninkielistä julkaisua (katso listaus).

Biografiasammon luomistyö osoitti taas kerran todeksi sen, että digitaalisen humanismin tehokkaimpia työtapoja ovat jakaminen, yhteistyö ja aitojen ylittäminen. Nyt, kun palvelu on verkossa, tarvitaan humanistien kriittistä keskustelua sen käytöstä, mahdollisuuksista ja kehittämisestä.

Kommentoi

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *