Historioitsija-tietojenkäsittelytieteilijänä SKS:ssa

Carl Gustaf Zetterqvistin ”Jos mun tuttuni tulisi” -runon käännösaineistoa tutkimassa Göteborgin yliopiston kirjastossa. Kuva: Maria Niku

Tämän vuoden helmikuussa tuli täyteen kuusi vuotta SKS:ssa, ja jälleen kerran ihmettelin, miten monipuolista työni onkaan. Olen taustaltani historioitsija, tarkemmin sanoen antiikin tutkija, ja minulla on myös tietojenkäsittelytieteen tutkinto. Päädyin alun perin SKS:aan töihin, kun silloiseen Biografiakeskukseen haettiin toimitussihteeriksi henkilöä, jolla oli soveltuva humanistisen alan tutkinto ja teknistä osaamista. Elias Lönnrotin kirjeenvaihto -verkkojulkaisun myötä tieteellisten avoimen datan verkkojulkaisujen suunnittelusta ja toteutuksesta tuli päätyöni. Nykyisin toimin SKS:n tiedekustantamossa. Kuuden vuoden aikana työni on rönsyillyt monenlaisiin ja usein yllättäviinkin suuntiin, koodauksesta moderneilla välineillä mitä erikoisimpien vanhojen aineistojen tutkimiseen. 

Verkkojulkaisujen työstämistä eXist-db:llä

Perustyöni muodostuu valmiiden aineistojen muuntamisesta XML-muotoon sekä verkkojulkaisun käyttöliittymän suunnittelusta ja toteutuksesta kulloinkin käsillä olevaa aineistoa parhaiten palvelevalla tavalla. Esimerkkejä tällaisesta ovat Avoin Kalevala, johon Niina Hämäläisen johtama tutkimusryhmä tuottaa julkaistavat aineistot, ja Codex Aitolahti, jota varten saimme transkription ja esittelytekstin käsikirjoitusta tutkineelta Harri Uusitalolta. Elias Lönnrotin kirjeenvaihto ja Avoimen Kalevalan osat 1-3 toteutettiin Omeka-alustalla. Sittemmin olemme siirtyneet käyttämään XML-tietokanta ja ohjelmistokehitysalusta eXist-db:tä ja TEI 5-muotoiselle XML-aineistolle perustuvien julkaisujen rakentamiseen tarkoitettua TEI Publisher-sovellusta, jonka templaattimalli ja muut ominaisuudet mahdollistavat monentyyppisten julkaisujen toteuttamisen suhteellisen rajallisella käsityön määrällä.

Verkkojulkaisemisen perusmallissa aineistot päätyvät työpöydälleni valmiina: transkriptiot ja metatiedot täytyy vain koodata XML-muotoon ja lisätä alustalle. Usein näin ei kuitenkaan ole vaan myös aineiston sisältö vaatii muokkausta.

Metsäsuomalaisten kirjeet Gottlundille -verkkojulkaisua varten jouduin yhdessä nykyisin SKS:n tiedekustamon johtajana toimivan Kirsi Keravuoren kanssa käyttämään eräänkin tuokion kirjeiden kirjoittajien ja kirjoituspaikkojen nimien standardimuotojen selvittelemiseen – sama kirjoittaja kun saattoi kirjoittaa oman nimensä tai paikannimen usealla eri tavalla eri kirjeissään.

Viime ystävänpäivänä julkaisimme SKS:n arkiston hallussa olevan käsikirjoituksen Carl Gustaf Zetterqvistin (1816–1902) ”Jos mun tuttuni tulisi” -runon käännösaineistosta. Transkriptioitten laatiminen arabiasta, gootista, sanskriitista tai tahitin kielestä olisi ollut mahdoton tehtävä, mutta ainakin käännösten metatietoja oli mahdollista täydentää. Niinpä hain käännösten kirjoittajille etunimiä, elinvuosia ja muita henkilötietoja VIAF:ista ja eri maiden biografisista aineistoista. Esimerkiksi friuli ja muut Italiassa puhutut kielet vaativat nekin lisää selvittelyä.

Zetterqvistin käännösprojektiin liittyvää saksankielistä kirjeenvaihtoa. Göteborgin yliopiston humanististen tieteiden kirjasto, käsikirjoitusosasto.

Työ verkkojulkaisujen parissa ei pääty, kun ne on saatu auki verkkoon, vaan niiden pitää myös tavoittaa kohdeyleisö. Tämä tarkoittaa esimerkiksi tiedottamista sosiaalisessa mediassa ja artikkeleiden kirjoittamista. Zetterqvist-julkaisusta suunnittelemiini juttuihin liittyen tuli tarpeelliseksi matkata Göteborgiin tutkimaan alkuperäisiä käännöksiä, Zetterqvistin käymää monenkielistä kirjeenvaihtoa sekä muuta käännöshankkeeseen liittyvää aineistoa yliopiston humanististen tieteiden kirjaston käsikirjoituskokoelmassa. Kirjeenvaihto sisältää muun muassa 1800-luvun saksalaisten kielitieteilijöiden kirjeitä. Nykysaksan lukeminen kyllä onnistuisi, mutta 1800-luvun saksa (ks. kuva yllä) vaatisi erikoisasiantuntijan apua.

Kuvakaappaus Transkribuksen käyttöliittymästä

Nyt käsillä olevissa uusissa haasteissa on sekä hyvin vanhaa että ihan uutta.

Taannoin puhuimme SKS:n arkiston väen kanssa, että Aitolahden koodeksin rinnalle olisi hyvä saada verkkojulkaisuksi toinen arkiston hallussa olevista, 1600-luvulta peräisin olevista Kristoffer Baijerilaisen maanlain (1442) suomennoksista eli Nordströmin koodeksi. Transkriptiota vain ei ole saatavilla, joten se olisi tehtävä itse. Apuvälineitä on onneksi tarjolla. Tästä Martti-herran suomennoksesta on useita variantteja, joista Tukholman koodeksin transkriptio on julkaistu vuonna 1905 ja saatavilla Kotimaisten kielten keskuksen verkkosivuilla avoimella lisenssillä. Vuonna 1930 on julkaistu lisäksi kirja, jossa on listattu sana sanalta usean Martti-herran suomennoksen variantin, myös Nordströmin koodeksin, erot verrattuna Tukholman koodeksiin. Nordströmin koodeksin transkription laatiminen sujunee, hitaasti ja sivu kerrallaan, Tukholman koodeksin pohjalta. Jälkimmäisen transkriptioon tehdään muutoksia Nordströmin koodeksin faksimilekuvien ja vuoden 1930 teoksen perusteella.

Ihan uutta puolestaan on hanke, jossa on tavoitteena opettaa Transkribukselle vanhaa käsinkirjoitettua suomea. Opetusaineistona toimivat Eliel Aspelin-Haapkylän päiväkirjat. Tarkemmin sanoen päämääränä on toisaalta tuottaa Aspelin-Haapkylän tekstistä automaattisia transkriptioita, joissa on kohtuullisen pieni merkkikohtainen virheprosentti, toisaalta kehittää vanhan käsinkirjoitetun suomen automaattista transkriboimista yleensä. Ensin on transkriboitava käsin osa aineistosta, jolla sitten opetetaan konetta. Tätä kautta luotua mallia käytetään transkriptioiden tuottamiseen.

Ensimmäisissä kokeiluissani (kuva yllä) koneella oli vaikeuksia juuri niissä asioissa, joita saattoi odottaa ennakolta: päiväkirjat ovat yleensä itseä varten kirjoitettuja ja kirjoitustyyli on siten ”huolimatonta”. Aspelin-Haapkylä esimerkiksi jättää usein a-kirjaimet auki, jolloin a-, n- ja u-kirjaimet ovat samankaltaisia. R- ja s-kirjaimet ovat myös usein samannäköisiä. Ihmislukija saa selvää tällaisista sattumanvaraisista huolimattomuuksista, mutta kone ei välttämättä pysty samaan. Tulevat kokeilut näyttävät, missä määrin automaattisten transkriptioiden laatua saa parannettua.


Kommentoi

Sähköpostiosoitettasi ei julkaista.