IPALIA-projekti parantaa suurten kuvakokoelmien saatavuutta kehittämällä metadatan merkintäjärjestelmää

Ilmavalvonta lotta kiikaroi taivaalle
”Ilmavalvontalottaa (Ellen Kiuru) kuvataan Lahdenpohjan ilmavalvontatornissa. Suomalaisen tk-kuvaajan lisäksi kuvaamassa saksalaiset pk-miehet.” Lahdenpohja 11.7. 1942. SA-kuva

IPALIA-projektin (Improving Public Accessibility of Large Image Archives) tarkoituksena on parantaa suurten kuvakokoelmien saatavuutta ja löydettävyyttä.

Teksti: Hille Ruotsalainen

Saatavuutta pyritään parantamaan kehittämällä tekoälypohjainen merkintämenetelmä, jolla voidaan tuottaa laadukkaita tekstikuvauksia valokuvien sisällöstä. Esimerkkikokoelmana käytetään Puolustusvoimien kuva-arkiston ylläpitämää SA-kuvat-kuva-arkistoa (http://sa-kuva.fi/). 

EU: n saavutettavuusdirektiivi (DIREKTIIVI (EU) 2016/2102) tuli voimaan syyskuussa 2020, ja siinä vaaditaan, että kuvien sisällön tekstikuvaus lisätään kaikkiin verkossa julkisesti saatavilla oleviin kuviin. Tällä hetkellä ei kuitenkaan ole olemassa halpoja ja tehokkaita menetelmiä riittävän kuvauksen lisäämiseksi. Tämä näyttää olevan suurin pullonkaula, joka estää julkisten palvelujen tarjoajia, kuten museoita ja kuva-arkistoja, täyttämästä direktiiviä. Suomenkielisen ja erityisesti suomalaisen kuvasisällön kohdalla ongelma on vielä selvempi.  

IPALIA-hanke tarjoaa konkreettisen ratkaisun tähän ongelmaan ja vastaa siten yhteiskunnalliseen tarpeeseen: digitaalisten palvelujen yleisen saatavuuden parantamiseen. Tämä tulee auttamaan myös eri alojen tutkijoita, koska suurten kuva-aineistojen raakadatan seulominen vie aikaa. Tekoälyn ja koneoppimisen uudet mahdollisuudet säästävät tutkijat aineistojen läpikäymiseltä ja aikaa säästyy tutkimusanalyysiin.  

Automaattiset valokuvien kuvaukset ovat erityisen tärkeitä näkövammaisille. On tärkeää, että verkko on kaikkien ulottuvilla, jotta vammaisille taataan yhtäläinen pääsy ja yhtäläiset mahdollisuudet. Esteettömät verkot voivat auttaa vammaisia ​​osallistumaan aktiivisemmin yhteiskuntaan. Samalla valokuvien automaattisten kuvausten tarjoaminen auttaa kaikkia käyttäjiä, koska se lisää kuvien löydettävyyttä yleensä.  

Ruuhi ”uiskentelee” ensimmäistä kertaa Kananaisten järvessä. Kananaisten kylä 25.7. 1941. SA-kuva.

Tampereen yliopiston ITC-tiedekunnasta tutkimukseen osallistuu kolme tutkimusaluetta: informaatiotutkimus, koneoppiminen ja valokuvan tutkimus. Monitieteinen yhteistyö tuo lisäarvoa myös tekoälyn tutkimuksen ulkopuolelle. 

Informaatiotutkimukselle projekti on ainutlaatuinen tilaisuus tutkia, miten tekoälykuvaukset tuottavat uusia tiedontarpeita ja miten ihmiset arvioivat uuden sisällön merkityksellisyyttä sekä miten ja miksi he hakevat kuvia ja tutkivat kuvakokoelmia. 

Koneoppimisen tutkimusalueella kehitetään aiemman tutkimuksen pohjalta (ks. esim. Chumachenko et al, 2020; Seker et al., 2021) kuvien tekoälypohjaista analysointi- ja merkintämenetelmää. 

Valokuvan tutkimukselle IPALIA-projekti antaa mahdollisuuden tutkia suuria valokuvakokoelmia näkökulmista, jotka eivät ole olleet aiemmin mahdollisia. Tämä voi johtaa uuteen tieteelliseen läpimurtoon. 

Monitieteisen tutkimusprojektin tutkimuskysymykset ovat: 

  1. Millaisia käyttäjävaatimuksia liittyy kuvakokoelmien käyttöön? 
  1. Kuinka voidaan tuottaa kuvatekstejä, joissa on enemmän spatiaalista kuvailua? 
  1. Miten voidaan kehittää suomenkielisiä kuvauksia ja ottaa huomioon suomalaiset sisällöt? 
  1. Miten projektissa kehitetyt metodit voivat edistää saatavuutta? 

Informaatiotutkimuksen osalta (kuvatietotarpeet) tutkitaan kuvan sisällön käyttöön liittyviä käyttäjien vaatimuksia, eli i) miten tietoympäristön käsitykset vaikuttavat resurssi-mieltymyksiin ja ii) mistä tietoresurssien osista toimijat havaitsevat tiedon vihjeet ja iii) mihin tarkoituksiin (ks. esim. Kumpulainen & al.,2020). Tämä auttaa ymmärtämään, miten ja mihin tarkoituksiin ihmiset kuvia käyttävät.  

Esimerkkiaineisto SA-kuva-arkisto on Suomen Armeijan 160000:n valokuvan kokoelma talvisodasta, jatkosodasta ja Lapin sodasta vuosilta 1939-1945. Aineisto on sodanaikaisten tiedotuskomppanian valokuvaajien kuvaamaa. Suurin osa kuvista on mustavalkoisia. 

Tyypillistä on, että kuviin on liitetty kuvateksti, joka kertoo esim. kuvauspaikan, ajankohdan, kuvaajan ja tietoa kuvauskohteesta. Nämä tiedot näkyvät hakijalle, kun SA-kuvapalvelusta hakee kuvia.  Kaikissa kuvissa ei kuvatekstiä ole ollenkaan, ja tekstit saattavat olla puutteellisia sekä sisältää virheitä. Sotakuvien kuvatekstit on usein kirjoitettu painottamalla seikkoja, jotka eivät täytä saavutettavuuden ehtoja. Lisäksi kuvien tekstit voivat sisältää sotatilanteeseen liittyviä ideologisia tai propagandistisia ilmauksia. Kuvan alla on esimerkki kuvan 35604 metatiedoista.  

Suomalainen sotilas pyykillä Kollaanjoella. Kuvan numero: 35604. Kuvaaja: Vänrikki Ruponen, R. Kollaa. Päiväämätön. SA-kuva.

Aiemman tutkimuksen pohjalta tiedetään, että ihmiset käyttävät kuvia eri tarkoituksiin ja eri ammattien edustajien kuvatietotarpeet vaihtelevat (Beaudoin, 2014). IPALIA-projektissa SA-kuvien käyttäjien tiedontarpeita ja kuvien hakutottumuksia ja käyttötapoja selvitetään aluksi kyselytutkimuksen ja sen jälkeen syventävien haastattelujen avulla. Näiden pohjalta pyritään kehittämään metadatan automaattinen merkintäjärjestelmä. 

Lisätietoa  

Linkki Ipalia-projektista kertovaan uutiseen:  https://www.tuni.fi/fi/ajankohtaista/tekoaly-seuloo-sotakuvia-eu-direktiivia-varten 

Esimerkkejä kuvien analysoinnista:  Alexandros Iosifidis – Historic Photo Analysis

Lähteet 

Beaudoin, J.E. (2014). A framework of image use among archaeologists, architects, art historians and artists. Journal of Documentation, 70(1), 119–147. https://doi.org/10.1108/JD-12-2012-0157 

Chumachenko, Männistö, A., Iosifides, A. & Raitoharju, J. (2020). Machine Learning Based Analysis of Finnish World War II Photographs. IEEE Access, 8, 144184-144196. https://doi.org/10.1109/ACCESS.2020.3014458 

EU:n saavutettavuusdirektiivi (DIREKTIIVI (EU) 2016/2102). https://eur-lex.europa.eu/legal-content/FI/TXT/?uri=CELEX%3A32016L2102 

Kumpulainen, Keskustalo, H., Zhang, B., & Stefanidis, K. (2020). Historical reasoning in authentic research tasks: Mapping cognitive and document spaces. Journal of the Association for Information Science and Technology, 71(2), 230–241. https://doi.org/10.1002/asi.24216 

Seker, Männistö, A., Iosifidis, A., & Raitoharju, J. (2021). Automatic Social Distance Estimation From Images: Performance Evaluation, Test Benchmark, and Algorithm. 

Kommentit

Vastaa

Käsitellään kommentteja...

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *