Muinsuskaitseamet arendab uut digitaalsete objektide kirjeldamise tehisintellekti kratt Folli prototüüpi, mille eesmärk on liikuda lähemale digitaalsete objektide kirjeldamise automatiseerimisele, mis võimaldaks tõsta andmekvaliteeti, kasutada mäluasutuste töötajate aega nutikamalt ning teha kogud avalikkusele paremini ligipääsetavaks.
Pilootmuuseumidena osalevad projektis Eesti Ajaloomuuseum, Eesti Meremuuseum, Eesti Rahva Muuseum, Eesti Spordi- ja Olümpiamuuseum, Pärnu Muuseum, Saaremaa Muuseum, Tartu Ülikooli muuseum. Samuti on projekti kaasatud Eesti Rahvusraamatukogu digitaalarhiiv DIGAR, et katsetada lahendusi erinevate mäluasutuste peal.
Kratt Folli prototüübi arendustööd kestavad 12 kuud vahemikus jaanuar 2022 — detsember 2022. Projekti rahastatakse Euroopa Liidu Regionaalarengu Fondist.
Projekti juhtrühma kuuluvad Sven Lepa, Mirjam Rääbis, Urmas Sinisalu, Liisi Taimre, Ott Velsberg.
Miks on kratt Folli muuseumidele vajalik?
Muuseumide infosüsteemiga (MuIS) töötab umbes 200 inimest, kes tegelevad igapäevaselt museaalide kirjeldamisega. MuISi panustavate muuseumide peale on kokku üle 4,6 miljoni museaali, mida tuleb kirjeldada. Kirjeldatakse nii uusi sissetulevaid museaale kui retrospektiivselt juba ammu muuseumikogusse võetud museaale. MuIS on Eesti muuseumides kasutusel aastast 2008 ning andmebaasi on jõutud kanda 3,7 miljonit kirjet, millest üle 1,7 miljoni on varustatud pildiga.
Digitaalsete objektide kirjeldamise automatiseerimine:
- Aitab kaasa otsivõimaluste parandamisele: kui digitaalsed objektid on ühtlaselt ja võrreldavalt kirjeldatud, on võimalik neid ka paremini otsida ja leida nii muuseumide - kui mäluasutuste üleselt.
- Tõstab andmekvaliteeti, sest masin leiab kiiremini informatsiooni, mille otsimine võtaks inimesel oluliselt kauem aega või mille avastamine oleks keerulisem.
- Aitab kokku hoida aega ja tööjõudu.
Projekti käik
I etapp (veebruar 2022 — aprill 2022)
Projekti I etapis tehti eelanalüüs Rahvusraamatukogu digitaalarhiivi DIGAR ja Muuseumide Infosüsteemi (MuIS) pildimaterjali andmekvaliteedile. Seejärel hinnati erinevate pildituvastustehnoloogiate asjakohasust kratis Folli.
Vaatluse all olid pildipuhastalgoritmid, olemite tuvastamine, juhendamata õpe, tekstide tuvastamine ja lugemine piltidelt nign pilveteenused.
I etapi lõpuks valmis projekti teise etapi eksperimentide kava.
II etapp (mai 2022 — august 2022)
Projekti teise etapi jooksul testiti erinevaid masinõppelahendustel põhinevaid pildikirjeldusmeetodeid.
Positiivseid tulemusi saavutati järgmiste eksperimentidega:
- Inimeste ja nägude arvu hindamine piltidel. Samuti saab viitepiltide põhjal otsida pildikogust mõne huvipakkuva isiku fotosid.
- Segmenteerimismudelitega on võimalik ennustada olemeid, millest pilt koosneb (taevas, maa, hooned, loodus, vesi, jne) ja nende osakaalu pildil.
- Tekstituvastusmudelitega on võimalik välja lugeda trükikirja fotodelt ja piltidelt.
- Tüübituvastusmudelid on väga paindlikud ja lubavad ennustada kasutaja määratud kategooriaid tingimusel, et enne koostatakse piisav treeningandmestik.
Mõned eksperimendid õnnestusid vaid osaliselt:
- Testimisel ilmnesid probleemid pildipuhastusmudelitega, kus mudelid ei andnud piisavalt täpseid ennustusi pildiraamide kohta. Küll aga on lootust mudeleid parandada kui märgendatud andmeid juurde lisada ja kombineerida pildipuhastusmudel raamituvastusmudeliga.
- Samuti ei lahenenud rahuldavalt duplikaatide otsimise ülesanne Duplikaatide leidmiseks on võimalik ülesandega täiendavalt edasi tegeleda ja teha lisaeksperimente (nt testida hash funktsioonidel põhinevaid lahendusi).
- Käekirja tuvastamiseks puudub hetkel nõutavat kvaliteeti tagav treeningandmestik.
Peale eksperimentide loodi teises etapis ka demorakendus, kuhu kombineeriti kokku visuaalse piltide sorteerimise ja olemituvastuse eksperimentide tulemused. Kasutajal on võimalik uurida enam kui 250 000-pildilist kogu, milles pildid on automaatselt sisu järgi sorteeritud. Samuti saab kasutaja ise pilte märgendada ja uurida masina poolt välja pakutud märgendeid.
III etapp (september 2022 — detsember 2022)
Kolmanda etapi käigus läbiviidud eksperimentide tulemusena valmis mudel, mis suudab tuvastada laia valikut MuISis kajastuvaid populaarsemaid märgendeid.
Etapi teises pooles koostati Folli süsteemi liidestamise tehniline kirjeldus. Kirjelduses loodi ülevaade kratiarendamiseks kasutatavatest tehnoloogiatest ning käidi läbi projekti iga eksperimenti puudutavad disainivalikud, pidades silmas erisusi nende väljundis ja detailsuses. Samuti hinnati iga eksperimendi implementeerimise ressursikulu.
Lõpetuseks pakuti välja Folli edasiseks arenduseks mitmeid ideid, millest enamik eeldab olemasolevat liidestust Muuseumide Infosüsteemiga. Sealhulgas heideti pilk ka üle ajaloolise ainestiku piiride, et arutleda, millistes teistes tegevusvaldkondades oleks Folli-laadsetest tehnoloogilistest lahendustest kasu.
Tulemused
- Folli koondraport (parool: *_Folli_#_raPOrt)
- Folli demorakendus
- Folli demorakenduse õppevideo
Tehtud ja tegemisel
2021
2022
9. mail tutvustati mäluasutustele projekti I etapi tulemusi. Seminaril osalesid rohkem kui 50 erineva muuseumi, arhiivi ja raamatukogu esindajad.
II etapp. Mais alanud projekti teise etapi jooksul testiti erinevaid masinõppelahendustel põhinevaid pildikirjeldusmeetodeid. Samuti valmis krati demorakendus.
14. juulil toimus seminar pilootmuuseumitele, kus tutvustati erinevaid eksperimente ja kuulati muuseumite tagasisidet.
III etapp. Septembris alustati projekti viimase etapiga. Toimusid eksperimendid MuISi märgenditega. Valmisid Folli liidestamise tehniline kirjeldus ning visioon krati edasiarendusteks.
06. septembril tutvustati projekti mäluasutuste suveseminaril Pärnus.
10. detsembril tutvustati projekti muuseumijuhtide ümarlaual Tartus.
Folli blogi
Projekti rahastatakse Euroopa Liidu Regionaalarengu Fondist.
Lisainfo Liisi Taimre Projektijuht liisi.taimre@muinsuskaitseamet.ee