Digital humanities a automatická transkripcia rukopisných textov


Prof. PhDr. Dušan Katuščák, PhD

Abstrakt

Autor uvažuje o koncepte digital humanities. Poukazuje na naplnenie tohto konceptu na Slovensku od
70. okov 20. st. Autor považuje pojem digital humanities za spoločné pomenovanie a prierezovú
metodológiu pre všetky aplikácie informačných a komunikačných technológií (IKT) v spoločenských
a humanitných vedách, odboroch a disciplínach a im zodpovedajúcej praxi. Jadro štúdie je zamerané
na stručnú charakteristiku európskeho výskumného projektu READ = Recognition and Enrichment of
Archival Documents[1],[2], ktorého riešenie prebiehalo v rokoch 2016-2019 v rámci programu Horizon
2020. Výskumný projekt podliehal priamo Európskej komisii a bol ročne hodnotené nezávislými
hodnotiteľmi[3]. Hlavným výstupom projektu je platforma a nástroj Transkribus, ktorý predstavuje
zásadnú svetovú inováciu zameranú na transkripciu historických rukopisov a dokumentov. Autor, ako
jeden z hodnotiteľov projektu READ popisuje svoje skúsenosti a poznatky získané pri experimentálnej
transkripcii rukopisných listov Andreja Kmeťa. Vysvetľuje svoj pohľad na Digital humanities, ako
na metodologický kontext projektu a stručnú charakteristiku procesu skenovania, nahrávania obrazov,
segmentácie a automatickej transkripcie ako aj konkrétne príklady automatickej transkripcie
rukopisných listov Andrej Kmeťa a výsledky experimentu.

1.1      Úvod

Digital humanities (Digitálne humanitné vedy DH) považujeme za všeobecné pomenovanie oblasti, ktorá
je akousi strechou pre rozličné oblasti vedeckej a praktickej činnosti zamerané na využívanie
digitálnych technológií v spoločenských a humanitných vedách. V podstate ide, podľa nášho názoru, o
„staré víno v novej fľaši“, pretože digitálne technológie sa využívajú v spoločenských
a humanitných vedách v rôznej miere najmä od 70-tych rokov. Digital humanities vnímame ako pojem,
ktorý má široký rozsah a nejasný obsah. Pokiaľ ide o rozsah pojmu, tento sa nevzťahuje nejakú
jednotlivú entitu, ale na to, čo je mnohým jednotlivým entitám spoločné. Jednotlivým entitám je
spoločné uplatňovanie toho, čo sa tradične pomenúva termínom informačné a komunikačné technológie
(IKT), či digitálne technológie. Digitálne technológie[4] sú obsahom pojmu digital humanities,
pretože sú spoločnou črtou všetkých prvkov množiny entít, ktorých sa pojem týka. Digital humanities
nepovažujeme ani za vedný odbor ani za vedeckú disciplínu. Digital humanities predstavujú
prierezovú metodológiu, ktorá sa v spoločenských a humanitných vedách aplikuje vo výskume, vývoji,
manažmente a praxi.

Niet pochýb o tom, že Slovensko zachytilo v odbore knižničnej a informačnej vedy a praxe (LIS[5])
prvú vlnu aplikácie digitálnych technológií v spoločenských a humanitných oblastiach koncom
sedemdesiatych rokov, a, s istým optimizmom a očakávaním kontinuity a novátorstva sa pozeráme aj do
nasledujúcich rokov. S viacerými vedcami, odborníkmi a praktikmi sme mali možnosť podieľať sa na
využívaní IKT v LIS. Dajú sa zaznamenať určité rané i pokročilé etapy či stupne digital humanities
v oblasti knihovníctva a informačných systémov, teda v oblasti knižničných a informačných systémov
a služieb u nás.

Digitálne humanitné vedy už doteraz významne ovplyvnili LIS, ako aj iné humanitné a spoločenské
vedy a v budúcnosti ich počet určite porastie.

1.    Strojové spracovanie. Prvým stupňom digital humanities v našom odbore je strojové spracovanie
národnej bibliografie (SNB) (1968-1975), teda pomerne skoro po objavení integrovaného čipu v roku
1970.

2.    Mechanizácia a automatizácia. Druhým stupňom je mechanizácia a automatizácia (SNB) (štátny
program P13) 1975-1980.

3.    Integrácia. Za tretí stupeň digital humanities možno považovať IKIS a CASLIN (Integrovaný
kooperačný informačný systém a Česká a slovenská informačná sieť) (program P18) 1985 a n.

4.    Informatizácia, kooperácia, integrácia. Štvrtým stupňom digital humanities je program
informatizácie spoločnosti zahŕňajúci aj spoločenské a humanitné oblasti a konkrétne v našom odbore
ide o projekt KIS3G – portál Slovenská knižnica (št. program, sprievodné zavádzanie štandardov,
internacionalizácia odboru) 1994-2005. Tento projekt sa v európskom kontexte hodnotí ako zatiaľ
najvýznamnejšia praktická služba pre manažmentu znalostí[6].

5.    Scientizácia. Piaty stupeň je kvalitatívne novým aspektom digital humanities. Ide o reálnu
scientizáciu nášho odboru, rozsiahlu vedeckú kooperáciu a uplatnenie inžinierskeho prístupu
(chemici, biológovia, informatici) na riešenie konkrétnych problémov nášho odboru (kyslý papier).
Išlo o výskum konzervovania KNIHA SK (deacidifikácia) (štátny program základného výskumu) 2000-2010
a konkrétne aplikačné riešenia závažného odborného a civilizačného problému zániku papierových
nosičov informácií z rokov 1830-1990.

6.    Digitalizácia. Šiestym stupňom digital humanities je jedinečný projekt digitalizácie –
Digitálna knižnica a digitálny archív (DIKDA), ktorý má národný a európsky rozmer a je koncipovaný
ako služba pre humanitné a spoločenské vedy vo veľkoryso financovanom Operačnom programe
informatizácie spoločnosti OPIS (OPIS2) (európsky a št. Program) v rokoch 2004-2015.

7.    Postmoderná vedecká komunikácia. Siedmy stupeň v našom odbore je poznamenaný sprievodnými
fenoménmi digital humanities, ako napr. BIG DATA, OPEN DATA, OPEN ACCES, OPEN ARCHIVE, LINKED DATA,
umelá inteligencia, vizualizácia dát, využívanie digitálneho obsahu, clouding etc.


Zaujímavý metodologický mikrosystém „digitálnej vedy“  rozvíja J. Steinerová vo svojom koncepte v
kontexte informačnej vedy[7]. V podstate ide o inováciu prekonaného modelu vedeckej komunikácie zo
60-tych rokov s dôrazom na OPEN SCIENCE, OPEN DATA, OPEN ACCESS. Podľa nej:

„digitálna veda znamená nielen návrh zložitých socioekonomických systémov a nástrojov vedeckej
komunikácie, ale aj premenu vedy od hierarchickej organizácie poznania smerom k horizontálnym
interdisciplinárnym prepojeniam. V nich sa vynárajú nové disciplíny a metódy prostredníctvom
otvorenosti zdrojov a nástrojov. Objavujú sa aj nové formy kolaborácie a vedeckej metriky s novými
publikačnými kanálmi pri verifikovaní a viacnásobnom využívaní dát a výsledkov. Pritom sa
predpokladá otvorenie vedy smerom k participácii budúcich výskumníkov vo vedeckých
komunitách.“(Steinerová, 2014).


Vďaka prierezovej metodológii digital humanties doznieva a pomaly sa prekonáva stará paradigma
založená v odbore LIS na kumulácii a kladie sa dôraz na využívanie nahromadených záznamov a najmä
poznatkov a dát. Záznamy o dokumentoch a dokumenty v digitálnej forme sa tvoria, uskladňujú v
databázach a repozitoch už desiatky rokov. Avšak využívanie digitálnych záznamov je nedostatočné
(pre vedu, výskum, vzdelávanie, zábavu, priemysel, hospodárstvu, podnikateľov, verejný a privátny
sektor).

1.2      Atribúty digital humanities

V digital hmanities sa uplatňujú nové spôsoby výskumu a využitia digitálnych technológií[8]. Pre
výskum v DH je charakteristická:


1.    kooperácia bádateľov vo výskumných projektoch,

2.    scientizácia v spoločenských a humanitných vied,

3.    interdisciplinarita - informatika, chémia, história, ekonómia, medicína, sociológia,
pedagogika, psychológia...

4.    tímovosť (medziinštitučná, medzištátna, univerzity, knižnice, archívy, galérie, múzeá),

5.    výrazné zapojenie IKT vo výskume, vzdelávaní a v sprístupňovaní poznatkov,

6.    umelá inteligencia (Hidden Markov Model (HMM) - rozpoznávanie reči, rukou písaného písma,
gest, bioinformatika.


Pojem digital humanities považujeme za spoločné pomenovanie pre všetky aplikácie informačných
a komunikačných technológií (IKT) v spoločenských a humanitných vedách, odboroch a disciplínach
a im zodpovedajúcej praxi.

V spoločenských a humanitných vedách a praxi sa využívajú poznatky a nástroje z odborov a disciplín
IKT[9]. Pritom tok poznatkov nie je len jednostranný od IKT k odborom a praxi spoločenských
a humanitných vied, pretože aplikácia poznatkov, metód a nástrojov IKT v spoločenských
a humanitných vedách vyvoláva spätne požiadavky voči IKT. Príkladom takejto interakcie v odboroch
LIS môžu slúžiť požiadavky na integrované knižnično-informačné systémy, infraštruktúru a workflow
digitalizácie, optické rozlišovanie znakov, textové analýzy, nástroje vyhľadávania informácií,
dlhodobé archivovanie digitálneho obsahu, formáty dát, databázy a pod. Ak sa poznatky, metódy
a nástroje disciplín IKT využívajú v spoločenskovedných a humanitných odboroch a praxi, možno ich
považovať za odbory patriace pod spoločnú strechu či dáždnik odborov digital hmanities.

1.3      Digital humanities a projekt READ

Projekt READ má všetky atribúty metodológie digital humanities. Projekt bežal v rámci programu
Horizon 2020. Je to výskumný a inovačný program, číslo zmluvy No 674943. Projekt skončil 30. júna
2019. Záverečné hodnotenie projektu bolo 12.09.2019 v Luxemburgu. Autorom a koordinátorom projektu
je prof. Günter Mühlberger (University of Innsbruck, Digitisation and Digital Preservation Group).

Univerzita v Innsbrucku od roku 2016 skúma základné technológie rozpoznávania rukopisu, analyzuje
rozloženia a vyhľadávanie kľúčových slov pre historické dokumenty v spolupráci s 13 ďalšími
partnermi z Európy. Na všetkých troch oblastiach sa podieľajú výskumné tímy univerzít vo Valencii,
Rostocku, Technickej univerzity vo Viedni a ďalšie výskumné inštitúcie zastúpené v projekte READ.

Projekt READ bol financovaný Európskou úniou sumou približne 8,2 milióna EUR. Financovanie sa končí
30. júna 2019. Formujú sa však rôzne nadväzujúce projekty, v ktorých bude pokračovať základný aj
aplikovaný výskum. Autor tejto štúdie sa usiluje o zapojenie slovenských a českých inštitúcií do
tohto výnimočného vedeckého inovačného úsilia spadajúceho do konceptu digital humanities.
Technologická a vedecká inovácia projektu READ je založená na využívaní umelej inteligencie ako
jednej z perspektívnych disciplín informatiky.

1.4      Význam platformy Transkribus[10]

V platforme Transkribus sa implementujú výsledky základného výskumu. Vytvorenie výskumnej platformy
Transkribus bolo okrem základného výskumu jedným z hlavných cieľov projektu READ. Približne 2,5
milióna EUR z vyššie uvedených 8,2 milióna EUR sa investovalo do rozvoja tejto výskumnej
infraštruktúry, ktorá postavila digitalizáciu, rozpoznávanie, prepis a vyhľadávanie v historických
dokumentoch na technologicky úplne nový základ. Technológia, ktorá je založená na metódach
strojového učenia, má mimoriadny význam, pretože:

- archívy, knižnice a múzeá, ktoré chcú zlepšiť prístup k svojim zbierkam,

- vedci humanitných vied, ktorým je umožnené budovať výskum na úplne novom základe („Digitálne
humanitné vedy“),

- široká verejnosť, ktorá ťaží z drasticky zlepšeného prístupu k "rodinným údajom" v archívoch, a

- počítačoví vedci a poskytovatelia technológií, ktorí dostávajú veľmi významné súbory údajov pre
svoj výskum, a teda im umožňuje vyvíjať vylepšené algoritmy a metódy.

Transkribus má transformačnú silu pre celý proces tvorby hodnoty pri digitalizácii historických
dokumentov. Podľa štatistiky NUMERIC (2010) sa v európskych archívoch nachádza 26,98 miliárd strán.
Predpokladá sa, že z tohto objemu sa postupne bude digitalizovať asi 10,45 miliárd strán.
V slovenských archívoch je odhadom 170 km archiválií. V Českej republike sa už viac ako dvadsať
rokov kooperatívnym spôsobom buduje digitálna knižnica rukopisov Manuskriptorium, v ktorej sa
nachádza vyše 46 000 plne digitalizovaných dokumentov a asi 400 000 popisných záznamov[11]. V
archívoch na jeden meter pripadá asi 7 000 strán. Bolo by ideálne, keby súčasťou digitalizácie
mohla byť aj automatická konverzia vybratých archívnych rukopisných, strojopisných a iných
materiálov. Preto Transkribus!

1.5      Archívne dedičstvo Slovenska[12]

Archívne dedičstvo Slovenska je v správe 47 štátnych archívov. V roku 2009 predstavoval 27 000
archívnych fondov a archívnych zbierok. Mal celkový rozsah 185 000 bežných metrov (bm), teda 185
kilometrov archívnych dokumentov, 1 480 000 archívnych škatúľ, cca 740 000 000 kusov archívnych
dokumentov. Prírastky archívnych dokumentov predstavujú približne 3000 bm/rok.


Povzbudzujúce je, že k archívnemu dedičstvu existuje na určitej úrovni prístup cez archívne pomôcky
v elektronickej forme. Podľa stavu pred 10 rokmi bolo asi 4000 archívnych pomôcok, ktoré však boli
len vo forme obrázkov (bez možnosti vyhľadávania). V SNK sme na požiadanie Slovenského národného
archívu skenovali všetky archívne pomôcky a odovzdali sme ich archívnej správe aj s vykonaným OCR.
Predpokladá sa, že budú (už sú?) všetky dostupné na internete.

Z celkového počtu 4000 archívnych pomôcok bolo ca 2800  inventárov vyhotovených prostredníctvom
písacieho stroja, 200 inventárov vyhotovených rotaprintom, 650 inventárov vyhotovených v MS Word,
350 inventárov vyhotovených v aplikácii Bach – Inventáre. Z cca 4000 archívnych pomôcok bolo v roku
2010 prístupných 275 ( = 7 %).

V rámci výskumu a implementácie platformy Transkribus na Slovensku by bolo vhodné preskúmať, ako
táto platforma môže pomôcť sprístupniť všetky archívne pomôcky v digitálnej forme širokej
verejnosti. Archívne pomôcky sú de facto len indexy ku fondom a zbierkam, podobne ako sú katalógy
knižníc pomôckami v prístupe ku knižničným zbierkam a fondom. Bežne sú archívne pomôcky všeobecne
dostupné v režime Creative commons CC0.


Ďalší výskum by mohol podporiť úsilie archívov o sprístupnenie archívnych dokumentov do roku 1526,
sprístupnenie archívnych pomôcok a sprístupnenie matrík, katastrálnych záznamov a pod, nakoľko
v súčasnosti obsahuje Elektronický archív Slovenska len minimálny počet verejne dostupných
digitálnych historických dokumentov.

1.6      Unikátne vlastnosti Transkribus

Transkribus je jedinou platformou na svete, ktorá umožňuje aj netechnickým používateľom trénovať
špecifické neurónové siete a modely, ktoré sú potom schopné rozoznávať rukopisy a tlače v
akomkoľvek jazyku a písme s dobrými alebo veľmi dobrými výsledkami.

Na konci roka riešenia projektu READ bolo v systéme Transkribus 409 344 jedinečných obrázkov strán,
ktoré obsahovali asi 40 mil. slov, ktoré vytvorili používatelia systému ako školiace, tréningové
údaje. Až do konca projektu bolo užívateľmi vyškolených takmer 3 000 modelov. Doteraz boli modely
automatického rozpoznávania vytvorené pre tieto jazyky: nemčina, fínčina, angličtina, arabčina,
švédčina, perzština, holandčina, sýrčina, latinčina, španielčina, macedónčina, ruština, jidiš,
francúzština, hebrejčina, francúzština, dánčina, pravoslávna cirkevná ruština, slovanská a srbská
cyrilika, bengálčina, taliančina, osmanská turečtina, portugalčina, poľština, nórčina, stará
taliančina, gréčtina, stará nórčina, stará španielčina, stredoveká nemčina, stredoveká holandčina,
stredoveká francúzština, stredoveká latinčina a slovenčina.

Pokiaľ ide o slovenčinu, tá sa ocitla v zozname v záverečnej správe o projekte READ len vďaka
samostatnej a osobnej iniciatívnej práce prof. Dušana Katuščáka a vďaka experimentu popísanom
v tejto štúdii. Zo spomínaných 3000 modelov transkripcia bol na Slovensku vytvorený len jeden
model. Získal ako jeden z 500 klientov povolenie pracovať so systémom Transkribu. Išlo o prácu,
ktorej autor venoval asi 1000 hodín a ktorá bola financovaná len z vlastných zdrojov autora.
Dosiahnuté výsledky, know-how a skúsenosti nás vedú k úsili o to, aby sa revolučný a inovatívny
nástroj systému Transkribus zaviedol a na Slovensku do systému vzdelávania a do praxe pamäťových
a fondových inštitúcií prostredníctvom projektu výskumu a vývoja.

Zhromažďovanie údajov (teda BIG DATA) je najväčšou hodnotou uchovávania a sprístupňovania písomného
dedičstva s pridanou hodnotou, ktorú predstavujú starostlivo prepisované historické dokumenty
v štandardných formátoch čo dovoľuje priamo opakovane použiť tieto zbierky pre ďalšie procesy
strojového učenia.

Trhové ceny historických skriptov sa pohybujú od 10 EUR až do 30 EUR alebo viac za jednoduchú
angličtinu a nemčinu za konkrétny rukopis. Ak predpokladáme 15 EUR za stranu ako priemerné náklady,
tak v projekte READ operátori vygenerovali peňažnú hodnotu 4 - 6 miliónov EUR. Je zrejmé, že tieto
údaje sú jedným z najdôležitejších kapitálových zásob novozaloženej READ-COOP SCE a pôsobivým
potvrdením základnej koncepcie výskumu smerujúcej k novým poznatkom a súčasne komerčnému využitiu
nástrojov, ktoré sú výsledkom aplikácie poznatkov.

1.7      Otvorenosť platformy Transkribus

Platforma Transkribus je „otvorená“ pre ľudí i pre stroje:

- Môže ju používať každý, kto si na platforme vytvorí účet.

- Kto má vytvorený účet, môže si zadarmo stiahnuť expertného klienta, cez ktorého používa platformu

- Všetky služby na platforme sú bezplatné.

- Na pripojenie počítačov klientov k platforme je k dispozícii rozhranie API.

- Väčšina softvérových nástrojov sú otvorené zdroje a je možné ich získať alebo stiahnuť
prostredníctvom GitHubu.


Obsah, obrázky, súbory, zbierky, vytvorené modely, transkripcie nahrané na platformu sú v
predvolenom nastavení súkromné, ale to nevyhnutne nie je v rozpore s konceptom „otvorenosti“.

1.8      Potvrdená efektívnosť automatickej transkripcie

Tlačené publikácie zo 16. až 19. storočia sa dajú rozpoznať s mierou chybovosti výrazne nižšou ako
jedno percento, jednotlivé rukopisy s 2 až 5% a kolektívne rukopisy s 6 až 10%. Pred niekoľkými
rokmi by tieto čísla boli úplne nemysliteľné.

Automatický prepis s plaformou Transkribus poskytuje často takmer bezchybný text. To je však možné
iba školením, trénovaním systému a trpezlivým vytvorením modelu pre špecifický rukopis alebo
zbierku. Je to tiež jeden z najsilnejších argumentov na používanie platformy, pretože umožňuje
každému jednotlivému používateľovi trénovať zodpovedajúce modely presne podľa jeho požiadaviek.
V praxi to znamená, že ak máme jednou rukou písaný text vyše 10 000 strán (napr. Laučekova
zbierka), vytrénujeme model na 50-70 stranách. Potom už ostatné strany dokáže Transkribus
automaticky transkribovať so slušnou presnosťou a prinajmenšom podstatne uľahčí editovanie textu,
jeho úpravy, preklad, plnotextové vyhľadávanie atd.

1.9      Experiment

O automatickej transkripcii rukopisných textov už desiatky rokov snívajú historici, lingvisti,
archivári, knihovníci, dokumentaristi a všetci, ďalší, ktorí prichádzajú do styku s rukopisnými
textami[13]. Postupne sa automatický prepis rukopisov stáva skutočnosťou. Je za tým mohutný
medzinárodný základný výskum v oblasti umelej inteligencie a tisíce hodín práce.

Signálnu informáciu o práci s platformou Transkribus som zverejnil v jednom blogu a v statuse na
Fecebooku. Bol som prekvapený veľkým záujmom o túto prácu. Je to pochopiteľné, pretože mnohí
historici, jazykovedci, knihovníci, pedagógovia a i. sú čoraz vzdelanejší v používaní nových
technológií vo svojej práci a chápu, že inovácie, ktoré im prácu uľahčia sú veľmi dôležité.

Transkribus, pochopiteľne, nenahrádza odbornú a vedeckú erudíciu historikov a archivárov.
Automatická transkripcia je len jedným z krokov vedeckej práce historikov. Ďalej nasleduje
historický výskum textu a kontextu transkribovaných textov a informácií, editovanie textov
získaných transkripciou, identifikácia entít, kľúčových slov, ktoré sú v texte objavené (dátumy,
mená osôb, názvy geografických jednotiek, korporácií a pod.).

Zmyslom rozsiahlejšej transkripcie s použitím špičkovej platformy Transkribus je sprístupnenie
unikátnych zbierok, dokumentov, archívnych jednotiek, ktoré sa nachádzajú v archívoch spravidla len
v jednom exemplári. V tom je rozdiel medzi výskytom jednotiek v knižniciach a archívoch.
V archívoch sú jedinečné, autentické originálne dokumenty, zbierky, archívne jednotky,
kým v knižniciach sú tituly dokumentov, ktoré majú často stovky až tisíce exemplárov.

Po transkripcii historických textov a rukopisov je možné digitálny obsah editovať,
interpretovať, použiť a sprístupniť na využitie v širšom meradle aj vo verejných informačných
systémoch a službách. Navyše, transkribovaný originálny text, napríklad v latinčine, maďarčine,
nemčine, alebo v inom jazyku je možné aspoň približne ďalej automaticky preložiť do iného jazyka.
Tým sa dosť podstatne mení charakter práce archivárov a historikov.

Prinášam pre záujemcov výsledky mojej práce[14].

1.10   Čo bolo predmetom experimentu?

Na experiment som vybral zbierku rukopisnej prevažne slovenskej korešpondencie Andreja Kmeťa,
uloženej v Knižnici Slovenského národného múzea v Martine, a to po predchádzajúcom láskavom súhlas
riaditeľky múzea dr. Márie Halmovej.[15] Listy Andreja Kmeťa (SNM, Martin) z rokov 1841-1908.
Osobnosťou Andreja Kmeťa, vrátane spracovania častí jeho korešpondencie sa zaoberá systematicky
Karol Hollý[16], [17] a uvádza aj ďalšie zdroje, ktoré sa týkajú Kmeťovej rukopisnej pozostalosti.

Pre ďalšie experimenty som skenoval materiály z Archívu rodu ZAY, Bučiansky archív SNA, Laučekova
zbierka, 1500-1800) (ca 5000 strán). V budúcnosti máme v pláne skenovať, virtuálne skompletizovať
a sprístupniť celú zbierku nevydaných rukopisov Martina Laučeka. Collectaneu využívali historici
tak, že citovali alebo prekladali priamo niektoré jej časti. Našim cieľom je naskenovať,
transkribovať a umožniť preklad celej zbierky alebo aspoň jej vybratých častí. Celkove má ísť o 22
zväzkov a odhadovaný rozsah je viac ako 10 000 strán. Ide totiž o mimoriadne cennú zbierku najmä
pre dejiny evanjelickej cirkvi, ale tiež pre dejiny nášho novoveku. Mimoriadne záslužnú prácu
v spracovaní, skenovaní, preklade a vydávaní prameňov k dejinám evanjelickej cirkvi na Slovensku
robí už od roku 2004 Združenie evanjelikov augsburského vyznania Považského seniorátu (ZEAVPS)
v Dolnom Srní a jeho mimoriadne aktívny avšak skromný zberateľ a organizátor aktivít predseda
združenia Mgr. Pavel Černaj. P. Černaj zhromaždil aj informácie o Martinovi Laučekovi[18] a jeho
rukopisnej zbierke Collectanea, opierajúc sa najmä o základnú monografiu Jána Ďuroviča[19].

Obrázok 1 Starší rukopisný list Andreja Kmeťa

Obrázok 2 Rukopisný list Andreja Kmeťa

Obrázok 3 Ukážka latinského rukopisu Martina Laučeka. Collectanea zv. 18.

Obrázok 4 Ukážka Laučekovho rukopisu sa týka Juraja Thurzu

1.1.1.1   Skenovanie

Skenovanie prebehlo 23.-30. 05.2018 v Knižnici SNM. Na skenovanie som použil zariadenie ScanTent
(skenovací stan) a aplikáciu DocScan. Toto zariadenie som použil zámerne, aby som overil celý
worflow Transkribus, vrátane ponúkaného zariadenia ScanTent a DocScan. Je známe, že mnohé archívy
už majú časti zbierok viac-menej kvalitne skenované. Mnou zvolené zariadenia majú význam
v prípadoch, ak zbierky ešte nie sú skenované. Takisto je známe, že z bádateľní archívov bežní
vedci a používatelia nesmú vynášať archiválie a amatérske fotenie strán mobilmi alebo fotoaparátmi
je problematické, ak ide o väčšie súbory (tisíce strán). Preto je ScanTent a DocScan dobrou
a dostupnou voľbou, ktorá je s určitými praktickými výhradami (formát, zaostrovanie, kvalita)
prijateľná. Treba si však uvedomiť, že v tomto prípade ide o fotografovanie a nie o skenovanie
v pravom technologickom zmysle slova.

Obrázok 5 Skenovací stan ScanTent

Skenoval som kompletný obsah piatich krabíc. Niektoré listy boli na viacerých stranách, tiež
neúplné strany, vakáty a pod. Jeden obraz mohol obsahovať aj viac strán rukopisu. Vo fáze
skenovania sa vytvárajú obrazy a nie strany, pokiaľ sa strany neskenujú osve. Vhodnejšie je listy
skenovať podľa strán, jednotlivo, pretože ak sa skenuje list ako dvojstrana, musí sa prácne
usporadúvať poradie strán v postprocesingu.

Čas skenovania bol spolu ca 15-20 hodín. Skenovanie bolo v režime „single“ podľa jednotlivých
listov, nie „series“, (s automatickým snímaním po obrátení strany), nakoľko rukopisný materiál je
na samostatných listoch rôzneho formátu. Časť materiálu tvoria originály listov, časť fotokópie.
Najmä originály listov sú často na krehkom papieri, ktorý by si vyžadoval konzervačné zásahy.
Vizitky a podobné menšie formáty papiera – DocScan žiadal „move closer“ asi „priblížiť“, riešil som
podložením čistej stránky formátu A4 pod chýbajúce časti listu. Niektoré listy boli poškodené
(chýbal roh, poškodené strany listu. Systém v takom prípade hlásil „no page found“. Riešil som to
tak, že som podložil bielu stranu ako podložku pod list aj pod chýbajúce časti, potom DocScan
zaostril.

Niektoré zložky z 1. krabice som musel skenovať znovu, nakoľko som nevenoval spočiatku potrebnú
pozornosť zaostrovaniu. Pri ďalších krabiciach som zaostrovaniu venoval viac pozornosti. DocScan
zaostruje na plochu listu na niekoľkých miestach, červené a zelené značky. Keď je zaostrenie
uspokojivé, zobrazí „OK“, potom možno stlačiť spúšť. Na skenovanie bol použitý mobilný telefón
Samsung Galaxy 6 s operačným programom Android. Nejasný bol pre mňa proces prenosu dát zo Samsungu
(Android) do MacBook Air (operačný systém iOS). Napokon som použil počítač s Windows a stiahol som
obrázky z Pictures zo Samsungu do iného počítača.

Obrázok 6 Zložky listov Andreja Kmeťa v v archívnej krabici

Systém DocScan je možné pri skenovaní napojiť priamo na server a platformu Transkribus (v Insbrucku
či Rostocku) a skenovať priamo do platformy Transkribusu, ktorý zabezpečí experimentálnu
transkripciu rukou písaného textu do tlačenej latinky alebo iného písma. Túto možnosť som nevyužil.
Niektoré operácie s Transkribus si vyžadovali použitie Preview, Adobe Acrobat, File Zilla a i.

Naskenovaný digitálny obsah (obrazy) bol:

1.    pripravený na ďalšie spracovanie v softvéri DocScan (identifikácia obsahu, metadáta)

2.    nahratý bez úprav na CD ROM na použitie v SNM podľa uváženia vedenia SNM a Archívu.

3.    Obrazy boli pripravené na nahratie do platformy Transkribus a na ďalšie spracovanie
v softvéri Transkribus. Nasledovalo nahrávanie, segmentácia a transkripcia rukopisného textu.

Digitálny obsah som rozdelil tak, ako sa nachádza v archívnych krabiciach. Napálil som teda 5
kompaktných diskov (CD), ktoré som protokolárne odovzdal riaditeľke SNM EM v Martine dr. Márii
Halmovej. Správcovia zbierky teraz môžu použiť digitálny obsah a celý ho zverejniť. Ďalej môžu
vložiť do každej krabice jedno CD. Potom môžu rozhodovať  tom, komu umožnia prístup na CD alebo
opäť umožnia prácu s pomerne krehkými papierovými originálnymi archívnymi listami.

1.1.1.2   Nahrávanie digitálnych obrazov po skenovaní

Skenované obrazy je možné spracovať buď lokálne, alebo ich upravovať po importe na vzdialený server
Transkribus. Pred importom na server  a pred používaním platformy Transkribus je potrebné
zaregistrovať sa, stiahnuť si platformu a vytvoriť si svoju vlastnú privátnu zbierku, ktorá je
dostupná výlučne tomu, kto ju vytvoril, ak sa nerozhodne inak. Je možné, aby transkriber umožnil
prístup k niektorým operáciám napríklad študentom, operátorom, kooperantom. Môže umožniť prístup
k vlastnej zbierke na prípravu tréningovej vzorky, editáciu po transkripcii a pod. Automatická
transkripcia sa vykonáva výlučne na vzdialenom serveri s použitím infraštruktúry Transkribus.
Lokálne je možné s vlastnými dokumentami a zbierkami pracovať podľa potreby.

Obrázok 7 Importované súbory (strany, vlastník, dátum, zbierka)

Pred importom je potrebné vytvoriť si vlastnú zbierku (collection), zložku (folder). Nahrávanie,
import obrazov jednorazovo je možný do veľkosti 500 MB. Ak je objem importovaných obrazov väčší,
obrazy je možné rozdeliť do viacerých súborov a importovať ich postupne. Väčšie súbory obrazov je
možné nahrať, importovať aj s použitím FTP klienta, cez URL alebo DFG Viewer METS. Obrazy sa môžu
importovať ako PDF i JPG,TIFF a i. Zbierka importovaných obrazov, vytvorených skenovaním listov
Andreja Kmeťa má 11,7 GB v rozlíšení 300 dpi. Nehodnotil som efektívnosť rozlíšenia pri skenovaní
vo vzťahu k presnosti automatickej konverzie v Transkribus, hoci, hypoteticky, môže byť tento vzťah
významný.

Moje skúsenosti ukazujú, že pred importom je vhodné skontrolovať digitálne obrazy, ich kvalitu,
ostrosť, úplnosť, orientáciu strán a pod. Po určitých skúsenostiach som importoval súbory vo
formáte PDF.

1.1.1.3   Segmentácia

Po importe súborov na server sa musí vykonať na serveri automatická segmentácia. Pri segmentácii
textu a obrazov musí byť klient pripojený na aplikáciu na serveri. Segmentácia znamená, že sa obraz
rukopisného textu dokumentu, ktorý je zatiaľ na serveri ako obraz, rozdelí automaticky na bloky,
oblasti, riadky textu. Ak je to potrebné, môžu sa urobiť manuálne korekcie. Ide pritom napríklad o
spájane a rozdeľovanie blokov, rozširovanie ohraničenia segmentu a pod.

Obrázok 8 Ukážka segmentovaného textu zo zbierky listov Andreja Kmeťa. Označený je blok textu
strany a riadky.

1.1.1.4   Tréning stroja HTR[20]

Z importovanej zbierky sa podľa určitého algoritmu vyberie vzorka strán (dataset) ktorá slúži na
tréning a vytvorenie modelu pre určitý typ rukopisu. Na to je potrebné ukázať stroju správne
príklady textu. Stroj sa v podľa tréningovej sady naučí vzory písma a slov. Ak je zbierka textov od
viacerých rúk, je potrebné vybrať primeranú veľkosť testovacej vzorky. Výber strán je možné urobiť
aj automaticky tak, aby bola vzorka pripravená podľa určitých ca 20 000 slov. Tréningový dataset
sa tvorí priamo v editore klienta Transkribus jednak lokálne, ako aj na serveri. V podstate je
potrebné pozorne a veľmi presne prepísať rukopis v editore podľa riadkov, nič neopravovať. Text
prepisovať podľa súdobého jazykového úzu a gramatiky, aj s chybami a podľa ďalších inštrukcií
a návodov, ktoré sú k tejto operácii k dispozícii. Poradie častí textu, tagovanie, výber a redakciu
kľúčových slov, deskriptívne metadáta a pod. určuje autor transkripcie a tvorca modelu
transkripcie. Výsledok transkripcie je potom viditeľný a zhodnotený na testovacom datasete. Ak je
výsledok uspokojivý, možno automaticky transkribovať ďalšie súbory alebo celú zbierku.

Obrázok 9 Príklad z editovania strany pre tréningový set

1.1.1.5   Automatická transkripcia

Automatická transkripcia slúži ako základ pre vedecké editovanie, v ktorom je možné text korigovať,
explicitne pridávať ďalšie dáta, kontextové informácie, dešifrovanie dát, tagovať, dávať poznámky,
metadáta, anotácie, opravy diakritiky, skratky, mále a veľké písmená, paleografické spracovanie,
ligatúry a pod.

Automatickú transkripciu som urobil po spustení tréningu a testovania. Použil som vlastný model
transkripcie a spustil som transkripciu s použitím HTR+.

Obrázok 10 Obrazovka s údajmi po automatickej konverzii s použitím vlastného modelu A_DUSAN_KMET.

Výsledkom učenia v automatickej transkripcii textu rukopisu Andreja Kmeťa je 1,37% v tréningovom
datasete a 1,76% v testovacom datasete  (CER – Character Error Rates). Tréningový set obsahoval
29 411 slov a 4 573 riadkov. Model možno nasadiť na celú zbierku.

Obrázok 11 Ukážka výsledku „surovej“ automatickej transkripcie. Pri jednotlivých riadkoch je
uvedená chybovosť, ktorú som pridal sám.

Obrázok 12 Prehľad mojich pokusov a omylov  z práce s platformou Transkribus (od chybovosti 22,81%
ku chybovosti 1,76%). Efektívnosť transkripcie sa výrazne zlepšila, keď mi prof. Muehlberger HTR+.

1.11   Budúcnosť Transkribus

Projekt končí 30. júna 2019. Odborníci a inštitúcie majú záujem o pokračovanie a vývoj služby
Transkribus. V súčasnosti (2019) je viac ako 20 000 používateľov Transkribus. Pokračovanie: výskum
a implementácie výsledkov sa predpokladajú v rámci projektu EU NewsEye
(https://www.newseye.eu/project/about/ ). Vzniká READ-COOP (Societas Cooperativa Europeae - SCE).
Dňa 1. júla 2019 sa projekt READ mení na Európsku družstevnú spoločnosť (SCE). Družstvo READ-COOP
bude slúžiť na udržanie a ďalší rozvoj platformy Transkribus a súvisiacich služieb a nástrojov[21].

1.12   Možné ciele pokračujúceho výskumu

V ďalšom výskume by bolo vhodné zamerať pozornosť na tieto oblasti:

Hlavný cieľ ďalšieho výskumu:

Implementovať na Slovensku najnovšie poznatky z výskumu automatického rozpoznávania textov
historických dokumentov

Procesy, ktoré budú viesť k dosiahnutiu hlavného cieľa:

a)    výber a štandardný popis rozsiahlejších rukopisných zbierok európskeho a národného významu

b)    digitalizácia vybratých historických dokumentov podľa plánu experimentov s cieľom potvrdiť
alebo zlepšiť doteraz známe postupy a hodnoty vzhľadom na nasledujúci proces segmentácie textu a
automatickú transkripciu (korelácia medzi rôznymi podmienkami a kvalitou skenovania a
transkripciou)

c)    zdieľanie digitálnych dokumentov s archívmi a inými inštitúciami, ktoré ich budú môcť
používať podľa vlastnej úvahy ako náhradu papierových dokumentov

d)    tvorba modelov, tréning a analýza modelov automatickej transkripcie podľa novovekých
a moderných zbierok a jazykov (najmä slovenčina, čeština, maďarčina, latinčina, nemčina, poľština),

e)    overenie a zhodnotenie použiteľnosti dostupných modelov transkripcie z výskumu v projekte
READ

f)     zoznámenie sa s najlepšou praxou automatického rozpoznávania textov historických dokumentov
v Európe, najmä v Nemecku, Rakúsku, Španielsku, Maďarsku, Veľkej Británii, Fínsku, Holandsku,
Srbsku, využitie informácií a skúseností na Slovensku

g)    automatická transkripcia podstatnej časti rukopisnej Laučekovej zbierky a jej virtualizácie,
teda virtuálna jedna digitálna prezentácie zväzkov, ktoré sa nachádzajú na geograficky rozličných
miestach (SNA, SNK, UK, Maďarsko)

h)    výskum možností zvýšenie efektívnosti rozpoznávania rukopisných textov a textov historických
dokumentov prostredníctvom systému Transkribus a súvisiacich nástrojov,

i)     sprístupnenie transkribovaných a interpretovaných zbierok cez digitálny repozitár širokej
verejnosti,

j)     tvorba dokumentácie, ktorá bude slúžiť pre archívy, knižnice, akademické pracoviská ako aj
fyzické osoby na automatickú transkripciu textov

Obrázok 13 Experimentálna automatická transkripcia tejto strany

Obrázok 14 Výpis efektívnosti a chybovosti automatickej transkripcie

1.13   Záver. Efektívnosť platformy Transkribus

Naše skúsenosti overené experimentom potvrdzujú, že jednotlivé rukopisy možno automaticky
transkribovať, pričom chybovosť môže byť 2 až 5%, kolektívne rukopisy(zbierky) majú 6 až 10%.
Výsledky transkripcie sú čitateľné, použiteľné a možno ich exportovať (DOC, TXT, PDF, TEI, METS
atd), editovať, redigovať, korigovať. V experimente sme dosiahli chybovosť (CER) 1,76%.

Z hľadiska vnímania, porozumenia a použitia transkribovaného textu vo všeobecnosti podľa autorov
Transkribus platí, že: a) ak sa striktne počíta chybovosť “slov” a ak chybovosť slov je 30%, tak
text je pre človeka ešte pochopiteľný a použiteľný, b) ak sa striktne počíta chybovosť “znakov” a
ak chybovosť znakov je 15%, tak text je ešte pre človeka pochopiteľný a použiteľný.

V experimente som „dosiahol“ chybovosť slov 16,88% (z 30% prijateľných).

V experimente som „dosiahol“ chybovosť znakov 5,89% (z prijateľných 15%).

Presnosť transkripcie slov na hodnotenej strane bola 72,78%.

Presnosť znakov na tejto strane bola 90,52%.


Platforma Transkribus je skvelou pomôckou pre svedomitých a trpezlivých bádateľov, ktorým podstatne
uľahčí doladenie transkripcie. Platforma nie je, a sotva niekedy bude, určená pre „klikavcov“, teda
používateľov, ktorí sú zvyknutí viac „klikať“ ako inovovať.


________________________________

[1] https://read.transkribus.eu

[2] Mühlberger, Günter. READ (Recognition and Enrichment of Archival Documents) - 2016-2019.
[Projektová štúdia]. Dostupné:
https://www.academia.edu/22653102/H2020_Project_READ_Recognition_and_Enrichment_of_Archival_Documen
ts_-_2016-2019

[3] Christophe DOIN. Project Officer. European Commission. DG CONNECT C1. EUFO 01/150A. Rue Robert
Stumper. L-2350 Luxembourg-Ville. Luxembourgh. Christophe.DOIN@ec.europa.eu

Reinhard Altenhöner. Deputy Director General. Staatsbibliothek zu Berlin - Preußischer Kulturbesitz
Zentralabteilung SV/Z. Potsdamer Straße 33, 10785 Berlin.
E-Mail: reinhard.altenhoener@sbb.spk-berlin.de

Lorna M. Hughes. Professor of Digital Humanities. Head of Subject. Information Studies. 11
University Gardens. University of Glasgow. Glasgow, G12 8QQ. Scotland. E_Mail:
Lorna.Hughes@glasgow.ac.uk

Dušan Katuščák. Professor of Library and Information Science. Silesian University in Opava. Faculty
of Philosophy and Science. The Institute of  the Czech language and Library Science; State Research
Library, Banská Bystrica. Dusan.katuscak@fpf.slu.cz

[4] LIS – Library and Information Science / Studies


[6] European Commission. The factsheets present an overview of the state and progress of
eGovernment in European countries. Joinup is a joint initiative by the Directorate General for
Informatics (DG DIGIT) and the Directorate General for Communications Networks, Content &
Technology (DG CONNECT). Production/Publishing: ISA Editorial Team, Wavestone Luxembourg S.A. May
2018. –
Dostupné: https://joinup.ec.europa.eu/sites/default/files/inline-files/eGovernment_in_Slovakia_2018
_0.pdf

[7] Steinerová, Jela. 2014. Digitálna veda – východiská, problémy a princípy. In ITLib, 2014, č. 1.
Dostupné:
https://itlib.cvtisr.sk/archiv/2014/1/digitalna-veda-vychodiska-problemy-a-principy.html?page_id=26
26

[8] Digitálne technológie – a) odvetvie vedeckých alebo inžinierskych poznatkov, ktoré sa zaoberajú
tvorbou a praktickým využívaním digitálnych alebo počítačových zariadení, metód, systémov atď. b)
pokroky v digitálnej technológii, digitálne zariadenie, metóda, systém atď. vytvorené pomocou
týchto znalostí; vynález internetu a ďalších digitálnych technológií, c) uplatňovanie týchto
poznatkov na praktické účely, napríklad v oblasti digitálnej komunikácie a sociálnych médií.
(Podľa: https://www.dictionary.com/browse/digital-technology )

[9]Teoretická informatika (aj pre prírodné vedy); Aplikovaná informatika; Softvérové inžinierstvo
(aj pre prírodné vedy); Hospodárska informatika; Telekomunikácie; Vojenské komunikačné a informačné
systémy; Telekomunikačná technika; Telekomunikačné systémy;  Počítačové inžinierstvo;  Umelá
inteligencia; Informačné systémy; Teória informácie; Riadenie procesov; Robotika (aj pre
strojárstvo); Kybernetika; Technická kybernetika; Ostatné príbuzné odbory informačných
a komunikačných technológií;

[10] Mühlberger, Günter. READ. D3.4. READ Platform Business Implementation. Report for Period 3.
[Confidential]. 05.08.2019. H2020 Project 674943.

[11] PSOHLAVEC, Tomáš. Digitální knihovna Manuscriptorium. In: Libraries V4 in the Decoy of Digital
Age. Proceedings of 6th Colloquium of Library and Information Experts of the V4+ Countries held
from 31st May – 1st June 2016 in Brno. – Brno : Moravská zemská knihovna v Brně, 2016. S.(cze)
367-374. – ISBN 978-80-7051-216-6 (brož.)

[12] PÉKOVA‘, Monika – HANUS, Jozef. 2010. Digitalizácia a sprístupnenie obsahu v štátnych
archívoch SR. In: Konferencia Digitálna knižnica, Jasná pod Chopkom, 2010.

[13] V roku 1991 som sa v spolupráci s ing. Jánom Mišíkom pokúšal použiť systém na rozpoznávanie
znakov na automatický prepis rukou písaných katalogizačných záznamov zo starého katalógu Slovenskej
národnej knižnice (Matice slovenskej). Výsledkom bola účinnosť IRIS OCR transkripcie ca 35/40%
a transkripcia bola nepoužiteľná.

[14] Podrobné inštrukcie pre prácu s platformou Transkribus obsahuje dobrá a dostupná dokumentácia.
V tejto štúdii uvádzam len základné informácie a poznatky z konkrétneho experimentu, na ktorý som
potreboval ca 1000 hodín, nakoľko som celý systém potreboval naštudovať, zoznámiť sa
s architektúrou, dokumentáciou. Nadobudol som skúsenosti, know-how a expertízu, ktorú popisujem len
všeobecne.

[15] Moja vďaka za to, že ma v priestoroch knižnice strpeli a poskytli mi všestrannú pomoc patrí
archivárke Mgr. Viere Varínskej a knihovníčke PhDr. Anne Peťovej. Za pomoc pri zisťovaní informácií
o okolnostiach a podmienkach pôsobenia Andreja Kmeťa v Prenčove ďakujem pani Oľge Kuchtovej
z Banskej Štiavnice. Za možnosť skenovať v Slovenskom národnom archíve v Bratislave zbierku Martina
Laučeka (Collectanea) ďakujem Ústrednej archívnej správe Ministerstva vnútra a za odbornú pomoc
PhDr. Eve Kowalskej, DrSc. Z Historického ústavu SAV v Bratislave.

[16] HOLLÝ, Karol: Andrej Kmeť a slovenské národné hnutie : Sondy do života a kreovanie historickej
pamäti do roku 1914. Bratislava : Veda  –  Historický ústav SAV, 2015. 279 s. ISBN
978-80-224-1480-7

[17] HOLLÝ, Karol: Veda a slovenské národné hnutie : snahy o organizovanie a inštitucionalizovanie
vedy v slovenskom národnom hnutí v dokumentoch 1863-1898. Bratislava : Historický ústav SAV
v Typoset Print s.r.o.,  2013.

[18] Martin Lauček, služobník Slova Božieho Cirkvi augsburského vyznania v Skalici. Centuria
diplomatum et epistolarum Thurzonianarum. Sto Turzovských listov. Diel 1. Ed. Pavel Černaj. Dolné
Srnie : ZEAVPS, 2016. 78 s. – ISBN 978-80-89486-13-7

[19] Ďurovič, Ján: Martin Lauček, tolerančný kňaz – spisovateľ. Myjava 1933.


[20] HTR = Historical Text Recognition. Ide o rozpoznávanie textov historických listov, pohľadníc,
rukopisov a stredovekých dokumentov. Stroj HTR engine z Computational Intelligence Technology Lab
(CITlab).


[21] Predpokladáme, že vďaka ústretovosti a porozumeniu Univerzity Mateja Bela v Banskej Bystrici
a doc. Imricha Nagya, PhD z Katedry histórie, budeme môcť pokračovať v tejto zaujímavej výskumnej
inovatívnej práci v rámci nejakého projektu.