AUTOMATICKÁ TRANSKRIPCIA m e t o d i c k á p r í r u č k a na p r á c u s p l a t f o r m o u T r a n s k r i b u s Dušan Katuščák - Imrich Nagy 2023 A u t o m a t i c k á t r a n s k r i p c i a h i s t o r i c k ý c h d o k u m e n t o v metodická príručka na prácu s platformou Transkribus Mária Bobová, Dušan Katuščák, Alica Kurhajcová, Patrik Kunec, Pavol Maliniak, Michaela Mikušková, Imrich Nagy, Lucia Nižníková, Oto Tomeček Elektronická metodická príručka je výstupom z riešenia projektu APVV-19-0456 SKRIPTOR - Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov (2020 - 2024). Editori: Dušan Katuščák, Imrich Nagy Autori: © Mária Bobová, Dušan Katuščák, Alica Kurhajcová, Pavol Maliniak, Michaela Mikušková, Imrich Nagy, Lucia Nižníková, Patrik Kunec, Oto Tomeček Jazyková korektúra: Lucia Nižníková Grafická úprava: Miroslav Chladný Verzia Transkribus Expert Client 1.26.0 Táto práca bola podporená Agentúrou na podporu výskumu a vývoja na základe zmluvy č. APW-19-0456 SKRIPTOR - Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov. This work was supported by the Slovak Research and Development Agency under the Contract no. APW-19-0456 SKRIPTOR - Innovative access to the written heritage of Slovakia through a system of automatic transcription of historical manuscripts. © BELIANUM. Vydavateľstvo Univerzity Mateja Bela v Banskej Bystrici 2023 v spolupráci so Štátnou vedeckou knižnicou v Banskej Bystrici DOL https://doi.org/10.24040/2023.9788055720708 Táto publikácia je šírená pod licenciou Creative Commons Attribution 4.0 International Licence CC B Y (uvedenie autora). Zdroj fotografie na obálke: https://readcoop.eu/national-arcMves-finland-takes-first-steps-towards-handwritten- text-recognition/ ISBN 978-80-557-2070-8 Slovo na úvod Technologický pokrok vo využívaní nástrojov strojového učenia {Machine Learning) a umelej inteligencie AI {ArtificialIntelligence) sa postupne stáva súčasťou našej každodennosti a vedome či nevedome sme s ním konfrontovaní aj pri rôznych špecifických odborných činnostiach, pri ktorých bolo nahradenie vedomostí a zručností človeka strojom donedávna nepredstaviteľné. Neznamená to však, že by sa odbornosť človeka stávala zbytočnou. Sú to práve invenčnosť, zručnosť a um človeka, ktoré využili a adaptovali existujúce i novo sa vyvíjajúce technológie na zvládanie presne definovateľných, rutinných a opakujúcich sa algoritmov. Takým procesom je aj zostavovanie textov na ľubovoľné témy prostredníctvom chatovacích robotov, ktoré je v súčasnosti až emblematickým symbolom pokroku vo využiteľnosti AI. Tak trochu v tieni týchto populárnych nástrojov zostávajú dlhodobo vyvíjané a v praxi overované nástroje AI schopné vskutku mimoriadnym spôsobom zmeniť a v podstate nanovo zadefinovať vysoko odborné činnosti v jednotlivých profesiách. Pozoruhodným príkladom toho je aj platforma Transkribus vyvinutá v multilaterálnej spolupráci významných európskych vedeckých inštitúcií v rámci projektov tranScriptorium (2013 - 2015) a READ (2016 - 2019) financovaných z programov EU. Lídrom tejto spolupráce je Univerzita v Innsbrucku a vedúcou postavou Dr. Günter Múhlberger, ktorí výsledky predchádzajúcich projektov pretavili do veľmi dynamicky sa vyvíjajúceho a účinného nástroja na automatickú transkripciu dokumentov v rukopisnej aj tlačenej podobe ľubovoľnej geografickej, historickej či jazykovej proveniencie. Vďaka tomu je v súčasnosti Transkribus verejne dostupný komerčný produkt, ktorý prostredníctvom združenia READ-COOP European Cooperative Society ponúka všetkým individuálnym a inštitucionálnym záujemcom riešenie pre vskutku efektívnu digitalizáciu historických dokumentov s plnotextovými digitálnymi výstupmi v najrozličnejších formátoch podľa požiadavky zadávateľa. Pre pamäťové inštitúcie a ich používateľov z radov laickej i odbornej verejnosti je to doslova revolučná zmena, ktorá zásadným spôsobom do budúcnosti zmení ich prácu a má potenciál priniesť mimoriadne výsledky v poznaní a sprístupňovaní našej histórie a nehmotného kultúrneho dedičstva. Univerzita Mateja Bela v Banskej Bystrici sa v spolupráci so Štátnou vedeckou knižnicou v Banskej Bystrici v rámci projektu SKRIPTOR - Inovatívne sprístupnenie písomného dedičstva Slovenskaprostredníctvom systému automatickej transkripcie historických rukopisovpodporeného Agentúrou pre podporu vedy a výskumu (APW-19-0456) podujala aplikovať nástroj Transkribus na slovacikálne historické rukopisné a tlačené dokumenty a overiť jeho využiteľnosť v podmienkach slovenských pamäťových inštitúcií (archívov). Na Slovensku ide o ojedinelý pilotný projekt, ktorý môže otvoriť cestu k žiaducemu nasadeniu moderných technológií pri digitalizačných projektoch našich pamäťových inštitúcií v záujme širokého sprístupnenia informácií z digitalizovaných dokumentov a ich ďalšieho odborného využitia. V rámci riešenia projektu sa už podarilo vytvoriť desiatku funkčných modelov na automatickú transkripciu slovacikálnych rukopisov zo 16. - 20. storočia a tiež historických tlačí. Významnou pridanou hodnotou je nadobudnutie know-how práce na platforme Transkribus. Jeho sprostredkovanie záujemcom a zástupcom pamäťových inštitúcií zo Slovenska formou workshopov považujeme za zmysluplné zavŕšenie našej práce. Za týmto účelom sme zostavili metodickú príručku, ktorá v postupných krokoch predstavuje jednotlivé fázy digitalizácie a automatickej transkripcie dokumentu na platforme Transkribus. Na tomto mieste je dôležité upozorniť, že platforma Transkribus sa stále vyvíja. Na stránkach https://readcoop.eu/transkribus/ sa nachádzajú manuály a videá na prácu s Transkribom. Niektoré inštrukcie a názorné ukážky, ktoré boli aktuálne v minulosti a podľa ktorých boli inštrukcie 3 pripravené, už neodrážajú vlastnosti a funkcie nových verzií. Metodickú príručku sme pripravili podľa poslednej verzie Transkribus Expert Client 1.26.0 z 5. júna 2023. S touto verziou by mal pracovať aj užívateľ tejto príručky, ktorú budeme v budúcnosti podľa potreby aktualizovať. Transkribus Expert Client V1.Z6.0 (05_O6_2023_08:56) (c) 2013-2xxx DEA@UIBK Licence: GPLv3 GitHub: https://github.corn/TranskribusfTranskribusSwtGui Installation details: Java version: 19.0.1 Java platform architecture: 64 System architecture; 64 File encoding: UTF-S Report bug / feature request Obrázok 1 Transkribus Expert Client verzia 1.26.0 Veríme, že využitie možností AI vo forme práce s Transkribom prinesie novú dynamiku do digitalizácie, uchovávania a sprostredkovania nehmotného kultúrneho dedičstva na Slovensku. Dušan Katuščák - Imrich Nagy 4 1 Registrácia a účet na platforme Transkribus 1.1 Pripojenie na internet Na prácu na platforme Transkribus je potrebné mať k dispozícii nepretržité vysokorýchlostné pripojenie na internet. Všetky vaše úkony sa budú robiť v režime vzdialeného prístupu na serveroch platformy Transkribus. Všetky súbory a verzie strán, s ktorými budete pracovať, sa budú ukladať na serveroch platformy. Výhodou je, že k nim budete mať prístup z ktoréhokoľvek miesta a ktoréhokoľvek počítača (cez webový prehliadač alebo prostredníctvom nainštalovanej aplikácie). 1.2 Voľba rozhrania pre prácu na platforme Transkribus Používateľ platformy Transkribus má dve možnosti: 1. používať odborného (expertného) klienta Transkribus Expert Client (ďalej aj Transkribus expert klient alebo expert klient), 2. používať webového klienta cez internetový prehliadač Transkribus Lite. B e f o r e y o u š t a r t You have two options to use Transkribus E x p e r t C l i e n t The Expert Clienl is the standalone version of Transkribus with the full power of the Transkribus platform. It works on Windows, Mac and Linux. T r a n s k r i b u s lite Transkribus lite is the web version of Transkribus with enhanced usability. Many of the beloved features from the Transkribus Expert Client can be used also in Transkribus lite. Obrázok 2 Úvodné informácie o dvoch verziách platformy Transkribus G e t t i n g s t a r t e d In the following two videos you learn how to use the Transkribus Expert Client or Transkribus Lite, For this, you should first decide whether you want to use the Expert Client for more advanced purposes or Transkribus Lite in your browser with enhanced usability. T r a n s k r i b u s E x p e r t C l i e n t T r a n s k r i b u s L i t e S T A R T E WITH S T A R T E TraruKrlbuj l i t e Obrázok 3 Videonávody pre dve možnosti použitia platformy Transkribus 5 1.3 Registrácia Na prácu s platformou Transkribus sa musíte zaregistrovať. Ak už máte svoj Transkribus účet, prejdite na ďalší krok. Postup registrácie na platforme Transkribus: 1. Otvorte webstránku https://readcoop.eu/transkribus/ 2. Kliknite na voľbu Prihlásiť sa zdarma {Sign upf orfree). 3. Vyplňte registračné údaje. Platia pre všetky prístupy na platformu Transkribus, teda do Transkribus expert klienta, Transkribus Lite a i. 4. Kliknite na tlačidlo Registrovať sa (Register). 5. Registráciu overte kliknutím na odkaz v e-maili, ktorý dostanete do e-mailovej schránky, s ktorou ste sa registrovali. T r a m h r l b t u Ľ u i n c k h i s L o ľ i c i i l d o c u m e n t s v v i t h A l TrflnsJírifcu* •! an Al-J5g*me^ ploEfgrm ŕgr 14x1 nqíogniŤiqct, (FiinstripLinn .nrld seiTching nf hitloritjt dijcumcnrs - iram *rty plstí, W *"d in íŕiy Hňguíg*. Obrázok 4 Vytvorenie účtu cez voľbu Prihlásiť sa zdarma Register • I n Firail SO r m u lha U i < « l > m n M U rmiwí • mód c Obrázok 5 Registrácia. Okno na zápis registračných údajov používateľa na platformu Transkribus 6 Sign in to your account I Yeu«N1UHywrrun|k<4v»&l4«W>fif-?|iOl09<-l Obrázok 6 Prihlásenie do účtu Transkribus Prihláste sa do Transkribu pomocou e-mailovej adresy a hesla zvoleného počas procesu registrácie. Vaše údaje platia na používanie platformy stále, preto ich nemeňte. 1.4 Osobný účet Registrácia účtu Transkribus je jednoduchá, stačí sa bezplatne zaregistrovať. Ak ste sa už registrovali, máte vytvorený vlastný účet a s ním máte prístup: 1. na platformu Transkribus, 2. do odborného (expert) klienta a Transkribus Lite vo webovom prehliadači (napr. Google Chromé, Safari, Edge a i.). Transkribus Lite nieje potrebné inštalovať. Je dostupný cez internetový prehliadač (napr. Chromé, Edge, Safari; odporúčame Chromé). Transkribus expert klient sa musí nainštalovať. Pre odborníkov obsahuje viac funkcií. Inštrukcie k inštalácii sa nachádzajú v ďalšej časti tejto metodickej príručky. 1.4.1 Prístup do účtu C O • O PI ;.ľ.nrr.nrr- ďdtn Mtmbwíhtpi :.uo',i:npU.ni Tu EMmpt TrŕrflkntHn Sfinlmt 'tídSsiJílh About *«< Pirmin! IMMiHl: HÖ. 30> VAT Billing address rcMjrch library Hliníkj FdyíU-co Jt Hrnie* B3ľ«i Jjjcrrjcj ' H. i.V.' 1 JJ i.nT.kr- T q i k i äMÉM 09D77S9&J3 0 iHjV»n*-«IUJLil>.fJL|inH- Lu:n Obrázok 9 Účet s rozpisom položky Objednávky V účte si môžete prezerať nedávne objednávky, vidieť svoje členstvo v združení READ-COOP a aktuálne odbery, spravovať adresy alebo upravovať podrobnosti o svojom účte. Po registrácii má každý používateľ bezplatne k dispozícii 500 kreditov, ďalšie kredity si môže dokupovať podľa potreby. 8 2 Transkribus expert klient Transkribus expert klient je softvér, ktorý sa inštaluje na osobný počítač. Samotná výpočtová platforma Transkribus je nainštalovaná na vzdialenom serveri. Informačná architektúra platformy v tomto prípade je klient - server. So zbierkami a dokumentmi pracujete v expert klientovi. Všetky zbierky a dokumenty a ich verzie sú umiestnené a dostupné cez váš účet na serveri. Expert klient je desktopový klient a samostatná verzia Transkribu. Desktopový klient Transkribus nebude podľa vyjadrení vývojového tímu v júli 2023 v budúcnosti rozširovaný o žiadne nové funkcie. Kým bude verzia Transkribus Lite plne funkčná, zoznamujeme záujemcov o prácu s platformou Transkribus s verziou expert klient, v ktorej sú dostupné mnohé funkcie, ktoré ešte nie sú v Transkribus Lite. Predpokladáme, že Transkribus Lite s komplexnejšími funkciami bude k dispozícii v roku 2024. Odporúčame, aby používatelia využívali Transkribus Lite https://lite.transkribus.eu/ s najnovšími aktualizáciami a vylepšeniami. V júli 2023 bol Transkribus Lite limitovaný veľkosťou nahrávaného súboru PNG a JPG do 10 MB. Funkcie z expert klienta sa v súčasnosti presúvajú do verzie Transkribus Lite. Drag an image here or Sclccl fi fi'c... JNG or JPG uptt>1p Vŕ Obrázok 10 Limit veľkosti súboru v Transkribus Lite 2.1 Inštalácia Transkribus expert klienta Inštaláciu zvoľte podľa toho, aký operačný systém máte vo svojom osobnom počítači. Expert klienta môžete inštalovať na počítač s operačnými systémami Windows, Linux, Mac, Mac M - l . The Desktop Cfieni is the standalone version of Transkribus. Ptease note that the Transkribus desktop client wilt not be receiving any new features going forward. We recommend that users utilize Transkribus on the web for the latest updates end enhancements. Thank you for your understanding and we hope you continue to enjoy using Transkribus. Select your operating system & Windows Obrázok 11 Inštalácia podľa operačného systému Poznámka: Aby ste mohli pracovať s Transkribom, musíte mať nainštalovaný programovací jazyk Java. Najnovšiu verziu si môžete stiahnuť z oficiálnej stránky Oracle tu https://www. oracle. com/java/technologies/downloads/ 9 Po registrácii účtu si môžete bezplatne stiahnuť Transkribus z domovskej stránky. Zatiaľ čo všetky ostatné funkcie Transkribu je možné využívať bezplatne, na automatické prepisy sú potrebné kredity. Všetky informácie o kreditnom systéme nájdete v kapitole 6Priebeh automatickej transkripcie v platforme Transkribus. Pripomíname, že každý nový účet Transkribus dostane na testovanie 500 kreditov zdarma. Zámerom je takýmto spôsobom podporiť tých, ktorí majú malé transkripčné projekty, ktorým stačí rozpoznať len zopár strán. Kliknite na tlačidlo operačného systému, ktorý máte v počítači. Začne sa sťahovanie. Po kliknutí na tlačidlo sťahovania na domovskej stránke READ-COOP získate súbor ZIP, ktorý je potrebné rozbaliť (kliknite pravým tlačidlom myši na priečinok a vyberte možnosť Rozbaliť všetko). Otvorte na svojom počítači adresár Transkribus. Tu nájdete spustitelné súbory pre váš operačný systém. Ak máte operačný systém Windows, dvakrát kliknite na súbor .exe. Ak máte operačný systém Mac kliknite na xommand Ak máte Linux, kliknite na .sh. Technické pokyny: Ak je operačný systém založený na Ubuntu 17.04, je potrebná inštalácia libwebkit: sudo apt install libweb- kitgtk-1.0-0 Ak nemáte práva správcu, systém Windows zobrazí varovné hlásenie, napríklad Váš počítač je chránený systémom Windows, atď. Nepotvrdzujte, namiesto toho zvoľte Viac informácií a potvrďte, že chcete Transkribus aj tak spustiť. Ak program spúšťate prvýkrát, nemusí sa spustiť, pretože ide o nepodpísanú aplikáciu (správa... nieje možné otvoriť, pretože je od neidentifikovaného vývojára). V takom prípade kliknite pravým tlačidlom myši (alebo kliknite so stlačeným klávesom Control) na aplikáciu a vyberte možnosť Otvoriť. V zobrazenom dialógovom okne znova kliknite na Otvoriť. Prípadne kliknite pravým tlačidlom myši na Track Pad, aby ste otvorili kontextové menu a pridali bezpečnostnú výnimku pre Transkribus. Ďalšia možnosť: kliknite pravým tlačidlom myši na ikonu programu -> Otvoriť (v kontextovom menu) -> cez Terminál. Ak sa aplikácia vôbec nespustí, môžete sa pokúsiť presunúť aplikáciu z priečinka Download, tj skopírovať alebo presunúť do iného cieľového priečinka, ako je Pracovná plocha. Chybové hlásenie pri pokuse o spustenie aplikácie z terminálu pomocou open -a Transkribus.app je LSOpenURLsWithRoleQ zlyhalo pre aplikáciu /Users/xxx/Desktop/Transkribus.app s chybou -10810. Alternatívnym riešením na spustenie programu je spustenie nového terminálu (hľadajte terminál po stlačení cmd + medzera), potom cd do adresára, kde bol rozbalený Transkribus, napr. adresár Downloads: Potom spustite program priamo zo štartovacieho skriptu, ktorý je súčasťou balíka Transkribus.app: /Transkribus.app/ Contents/MacOS/Transkribus Transkribus je obsiahnutý v hlavnom jar súbore Transkribus-.jar Ak chcete spustiť program z príkazového riadka, zadajte java -jar Transkribus-.jar Niektoré problémy sa môžu vyskytnúť, ak je 32-bitová verzia Java nainštalovaná na 64-bitovom operačnom systéme. Poznámka: Ak chcete spustiť skripty v systéme Mac (alebo Linux), možno bude potrebné, aby boli spustitelné z príkazového riadka (akákoľvek verzia pred 0.6.8). Základy konzoly Mac zmeňte do priečinka programu pomocou príkazov „cd"; chmod +x Transkribus.command (alebo chmod +x Transkribus.sh pre Linux). Okrem toho v balíku Transkribus nájdete niekoľko súborov skopírovaných do vášho počítača, config.propertiesje možné použiť na úpravu jednoduchých vlastností vzhľadu; súbor virtualKeyboards.xml je možné pou- 10 žiť na určenie sady virtuálnych klávesníc; logback.xml je možné použiť na úpravu vlastností protokolovania (len pre skúsených používateľov). Podpriečinok libs obsahuje potrebné knižnice pre všetky platformy. V súčasnosti sú podporované Windows 32/64 bit; Linux 32/64 bit; OSX 64 bit. Ak sa stále zobrazuje chybové hlásenie Prihlásenie zlyhalo: už pripojené, problém môže byť v proxy serveri. Po spustení programu kliknite na tlačidlo domovskej ponuky vľavo hore a vyberte Nastavenia servera proxy. V nasledujúcom dialógovom okne môžete nastaviť hostiteľa proxy, port, meno používateľa (voliteľné) a heslo (voliteľné). Toto je odporúčaný spôsob používania proxy servera. Prípadne môžete upraviť spúšťací skript (napr. Transkribus.bat na Windows, Transkribus.sh na Linuxe), aby obsahoval premenné prostredia pre proxy server: Prihlásenie na server nieje možné cez Transkribus, ale na stránke to funguje. Ďalší možný dôvod chybového hlásenia Už pripojené: znamená, že vaša inštalácia Java môže byť zastaraná a nemôže vytvoriť zabezpečené pripojenie k serveru. Svoju nainštalovanú verziu môžete skontrolovať otvorením terminálu/príkazového riadku a zadaním java-version. Ak narazíte na tento problém, skúste aktualizovať Javu na počítači. Odporúčame aktuálnu verziu nie staršiu ako Java 11 (Oracle alebo OpenJdk). Verzia Transkribus pre Mac obsahuje runtime Java. Ak narazíte na tento problém na Macu, stiahnite si nový balík z https://readcoop.eu/ a aktualizujte inštaláciu. Ak chyba pretrváva, kontaktujte info(@readcoop.eu ideálne vrátane log súboru vašej inštalácie (z adresára Transkribus logs/TrpGui.log) a/alebo informácií o verzii Java a o operačnom systéme. Poznámka: Verzia expertného klienta pre Mac sa dodáva s Javou dodávanou v rámci aplikácie. Ak je táto verzia Java zastaraná, môžete ju skúsiť odstrániť alebo nahradiť aktualizovanou verziou. Ak chcete nájsť súbory vo vyhľadávači Mac, kliknite pravým tlačidlom myši (alebo kliknite na cmd) na aplikáciu Transkribus v zobrazení programov, v kontextovej ponuke kliknite na Zobraziť obsah balíkov, a potom prejdite do podpriečinku Obsah/MacOS. Tam podpriečinok jre obsahuje túto verziu Java. Ak odstránite tento priečinok, spúšťač aplikácie sa pokúsi nájsť Java vo vašom systéme. Možno bude potrebné nakonfigurovat' proxy server cez hlavné menu Nastavenia proxy. Po otvorení príkazového súboru na Macu Transkribus oznámi, že je nainštalovaná nesprávna verzia Java. Je tu však nainštalovaná najnovšia verzia Java. Problém je v tom, že staršia verzia môže byť stále nainštalovaná a nastavená ako predvolená Java. Predvolenú verziu môžete skontrolovať otvorením terminálu a zadaním java-version. Ak chcete problém vyriešiť, môžete si stiahnuť najnovší jdk ako balík .tar.gz. Nastavte inštaláciu Java 11 (alebo jednu z nasledujúcich verzií) ako predvolenú v príkazovom riadku, napríklad podľa pokynov; alebo len skúste preinštalovať najnovšiu Java JDK z inštalátora na https://www.oracle.com/java/technologies/downloads/ Ak máte príliš málo R A M , skúste alokovat' viac hlavnej pamäte otvorením Transkribus.bat a nastavte napr. java -Xmx2048m -jar Transkribus-1.14.0.jar. Spustite Transkribus s týmto .bat súborom. Niektoré IT oddelenia blokujú port SSL 443 a/alebo neznáme aplikácie cez firewall. Ak je to tak, obráťte sa na svoje IT oddelenie. Tmavý režim na Macu môže niekedy spôsobiť problémy s Transkribom, takže ak Transkribus na vašom Macu nefunguje správne a máte zapnutý tmavý režim, skúste ho vypnúť. Po vypnutí tmavého režimu pravdepodobne budete musieť znova nainštalovať Transkribus, aby sa zmena prejavila. 11 2.2 Prihlásenie do Transkribus expert klienta Server Overview Uyoul MeteaTala Tools j,* U * * Recwil daĽj'iĽriLĽ. 1-0/0 i< * i o » N ( j a ^ f i f ' í i i . i ) i Obrázok 12 Hlavná pracovná plocha Transkribus expert klienta a prihlásenie Po prihlásení do expert klienta máte prístup do svojho konta a k svojim súkromným zbierkam pomenovaným podľa vašej e-mailovej adresy. Na účely tejto metodiky a workshopu sme vytvorili pracovnú zbierku ID 190485. • • Ch oo se a collection vi a do u b I E o I i o k M 5 / 1 5 14 4 1 1 • H 10 Name v Role Description 114429 0_SKRIPTOR_WEB_read&saareh Owner "Projekt SKRIPTOR": 103565 IjSKftlPTOFLSLOVAK kurent Owner Created by du5ankatuscak@gmail.com 133576 2_SK RIPTQR_NEQLATIN Owner created by dusankatuscak@gmail.com 173080 3_SKRlPTOR_CZE_GER kurant Owner created by dusankatuscak@gmail.com 1B3563 4 _ $ K R I P T G H _ P R I N T _ W E 5 I slavDnic Owner created by dvsarikatuscak@gmail.com 183675 5_6KRIPTOR_STROJOPIS Owner created by dusankatuscak@gmail.com 185311 6. äTUDÉNTl_DlGl Owner created by dusankatuscak@gmail.com 116510 7. Andrej Kmer writen letters (Slovakia) Owner Tke collection contains personal letters written by Andrej Kmel 70763 8. SKRlPTOR_LAUČEK Martin Owner created by dusankatuscak@gmail.com 185767 DocScan - Uploads Editor created by matejsrriida1@gmail.com 72443 SC HI PTQRJtalalQt. SK Owner created by maj ka. ba bcivfl^-gmai I .cam €4764 UMBjmrich.nagy@umb.sk Collection Owner im rich, nagy@umb.sk 72011 alica.kurhajcova@umb. sk Co llect ion (Hur Transcriber alica.kurhajcova@tjjTib.sk 2S7297 vo| tech .riha14&@g mail.com Collection Owner vajlec b. rihal age users Stray docurne Credit Manage Cancel Obrázok 14 Práca so zbierkou V tomto okne sa nachádzajú voľby pre prácu so zbierkami. Môžete mať viac zbierok a v každej zbierke viac dokumentov. 1. Vytvoriť zbierku {Create) 2. Vymazať zbierku {Delete) 3. Upraviť zbierku {Modify) 4. Spravovať používateľov {Manage users) 5. Opustené dokumenty {Stray documents) 6. Správa kreditov {Credit Manager) 2.3 Vytvoriť zbierku {Create) Create O delete LI Modify £. Menage users Stray docuitie Credit Manage Cancel Obrázok 15 Tlačidlo voľby Create (Vytvoriť zbierku) Do okna napíšte názov zbierky. Názov má mať minimálne 3 znaky. Stlačte tlačidlo OK. j} Create Ó Delete Modify Manage uíers Stra/ docume Credit Managt • Create collection Enter the name of the new collection (rnin. 3 characters) i\ 0 OK 1Enter the name of the new collection (rnin. 3 characters) r Cancel Obrázok 16 Okno na pomenovanie novej zbierky Dôležité je pochopiť, ako sú zbierky a dokumenty v Transkribe štruktúrované. Na obrázku nižšie vidieť logickú štruktúru zbierok Transkribu. 13 Dokument 1 Stun* I 2 Si m u J Slrmu 4 Sinn« i Stlll í. Slrann T Si mu í Slmni fl Slmu 11) Síran* 11 M!.:!,., L2 U zrnina ...n Dokůmem 2 SM.iľi 1 Strana 2 M-M.l 3 Sírana 4 Slrana S SlraJI* üurana Sltujia S Slrana fl Stran* 10 Sama 11 V • • 11 Slrana 13 Síran* ;1 Dokument 3 Strain 1 S m i 2 M-j:|.| J Slraru 4 Strai.. S Síran* ŕ Strana M-.ii.i Siraru S:I.II .• M. Strana |] Suma 12 Strain 13 Slinu - J Dokument 1 Strni* l Strana 2 S-l •.: J Slnina 4 SlľTílí í Stran* 6 Sum* T Siww í Slnina 9 Síran* 14 Stran* 11 Slrana 12 •I.::.: 13 Síran* ...n Dokument 2 SM ,iľ.-. i Strana 2 M ••u 3 Siraaa 4 Sv&u S Si I .H: .• fr M:.-IM T M ••u í 9 m fl Slrtl 14 Strana U SUu.na 12 SlMI.I 13 Stratu -M Dokument 3 Straní 1 Sirano j 3 Sírane 4 SlIlDI 3 Strana ft Siro-no Sirana S Straw 9 Straní 11) Strana 11 Strana ••I:., ... 13 ...B Obrázok 17 Štruktúra zbierok na platforme Transkribus Dokumenty sú usporiadané v zbierkach. Zbierku možno chápať ako priečinok obsahujúci dokumenty. Zbierky sa zvyčajne používajú na projektovom základe. Napríklad všetky dokumenty patriace do jedného projektu sú usporiadané v jednej zbierke. Príklad: zbierku pre účely projektu Transkripcia korešpondencie J. M. Hurbana môžeme nazvať Hurban listy. V jednej zbierke môže byť viac dokumentov. Dokumenty pozostávajú zjednej alebo viacerých strán dokumentu. Napríklad v zbierke Hurban listy sú ako dokumenty jednotlivé listy. V projekte Skriptor má každý riešiteľ vytvorený vlastný účet - vlastný projekt a vlastné zbierky. Sprístupnenie všetkých zbierok a dokumentov z projektu APVV Skriptor na internete je možné cez nástroj platformy Read&search. Všetky zbierky a dokumenty určené na zverejnenie na internete preto musia byť uložené v jednej zbierke (napr. OSKRIPTORWEBread&search). 1-15/15 H 4 1 1 • H lb ItaH Roli U*J1J3 ur_snHir njw_mfeo_H»t»*!»wrtii Lyťdllt!ľ D33S65 1_SKRIPT01!_SLJOVAK kurenl t; v, 'ío • IB3676 2_SKRIPTOFLNEOLATIN Owner 173080 $_SKfilF>TOR_C2E_<3r:R kurenl Owner 163S6o 4_SKJRlPTOR_PRlNT_Wesl Slavonic Owner 1*3675 5_SKRIPTOR_5THOJQPIS Owner 1)15311 6. S T U DE NTl_DK5l Ľ i o • 116510 7. Andrei Kms( witen letters (Slovakia) Owfiar 70783 S. SKR!PTOR_LAU£EK Martin Owner 165767 Doc Scan - Uploads Editor 72443 5CRIPTCrH_Kat*l« SK Owner £4754 UMG _imrich.rkagy®umti.5S( Collection Ü.-.10' 72011 alica.kurtiajcava@umti.sk Collection ( Hur Transcriber 237297 irajtech.fIhs149ri5<)rrui il.cům Colleclrůn Owner Obrázok 18 Zbierka ID 114429 určená na zverejnenie zbierok a dokumentov z projektu Skriptor cez stránku Read&search 14 Zbierky môžete vytvárať tak, aby zodpovedali organizácii fondov, zbierok a dokumentov v inštitúcii. Napríklad v archíve SNM v Martine je zbierka rukopisnej korešpondencie Andreja Kmeťa deponovaná v piatich škatuliach. Dokumenty môže vlastník zbierky (pwnef) usporiadať tak, že uloží všetky listy Andreja Kmeťa do zbierky Andrej Kmeť written letters. V nej má napríklad dokument List Kmeťa adresátke Balkovej a 3 strany. cmiiEilm: B. SKRiPT{Jfl_LAUtEft Mtrtln ITO743, OynMI I ID TÍM ~ PlQÉl U04o*d* Í16JI7 L *UÍFPÍ_»iAHTIN_SNA_rV19_t 3D 1 ? íiiiíjnkiii.íCA L*UÍE^UAflTIH_SNA_ÍV_1(j .=;.= • H Í S H UUĎCK_MAfHTlh_SNA_WJÍJ ú'-' •;L !-1"'-J !L ! í. 1 7E duí jnkjrtL K i Í16679 y * U ť f K_UAHTIH_SNAwZlŕ_13L5 7Ů UUĎíl^U>flT|N_SNA_IVJS_* 5i 1 1 Í S M L*UĎ£K_kf*flTlN_SH*_ÍVj1í_S Ľ'J duoantjflĽKJ 4166&-3 LAUÍ ES_MAHTIN_ÍMA_rVJI4 117 dn^.lfiLJÍlLlC.l L*UŮEK.M*HTIH_SNJLIVJBwl 7Ť !l. ..ll .1 ^iee*s L*uetK_MAflTih_sh*_2vjs_i l.-l L*UÍÍI(_k*WTlN_SNA_ÍV_? ľ l ' duíjndjiĽKj í i s f i i L*UÍ*I(.UJUITIN .shnije Iľli .11. vi-• .m. K i 41fl»3 LAU(íťK_M*flTIN_SIMA_ZV_í ii.8 isaaae L*utEpjf*HTiN_SNA_ivjia*i dusanluflĽKa Obrázok 19 Príklad zbierky s dokumentmi a stranami Ak chcete presne dodržať spôsob, akým sú dokumenty uložené v archíve, môžete pre každú z piatich škatúľ vytvoriť samostatnú zbierku s dokumentmi v tejto škatuli. Takto môžete mať napríklad vo svojej zložke päť zbierok a v každej zbierke dokumenty, listy podľa uloženia v škatuliach. Poznámka: To, ako chcete mať usporiadané zbierky, by ste mali mať premyslené už pri snímaní dokumentov (skenovaní, fotografovaní). Listy Andreja Kmeťa krabica 1 (17) 8.9.2021 12:25 Priečinok súborov Listy Andreja Kmeta krabica l (20) 8*9.2021 12:26 Priečinok súborov Listy Andreja Kmeťa krabica 1 (20) Ô. 9.2021 12:26 Priečinok súborov Listy Andreja Kmeťa krabica 4 (17) 8.9.2021 1Z-28~ Priečinok súborov Listy Andreja Kmeťa krabica 5 (27) 8,9.2021 12:28 Priečinok súborov Obrázok 20 Usporiadanie zbierok v osobnom počítači podľa škatúľ v archíve Ak chcete postupovať takto, vytvorte najprv vo svojej zložke päť zbierok a pomenujte ich. Napríklad Kmeť 1, Kmeť 2, Kmeť 3, Kmeť 4, Kmeť 5. Do takto vytvorených zbierok nahrajte jednotlivé dokumenty (do Kmeť 1 dokumenty zo škatule č. 1, atď.) Ak chcete dodržať spôsob uloženia archívnych dokumentov (päť škatúľ), vytvorte 5 zbierok. V škatuli č. 1 je 17 zložiek (obalov s listami podľa adresátov). V zbierke Listy Andreja Kmeťa škatuľa č. 1 nahrajte všetky dokumenty (listy) podľa adresátov. Vytvárať 17 zbierok pre každú zložku by nemalo praktický zmysel. V prípade korešpondencie Andreja Kmeťa ide o homogénny fond: 5 škatúľ s listami usporiadanými podľa adresátov. 15 Všetky listy si už v osobnom počítači vopred pripravte ako súbory vo formáte PDF na import do platformy bez ohľadu na uloženie v archíve. Usporiadanie všetkých listov podľa adresátov v abecednom poradí je pre používateľa prijateľnejšie. Alternatívne j e možné do zbierky nahrať samostatnej ednotlivé fyzické zväzky. Napríklad v zbierke Martina Laučeka Collectanea je základné rozdelenie podľa označovania zväzkov z archívov podľa miesta uloženia: SNK, z archívu SNM a z OsZK a potom podľa označenia v jednotlivých archívoch. Niektoré rozsiahlejšie zväzky sú rozdelené na menšie dokumenty kvôli experimentom v projekte, čo však nieje potrebné. Napríklad zväzok 13 je rozdelený na 5 častí. ;u i : : ir'. S. SKRIPTUR L/UČEK Marlin (70763, 0» Documents Model Data 1-4? M ? 1 Dec |[ M * i i > H O O L a t i r C O i á ď i T.l* 126756 L>UCEi(_OSZKJ333_TIFF.ORFZ 176 dusank 16727 U U Č E K _ M W R T I N _ S M A _ Z vi s _ i 30 1í duaank 16672 L>U(EIÍ_M*finN_5fH_ZV_10 dusank 16674 U,UČERMÁK TIN_ SHA_ZV J 3_1 b.: dusank 1667S LAUÍEií_MABTiH_SN*_ZVJ3_2 •í dussnk 16679 LAUČEK_HARTlrJ_SNA_ZVJ3_3 dusank 16661 LAUÍEK_MASTlhL3Nr\_ZVJ3_4 5" dusank 16663 muCíK_M*n™_BMA_z;v_i3_6 65 :J:.:.-i 1 16663 L>uCE«_MABTlN_SNr\_ZVJ4 117 dusank 16694 m u CÍK_ MAU ntJ_ s MA_2V_I B J 7i d u s i ň k 16696 LftUCEl(_MAftTlN_SN*_2Y_1S_2 17) duEank 16285 U UCÉK_MAKTVJ_5HA_2V_7 J'7 dusink 16291 LŕUtEK_MAfi.TlN_SN*_2V.J 17C duEank 16303 LAUČEKJ MARTIN1 J 5NAw ;;V_S 559 d y í í ň k Obrázok 21 Usporiadanie zväzkov podľa miesta uloženia Niekedy je na účely experimentovania vhodné rozdeliť jednotlivé zväzky podľa počtu strán (napríklad 50 s.) Collections: UMEjmrich.nagyfeXjmb.ík Collection (6< Documents Model Dala 1-6*1/60 % • « - ! ! H * t 1 » ^ 6 Ö i d SU ) Tille uptojde 3561S KoWfy_caFresp_Catelo9Lj II 10 •nrich. 3S6I? KohJ ry_cůirespJLl002_114ÍLdupli( 70 mrich 30372 Kohií¥_correspJI_1íi?_201 56 .rririch 30970 Knháfy_cairespjl_1_t01 L.- •nrich. 30374 KorJíy_cofriHpjl_í0Z_30i 56 ninth 30378 KahJíy_carraspJI_302.j401 SO •nrich. ľldu&l K0hííyj;ůírieípJljSÍJÍ_6rt| 56 imrieh. 30333 KoWíy_corresp_H_5íi2_601 56 mr ch 30334 KunífY_correspJI_$0í_701 SA mr.ch 30366 Kohá ry_corr85pjl_702_801 56 ínr ch 1S542 Knhäfy_coirespJI_Stl 2_aůl SC •nrich. 35S55 Kohí#y_eofrwpjl_90?_looi 56 imrieh. Obrázok 22 Usporiadanie rozdelených zväzkov v zbierke Koháry 16 Pomenovanie zbierok a dokumentov pripravte vopred už v procese snímania (skenovania). Digitálne dokumenty označujte spôsobom, ktorý je určený pre archívnu prax. Inštitúcie, ktoré sa rozhodnú pre transkripciu pomocou platformy Transkribus, môžu pomenovať zbierky a dokumenty tak, ako ich majú vo svojich fondoch. 2.3.1 Kontrola kvality pred importom Kontrola kvality pred nahrávaním dokumentov do expert klienta je mimoriadne dôležitá, pretože umožňuje udržiavať poriadok v platforme, organizovať dokumenty a pripravovať dokumenty na editovanie a sprístupnenie na internete cez nástroj Read&search. Skontrolujte: 1. úplnosť dokumentu, 2. kvalitu snímania (ostrosť, kontrast, farebnosť, úplnosť snímanej plochy - strany, presvi- ty), 3. orientáciu strán, 4. poradie strán, 5. formát snímania. Po snímaní je z dôvodu archivácie, zálohovania a ďalšej manipulácie potrebné vytvoriť: 1) archívnu kópiu v úložisku alebo na externých nosičoch. Ide o adresár, do ktorého uložíte obrázky v „surovom", needitovanom formáte, v akom boli nasnímané (fotografované, skenované) JPG/TIFF/RAW/PNG. Zodpovedný: systémový administrátor inštitúcie - informatik, 2) derivovanú kópiu. Adresár, v ktorom budú už „surové" obrázky po postprocesingu, teda po následnej úprave a kontrole kvality upravené, opravené, orezané, úplné so správnou orientáciou a v dobrej kvalite. Kópiu tohto adresára v najkvalitnejšom dohodnutom formáte nahrajte na nosič (CD, SD, USB, externý disk) alebo na digitálne úložisko a: a) poskytnite ho inštitúcii ako vlastníkovi alebo správcovi zbierky, b) uložte ho v inštitúcii na účely neverejného prístupu nedostupného cez internet. Určte miesto uloženia a zodpovednú osobu (systémový knihovník, kurátor a pod.). 3) pracovnú kópiu v adresári na svojom počítači s dokumentmi v derivovanom fomáte PDF, z ktorého nahráte zbierky a dokumenty na platformu Transkribus. Zodpovedný: manažér projektu transkripcie, 4) transkribovanú kópiu v adresári alebo adresároch s exportovanými súbormi, ktoré sú výsledkom transkripcie. Zodpovedný: manažér projektu transkripcie, 5) datasety so súbormi Ground Truth a vlastnými modelmi. Zodpovedný: manažér projektu transkripcie a systémový administrátor. Dokumenty nahrávate (importujete, uploadujete) na platformu Transkribus preto, aby ste ich automaticky transkribovali a sprístupnili odbornej a širšej verejnosti. Cez expert klienta platformy Transkribus má zmysel transkribovať väčšie fondy, zbierky a dokumenty, teda stovky až tisícky strán. Menšie zbierky a dokumenty je možné zatiaľ transkribovať prostredníctvom Transkribus Lite. V expert klientovi platformy Transkribus pracujete s tými dokumentmi, pre transkripciu ktorých je potrebné vytvoriť vlastné modely transkripcie, pretože dostupné modely sú neuspokojivé. 17 2.4 Vymazať zbierku {Delete) Create Delete Mod Iv £ Manage users _ . Stray document! Credit Manager Cancef Obrázok 23 Tlačidlo voľby Delete (Vymazať zbierku) Kliknite na tlačidlo Vymazať zbierku (Delete), ak chcete zbierku vymazať. Zobrazí sa varovanie, či naozaj chcete vymazať označenú zbierku. Poznámka: Dokumenty v zbierke safyzicky nevymažú, odstráni sa iba ich prepojenie na zbierku. Da you really want To delete Ihe collection "U M B_imrich, nagy (fiumb. sk Collection"? Note: documents are not deleted, only their reference to Ihe collection is. removed - use the delete document button to completely remove document* from the server! After collection Is deleted the docs can be deleted or reassigned vie the 'Stray Docs Dielog'l Ha Obrázok 24 Upozornenie pred vymazaním zbierky Po odstránení zbierky je možné dokumenty vymazať alebo zmeniť priradenie prostredníctvom funkcie Stray Docs Dialog. 2.5 Upraviť zierku {Modify) ^ Create £ Delete •Modify £ Manage users Síray document Credit Manager Cancel Obrázok 25 Tlačidlo voľby Modify (Upraviť zbierku) 18 EdilCůl lei lion M ŕ T í d á l l "'JU \' .\" :\' \Ĺ j'*':'- .ť "\i Spaollni iblartd vytvorená na diely vídal i v í c e h o wjrkshopu i melodiky v ránno *k konta íľoierty) Iwgrif pvcfp 7$44rty s rkahrJiv^E dofciim*nJly 0g vytvorených 7ľiifjrplc. So ibicrkami j dokumentmi mpíu prícovaíli ýf Silnici, Holých pridi vljSnik Iphlp kpnla íífcieriiýl c pridelí im prjva. Na pridali i: ÍL JI J p- dolmi* oprávnení polrobuio vlaHnll ŕbrerky LäwnAr) prihUiDvecie rrrtilpvo xaVoly M ;yogiirjavanyro úfldv &otaJrr*ov. Pram i puuiivasevri viaainiV mieHy urobí tti voihi Vwiain uMrar Obrázok 26 Okno na popis zbierky a metadata Do okna s popisom zbierky napíšte text vzťahujúci sa na zbierku: popis zbierky, metadata a pod. Tieto údaje môžete kedykoľvek zmeniť. 2.6 Spravovať používateľov {Manage users) i> Create Q Delete Modiíy £ Manage UDEfa Stray: documenl! . Credit Manage! Cancel Obrázok 27 Tlačidlo voľby Manage users (Spravovať používateľov) Nového používateľa/používateľov je možné pridať cez voľbu Spravovanie používateľov {Manage users). Táto funkcia umožňuje: - zapísať e-mail nového používateľa zbierky cez voľbu Username/E-Mail, - vyhľadať nového používateľa v účtoch Transkribus cez voľbu Find users, - určiť oprávnenia na prácu so zbierkou pre nového používateľa pomocou voľby Change Role. Do okna vpravo dolu E-mail používateľa {Username/E-Mail) napíšte e-mailovú adresu účtu používateľa na platforme Transkribus (z prihlasovacích údajov). Kliknite na ikonu Nájsť používateľov {Findusers). Ak existuje, nové meno používateľa sa zobrazí v okne Používateľské meno {Username/Name). Kliknite na meno používateľa. Vyberte voľbu Pridať používateľa {Add user). Kliknutím na meno existujúceho používateľa v ľavom okne sa aktivuje možnosť Zmeniť rolu používateľa {Change Role) na platforme Transkribus: 1. vlastník {Owner) - najvyššie oprávnenia, môže robiť všetky zmeny a úpravy, 2. editor {Editor) - môže editovať text, 3. transkriber (Transcriber) - môže transkribovať/prepisovať text, 4. čitateľ (Reader) - môže text iba čítať, t. j. má len pasívny prístup k zbierke. 19 Voľba Pridať do inej zbierky (Add to other collection) umožňuje pridať označeného používateľa do inej zbierky cez dialógové okno. L U « Í Ifl í4fl*íl tm UlĽ-InliJ UHM 1b CettoĹEiM viuŕkkMp.L«ťtikribu»FAuinb> ik ŕpdíeiinh 1-11/11 H < 1 1 • H W6(liäi*1Krjnj|lui|)iB9fwiiB.)k |mí«ii (iWwr poŕlrik.kjjnK #u mb .ilc ľ.ľ i KunK Owner •iixivkDr*$uir4xBk Lucw i, •.. • Omar rňäiki ĎObOYŕSj 1H:I CO«n Miril I5ít;-,j !>••• nn jfnrlchjiagy&umb.Ek llTVCil ľ, MV O*nor :\: [rxnrakíj L - Í! -. Ota T i n c í r k Ovrŕnr tfJH^kiluřSSk^sn1 -*! caru DjtW Klllllllk Omwr *Krj.kurtii|C9V4p|j(iib.tl; AJK* K OvUN 1 í"-: i .ii'jti 1ľ.'KĽt.c'. •C": ľ. AlbarL ŮATiar M v o l . r * ŕrltkpuTIb.ík Oimtí ChMig+Rule: Obrázok 28 Pridanie nového používateľa do zbierky a určenie práv 2.7 Opustené dokumenty (Stray documents) 9 P«IC1,i.
    rthi»ov • •wlrohJr M í t s í í M J^^^^M Donmi j mmcrniwiia LEA UFFJULHA • VUliVFV.'I O. UIYTOVAHJE J li I fruy Anaíyikhŕ fcipwqľ HWRi Metodičke pokyny B ucmtmenia 1. HcL-íí'íkÝ wfcin.fljbpnj antmef ireoistrJbirHin-ilínWo "--nifl afancniftid jmjblikv n* rmH.i,r.r|PLV n n t n : MemHcKv pokru wibom *rfiiwr « w i o vfnntJ W J W Mwtttnm Mumra S4«vtní*t; flwblJKif, kl^rým M v*ínjl íírvfclw* » ttwh 1 MetadAiŕ cAonj tnýiw* w«k>ej ífJK^ M^vrimtvu mitn SkMmtarj Vijafkv. Húfy* u iMíiit* ferJíEýrt a feoih Í4JÍ*J priŕ*. ŕ i ;*no lůaxňvtri a Htuŕé rAiaov píaiíwmva ííilpych jiidiŕŕW ttJuľl 5. HítsdttkÝ iwkyn DdtHfu iftíihŕsv sakcki ratjirj W J V Y Mlnlrimtvj vnwlra SlwcnM*: •riwlgnwmj WťHifantnw T ^ t n f Ja «*fomKft Fnnikiv I EDf .iflí .tí ř Q. MtMnJiif Aubim wíc-inj *-L*hivni idríha ™*}ňŕj ipiiifif MkjUSíniiftu Tŕrartra Hůiftni*^: rtalAdníri. t^ŕn t b * « i i rjjUníJSan-Jniorpr.i.inani Obrázok 31 Metodický pokyn MV SR č. SVS-OA-2011/23406-001 22 Voľba dokumentu pre platformu Transkribus sa oproti tomu vyznačuje niektorými špecifikami. Na rozdiel od bežnej digitalizácie v pamäťových inštitúciách nie sú prioritou poškodené a ďalšou manipuláciou ohrozené archívne dokumenty. Vzhľadom na ich stav zachovania (porušenost', fragmentárnosť) nie sú príliš vhodné pre segmentáciu, transkripciu a nadväzujúce postupy. Naopak vhodnejšie sú intaktne zachované archívne dokumenty. Na prácu v Transkribe sú najefektívnejšie rozsiahle rukopisy vyhotovené jednou pisárskou rukou najlepšie v krátkom časovom úseku. Z hľadiska potrieb bádateľov a vedeckého výskumu sem možno zaradiť napríklad matričnú agendu, kanonické vizitácie, sčítacie operáty, parcelné protokoly a pod. S prihliadnutím na charakter platformy je vhodné vyberať dokumenty odrážajúce špecifiká slovenského kultúrneho okruhu, ktoré sú atraktívne aj pre zahraničných užívateľov. 3.2 Popis fondov, zbierok a dokumentov Význam presného popisuje osobitne dôležitý pre digitálne objekty nadobúdajúce podobu elektronického informačného zdroja. Na rozdiel od fyzického vyhotovenia vznikajú digitálne dokumenty iba vďaka softvéru. Stráca sa tým jedinečnosť a proveniencia fyzicky zachovaných archívnych dokumentov. Elektronické dokumenty preto nadobúdajú zvýšené požiadavky na overovanie faktov (fact-checking) s dôrazom na dôveryhodnosť, spoľahlivosť, ale aj pôvodnú provenienciu a hierarchiu. Popis a citovanie má umožňovať dohľadanie fyzicky zachovaných zdrojov. Vzhľadom na medzinárodný obsah a rozšírenie platformy Transkribus je pre digitalizované dokumenty (materiál textovej povahy) vhodné využívať štandardizované medzinárodné popisy a normy. • mmvjki?jrchiw-itMKl«T]y-t I H i? EJ Tmfl r im trn n i l O V t H i K [ | UPUiLIKV A D.-lKl KjUětt •_ 3] TM DcdMüfe Jon Q Hitlŕŕll HRO Hi GUOtfn. -\ Hů i :• • SefcäeMVHl nŕ :.rij Ol Ij ArxiiivnK IV? T -.1jndMij r ^ ľ 2 A r c h í v n e š t a n d a r d y m u ' w r x ' • nlnnáéir InhMmár^ * flrtlimiit li jirdrlHÉ I d l v i d n i H i n muUII IntOtU 0". w«]iM) jpn ™ • VtoůtKO^ * « f l n a i w n v sta^iid pi* j r ^ f t p [S*fr;C) p O M f l . ^ O Í - . ' Í >..^-, >.: pŕfMMJ JfďJi^iiT CptSOV. MS £3 {OUůrtť 1- «í-ltL|ÚLrt pifCdJ^TTU iWTTUfri Jfetri *fvľ IIUMI fíO hyhwrn-t nJraiTfct1 r w n Ľct-Pi ID-'ÉÚ &>tvop*u }ŕ uóť J vrivrtf kontes d íta*h .•••i I- i ůiíiJTUjdiiK 1 Ĺ-ťtarti \riJfi^L^[' prie d n ^ M ť . Istfl hú ŕTKúňŕ i^rtHťw^ f-rvVri-L J rAtírtŕtiú LvUiyu MamM' a ijuäncm -ch -^poraunij s" íúl>i; i -«cpred udjafľitrt ^t»«ri. PTLÜM-, TJŕwiLWFi- h :p'jan w inľJii r-Vi*"T-u"i-. ytfiuiM Jria p«3 v / w n é n dEÉunvTtw ja lurt'i ;u*r«'uwjil' pěta 4H4 H ť í*iJL rtdúlqg4*ki kpwty w ^ ú ru Ardiŕvny opto v fdjMd* niiVrio WF^J JMNO* víaftY rtľímáot bw írfitíJ - J K . ; jjkťj ••-..Vrd. V LiMtí 11» ira*v*pj Hamid* D duhunMiran nyninwri* a mUu -u -dopihať u iiftUoi J*%VOI euHUHEh" • UTi-QbUtU airiJQ kDfÉOdL kíl VJTlJíL. HjJTJ- ;>A.«Í£TH* tflAfmafr£ I^t£ŕ*V Jnůflj dCdť-m iT.nj'u.i vP i»: fH/-j>H-> I:ILT—j.-d pctf* ?u!'.dhiďi *+:. lu rJi «lü. JLI-J-LU diiĽ-j -ilLV-r-Hi-r £«iuJ ŕc MÍ'J frťn^J ál .'M>rrtůviJJ Al ÜCH •OiiirtťL* pu bjľ-r. v kfiUffn M vyWfcr CH u « i M i l , rnAtij u !d\í i n Ľ r ru ' Í V L T UrU raidi^rlr rtiKjnrrínv "-nriri l.J jnr.v.1 • r j--:+:-r-rnr prjwvilb A# ^ rwTTf Wert 1« "íJv p*fW W-r iAft4f n* **Xi r^HÍ ^ft™iíhi d^ur^ůy. hwwwi li wr4»~4 V C^T^I- b n M t ™í ň potn-^i cp>r Iswšŕr^1 'x^i_ ^7-' H eoEatr. rtfiWíy Mrtn mipf HniHv VA^ÚOB Opdné pnM>3Ü pni tifcŕtT) dí*i*nvnrr irrVuiO TW? by H «Mt f - ť j ; ' LPIAJ -I týmto ^b>Mi^. jbt n Lft IM™ J -ch JH tbrí1 opt. Obrázok 32 Všeobecný medzinárodný štandard pre popis archívnej jednotky Medzinárodná rada archívov schválila a zverejnila niekoľko štandardov zjednocujúcich popis archívnych dokumentov, vrátane digitalizátov. Všeobecný medzinárodný štandard pre popis archívnej jednotky {GeneralInternational Standardfor Archival Description - ISAD(G)) vychádza z provenienčného princípu a definuje dvadsaťšesť položiek popisu. Odbor archívov a registratur Ministerstva vnútra SR sprístupnil slovenský preklad druhého vydania štandardu z roku 1999 aj 23 s príkladmi viacúrovňových popisov pre sieť štátnych archívov na Slovensku. Keďže archívne dokumenty uchovávajú aj iné subjekty, napr. kultúrne inštitúcie a súkromní vlastníci, vznikli ďalšie normy. Medzinárodný štandard pre archívne autoritné záznamy právnických osôb, fyzických osôb a rodín {International Standard ofArchival Authority Recordfor Corporate Bodies, Per som andFamilies - ISAAR(CPF)) je rozšírený najmä v mimoeurópskom priestore. Ďalšie úpravy obsahuje Všeobecný medzinárodný štandard pre popis inštitúcií s archívnymi dokumentmi (International Standardfor Describing Institutions with Archival Holdings - ISDIAH). Možnosti pre jednotný popis digitalizovaných dokumentov zo štátnych archívov, ale aj cirkevných archívov, knižníc, múzeí, galérií, pamiatkových úradov, vedeckých ústavov a pod. poskytuje štruktúra popisného reťazca pre platformu Transkribus - projekt Skriptor. Na rozdiel od archívnej terminológie metodika vychádza z určenia pre digitálny repozitár. Obsahuje fixné názvy zbierok a súborov určených na automatickú transkripciu s dôrazom na prehľadnosť a zrozumiteľnosť. Štruktúru reťazca tvorí názov zbierky (kolekcie), názov podzbierky (subkolekcie) a zdroj/vlastník. Za fixnými časťami nasledujú premenlivé hodnoty dopĺňané podľa konkrétnej situácie a podľa skenovaných objektov. Tieto hodnoty sú najmä: 1) označenie (číslo) zväzku (signatúra), 2) počet listov, 3) rok(y) RRRR alebo RRRR-RRRR. Celý názov entity určený na nahratie do Transkribu môže mať napríklad takúto štruktúru: L A U Č E K M A R T I N S N A Z V I 3 5 SkriptorHurban listy_SNKLA_2A3_1875_Pauliny-Tóth Viliam Visitatio canonica_CV18_DABB Ak je snímaný objekt určený pre digitálny repozitár, vloží sa na začiatok reťazca referenčný kód a názov jednotky popisu - v prípade štátnych archívov podľa ISAD(G) kód krajiny, archívu, fondu alebo zbierky. 3.3 ScanTent a DocScan pre archívy a knižnice DocScan a ScanTent sú nové nástroje, ktoré pomáhajú snímať historické dokumenty na účely transkripcie v dobrej kvalite. Informácie o nástrojoch sú dostupné z hlavnej stránky READ-COOP na https://readcoop.eu/transkribus/?sc=Transkribus. V bádateľniach archívov bádatelia používajú na snímanie vlastné zariadenia, fotoaparáty, mobilné telefóny, tablety a podobne. ScanTent a DocScan sú prijateľnou alternatívou k bežným zariadeniam na snímanie dokumentov v archívoch a knižniciach. ScanTent a DocScan je výborným riešením pre inštitúcie, ktoré nemajú pre používateľov k dispozícii kvalitnejšie stolové skenery alebo ktoré ešte nemajú zdigitalizované svoje dokumenty prístupné pre používateľov. Obrázky snímané týmto spôsobom je možné poskytnúť inštitúcii na dohodnutom nosiči alebo na uloženie do inštitucionálneho digitálneho repozitára archívu alebo knižnice. Ak však máte možnosť rozhodnúť sa medzi zariadeniami ScanTent a DocScan a profesionálnym skenerom dokumentov, uprednostnite profesionálny skener. Pre digitalizáciu platí zásada, že snímanie - skenovanie sa robí v najvyššej možnej kvalite, na najvyššej dosiahnuteľnej úrovni. Kvalita snímaných obrázkov je kľúčová pre efektívnu tran- 24 skripciu. Skúsenosti ukazujú, že kvalita snímania by mala byť okolo 600 DPI. Historické rukopisy predstavujú defacto špecifickú grafiku, pre ktorú sa niekedy odporúča snímanie v kvalite 900 až 1200 DPI. Práca s vysokokvalitnými obrázkami však môže vyžadovať postprocesing, čiže následné spracovanie pomocou špeciálnych sofrvérov na úpravu obrazu. Pri práci s DocScan a ScanTent trvá naskenovanie knihy, teda fyzického zväzku s 300 stranami, približne 12 -15 minút. To je 150 obrázkov, pretože v zariadení sa snímajú naraz obidve strany otvoreného zväzku prakticky až do veľkosti A3. Spravidla teda budete môcť nasnímať viac ako 500 obrázkov za hodinu. 3.3.1 ScanTent ScanTent je možné získať zakúpením priamo z hlavnej stránky po voľbe ScanTent. Je optimálnym riešením na snímanie voľných alebo zviazaných dokumentov v bádateľniach - pre nízkonákladové a vysokokvalitné snímanie (skenovanie). Cena ScanTentu je aktuálne 239,00 € vrátane 20% DPH plus poštovné. Niektoré inštitúcie majú pre bádateľov a čitateľov v študovniach a bádateľniach desiatky zariadení ScanTent. Napríklad Francúzska národná knižnica ich mala 40 v roku 2023. Ak chcete získať ďalšie informácie, kontaktujte scantent@caa.tuwien.ac.at V katalógu tovarov a služieb je to na účely obstarania a evidencie majetku tovar v rámci skupiny „statívy na fotoaparáty" pod číslom 90 391. Hlavné funkcie ScanTentu: • profesionálne fotografické prostredie na snímanie vysokokvalitných obrázkov bez dodatočného svetla. Stan je z nylonovej hodvábnej látky s vnútornými príchytkami na led osvetlenie, • L E D osvetlenie s USB napájaním pre nepriame osvetlenie dokumentov - pripoj enie na notebook alebo iný zdroj (napríklad powerbank), • tmavá plstená látka na základni ako optimálny podklad, • veľká základná plocha, takže používatelia môžu vložiť ruky do zariadenia a držať zviazané dokumenty otvorené oboma rukami, • skenovanie dokumentov veľkosti približne A3 alebo aj o niečo väčších, • ľahký (500 gramov) a skladateľný, zmestí sa do malého puzdra. Obrázok 33 Prototyp ScanTentpoužitý na snímanie zväzkov Martina Laučeka v SNA v Bratislave a v SNM v Martine (2018) 25 Obrázok 34 Novší model ScanTentpoužitý na snímanie v Diecéznom archíve Banskobystrického biskupstva v Badíne v rámci projektu Skriptor (10.09.2020) Popis častí ScanTentu: 1. kompatibilita s každým smartfónom {Compatible with every smartphone) 2. nepriame LED osvetlenie {Indirect LED Lighting) 3. protišmyková plocha pod smartfón {Anti-slipphone-mount) 4. difúzne osvetlenie {Diffusion of ambient light) 5. nylonová hodvábna látka {Nylon silk fabric) 6. voľne dostupná aplikácia DocScan s umelou inteligenciou {Free AI-PoweredDocScan App) 7. veľká základná plocha (A3 alebo časopisecký formát tabloid 280 mm x 430 mm) (Large base area) C O M P A T I B L E W I T H EVE ft Y S M A Í Í T P H O N E I N D l R f C T L Ě D L I G H T I N G A N T > S L I P P H O N Í - M O U N T EASILY C O L L A P S I B L E FULLY P O R T A B L E N Y L O N ! / ' S l l K F A B R I C gm D l F f U & I O M O F A M B I E N T LIGHT FREE A I - P O W E R E D /L A R G E B A S E A R f A Obrázok 35 Komponenty ScanTentu 26 Rýchly prehľad montáže ScanTentu nájdete vo videu https://youtu.be/iL2WNNi5VEI Po nastavení zariadenia ScanTent môžete začať so snímaním - fotografovaním. Ak okolité svetlo nieje dostatočné (čo sa stáva veľmi zriedka), zapnite svetlá do prenosného počítača alebo USB zásuvky. i illíi 1 A4 Nokia 7 Plus Tele H J P W S , « . -362 dr» A3 Pipet Suo Samsung A3 Nokia 1 iPhone7 Samsung Sú -J30dpt Galaxy A3 193 r.lŕ ' Nokia 6.1 -KS dpi Nokia 7 Pius / Samsung S3 - I M d p l Obrázok 36 Experimenty vývojového tímu s rôznymi smartfónmi Vývojový tím platformy Transkribus testoval osem rôznych smartfónov a meral ich rozlíšenie. Zorné pole a rozlíšenie jednotlivých smartfónov môžete vidieť na obrázku vyššie. DocScan nepodporuje telefóny Nokia 7 Plus Tele a iPhone 7. 3.3.2 Aplikácia DocScan Aplikácia DocScan sa používa so zariadením ScanTent a je to softvér, ktorý vyvinula Technická univerzita vo Viedni v rámci európskeho projektu READ. Aplikáciu DocScan si môžete bezplatne stiahnuť z obchodu Google Play na https://play.google.com/store/apps/details?id=at. ac.tuwien. caa. docscan 27 D o c S c a n > K i l u . • ít^iji Q ri Mini ii •• 11—•• •• i ipii Obrázok 3 7 Stránka Google Play na stiahnutie a inštaláciu DocScan Aplikácia DocScan bola vyvinutá špeciálne na digitalizáciu kníh a archívnych dokumentov pomocou smartfónu. V súčasnosti je k dispozícii prednostne pre telefóny so systémom Android. DocScan je určený na skenovanie historických dokumentov v kombinácii so ScanTentom. Zobrazuje strany v živom náhľade a robí skeny v dostatočnej kvalite pre platformu Transkribus. V automatickom režime Serieš sníma obrázok po otočení stránky po pripojení k zariadeniu ScanTent. Umožňuje teda rýchlo skenovať knihy alebo dokumenty bez interakcie s vaším mo- bilom. Hlavné funkcie DocScan: • rýchla a spoľahlivá detekcia stránok dokumentu, • jednoduchý režim (Single) na manuálne snímanie jednotlivých obrázkov, • sériový režim (Serieš) na automatické snímanie obrázkov (pohyb je detekovaný automaticky). Po otočení automaticky sníma ďalší obraz dvoj strany, • schopnosť otáčať a orezávať stránky, • priame nahrávanie dokumentov na server Transkribus. Výhody: • vysoká kvalita obrazu - moderné inteligentné telefóny poskytujú vynikajúcu kvalitu obrazu s vysokým rozlíšením, • nákladovo efektívne - ako pre koncového používateľa, tak aj pre knižnicu/archív, • žiadne licenčné poplatky, • nie j e potrebná žiadna používateľská podpora z archívu alebo knižnice - používatelia sa s aplikáciou DocScan rýchlo zoznámia sami, • priateľské k autorským právam - používatelia snímajú a ukladajú obrázky na svojom vlastnom zariadení, nie na tých, ktoré vlastní knižnica alebo archív, • DocScan ponúka možnosť „masového skenovania", kde je možné obrázky vytvorené používateľmi pridať do digitálnych fondov knižnice alebo archívu. 28 3.3.3 Bezpečnosť údajov v aplikácii DocScan Bezpečnosť sa začína pochopením toho, ako vývojový tím zhromažďuje a zdieľa vaše údaje. Postupy ochrany osobných údajov a zabezpečenia sa môžu líšiť v závislosti od vášho používania, regiónu a veku. Vývojový tím aktuálne poskytuje nasledujúce informácie a môže ich časom aktualizovať. <^ Táto aplikácia môže zdieľať tieto typy údajov s tretími stranami: miesto a osobné údaje. ^^Táto aplikácia môže zhromažďovať tieto typy údajov: osobné informácie, fotografie ~ a videá, súbory a dokumenty. Q Dáta sú pri prenose šifrované. 0 Údaje nieje možné vymazať. 3.3.4 Snímanie pomocou ScanTent a DocScan Položte smartfón na podložku v hornej časti ScanTent tak, aby šošovka fotoaparátu smerovala nadol. Šošovka by mala byť zarovnaná s otvorom v hornej časti zariadenia. Polohu smartfónu je vhodné nastaviť paralelne vzhľadom na snímanú plochu a orientáciu strany. Poloha smartfónu by mala zostať počas snímania dokumentu v stabilnej a rovnakej polohe vo vzťahu k snímanému dokumentu, aby dodatočne nebolo potrebné korigovať orientáciu strán alebo opakovane snímať nesprávne snímanú plochu strany. Smer snímania ukazuje obrázok písmena „T". Dôležité: ScanTent umiestnite vyššie alebo nižšie podľa toho, či chcete pri snímaní sedieť alebo stáť. Displej smartfónu musí byť rovnobežný so smerom dokumentu. Ak stojíte pred ScanTentom, musíte vidieť na displej a vedieť čítať správy DocScanu na smartfóne. Mobil by mal byť orientovaný rovnako ako strana. Obrazovku DocScan je možné pre pohodlie snímania zrkadliť na ďalšom počítači, takže DocScan môžete vidieť a ovládať cez počítač, nielen cez smartfón položený na ScanTente. Obrázok 38 Pripojenie osvetlenia LED k notebooku 29 Obrázok 39 ScanTentpripravený na snímanie smartfónom 3.3.5 Práca s aplikáciou DocScan Otvorte aplikáciu kliknutím na ikonu DocScan v telefóne. New document Open document New document from OR code Obrázok 40 Spojenie DocScan s aplikáciou Transkribus za účelom prenosu údajov z DocScanu cezprihlásenie „ burger' Imlfltu ť > Utkat < o u-n..Obrázok 41 Plocha aplikácie DocScan prihláseného používateľa Kliknite na voľbu Dokumenty (Documents). Přiřaďte svojmu dokumentu názov. Vyberte možnosť Vytvoriť dokument (Create documeni). Všetky obrázky, ktoré následne nasnímate, budú uložené pod týmto menom vo vašom telefóne a zostanú v ňom, aj keď ich nahráte do Transkribu. 30 bob B • O O Create new documen pocďfverrt natrite CREATE DOCUMENT Obrázok 42 Vytvoriť a popísať nový snímaný dokument K existujúcim dokumentom môžete pridať nový dokument kliknutím na ikonu „+". Kliknite na ikonu priečinka v pravej hornej časti aplikácie. Potom vyberte možnosť Otvoriť dokument. Vyberte názov existujúceho dokumentu a zvoľte možnosť Použiť vybratý dokument. I & Í I J I S 9 3 © ".ill 9 0 % B ] 1 3 ' 1 2 | m Select a document teat 5.4. IMG_20180721.124941 jpg JntLll&d r j c c n m c n i Obrázok 43 Pridanie nového dokumentu k existujúcim dokumentom Po popísaní dokumentu môžete začať skenovať. Umiestnite telefón na vrchnú časť zariadenia ScanTent. Na hlavnej stránke kliknite na možnosť Camera. Môžete si vybrať, či chcete nasnímať jednotlivé obrázky manuálne alebo nastaviť aplikáciu tak, aby automaticky zachytávala obrázok pri každom otočení stránky. Môžete si vybrať z možností Manuáli Single alebo Automatic!Serieš v ľavej dolnej časti aplikácie. Obrázok 44 Režimy snímania: Manual/Single režim, Automatic/Series režim Snímanie spustite kliknutím na ikonu fotoaparátu v krúžku. 31 Na telefone zapnite zvuk. Ten upozorní na otočenie strany. Otočenie a zosnímanie indikuje aj svetelný signál, ak ho máte zapnutý. Strany otáčajte opatrne, neponáhľajte sa, aby DocScan stačil zaostriť, a aby správne snímal celú plochu. Unáhlené pohyby môžu spôsobiť nedostatočné zaostrenie a rozmazanie snímaného ob­ razu. Po snímaní dokumentuje potrebná kontrola kvality snímania alebo postprocesing, čiže následné spracovanie obrazov v dokumente. Zamerajte sa na úplnosť, možné duplicity, orientáciu strán a pod. Proces snímania je možné vrátiť cez ikonu troch vodorovných čiarok, tzv. „burger". Ku kamere sa dostanete cez tú istú ikonu. 3.3.5.1 Odoslanie dokumentu na platformu Transkribus Obrázok 45 Nahrávanie do Transhribu cez ikonu Cloud Stlačte ikonu cloudu v pravej hornej časti aplikácie. V prípade potreby sa prihláste do svojho účtu Transkribus. Vyberte dokument, ktorý chcete nahrať do Transkribu. Ešte raz stlačte ikonu cloudu. Otvorte Transkribus na svojom počítači. Svoje nahráte dokumenty nájdete v zbierke s názvom DocScan - Uploads. © 1 ) l l 8 6 % » 12:50 X (2) 1 s e l e c t e d test 5.4. Images: 1 • + M ' ^ ^ ^ ^ Obrázok 46 Výber súboru na nahratie do Transkribu Nahrávanie do platformy Transkribus je zvyčajne pripravené za niekoľko minút. Ak odovzdávate veľké množstvo snímok, môže to trvať o niečo dlhšie. 3.3.5.2 Nastavenia Ďalšie nastavenia nájdete a upravíte kliknutím na ikonu „burger" vľavo hore a výberom možnosti Nastavenia. 32 Blesk nastavíte stlačením ikony blesku v pravom hornom rohu aplikácie. Na výber sú štyri možnosti: vypnutý blesk {Flash qff), automatický blesk {Flash auto), zapnutý blesk {Flash on) a svetlo {Torch). Obrázok 47 Nastavenie blesku 3.3.5.3 Automatické orezávanie, otáčanie a mazanie Na orezanie a otočenie obrázkov podľa potreby môžete použiť DocScan. 1. Po nasnímaní obrázka stlačením miniatúry v pravom dolnom rohu aplikácie otvorte nastavenia úprav. bob • s O ® "illS6% m) 12:50 X 1 s e l e c t e d — -^^m;•= A m test 5.4. í I m a c j e s : 1 L ú Obrázok 48 Výber strán dokumentu na orezanie cez miniatúru 2. Všetky strany sa zobrazia v žltých rámoch. Poznámka: Keď je aktivované orezanie, do žltého rámu sa pridá niekoľko pixelov, takže na obrázku sa zobrazí celá strana. 3. Označte súbory, ktoré chcete orezať. bob • m * Hil 36 % WD 22:33 X 2 s e i e c t . . . jEjj t j . ô • Obrázok 49 Výber strán na orezanie Vďaka funkcii automatického orezania nemusíte presúvať rámy do správnej polohy, aplikácia to za vás urobí automaticky. 3.3.5.4 Manuálne orezanie 1. Kliknite na ikonu orezania v spodnej časti obrazovky. 2. Potiahnite rohy obrázka do požadovanej polohy. 3. Kliknite na ikonu orezania v pravom hornom rohu obrazovky a uložte orezaný obrázok. 4. Na ďalšej obrazovke kliknite na ikonu uloženia. Obrázky môžete otáčať, zdieľať alebo odstrániť (zahodiť do koša) tak, že vyberiete potrebné strany a kliknete na príslušnú ikonu. 34 Obrázok 50 Voľby operácií otočiť, zdieľať, orezať, zahodiť do koša 3.4 Importovanie digitalizátov do Transkribu Pred začatím importovania digitalizovaných dokumentov (digitalizátov) na server platformy Transkribus expert klient si najprv zvoľte zbierku, do ktorej chcete digitalizáty importovať. Zvoľte možnosť Zbierky (Collections). Následne po otvorení príslušného okna vyberte spomedzi existujúcich zbierok, alebo si vytvorte vlastnú zbierku (Create). Do takto zvolenej zbierky budete následne importovať pripravené digitalizáty dokumentu určeného na neskoršie transkri- bovanie. • 0 C * z£ * * 3i4Kn&j4M K 4 tW t* O M t c H * bocumcnlj MtuH -' J 4 tW t* O M t c H * I4f» H < 1 1 » Hl O* 1 B»C W*t tMWlJWttlIlni SlW. nmrw.h, Ajuriii.iiití,t j 1 r;,rxiii l#q|M* L-ŕ vín h-^ríSir-iĽ i» IM (WvwaiimiroM^. l nndviva luínin ta IM. IWHhtthnMKU^. i mnitu^. r n i t e a i . m W*t tMWlJWttlIlni SlW. nmrw.h, Ajuriii.iiití,t j 1 r;,rxiii l#q|M* L-ŕ vín h-^ríSir-iĽ i» lB. *vum atHÍltfihUM líí rř £VMtocgwT ..íttdydKuw JCaHfRMmoe f 0* (mal HO v Naw # Obrázok 51 Výber existujúcej zbierky alebo vytvorenie novej zbierky Po kliknutí na príslušnú zbierku vyberte z hlavného menu voľbu Importovať dokument {Import Document(s)). Do Transkribuje možné naimportovať dokumenty priamo prostredníctvom aplikácie DocScan (pozri kapitolu 3.3.2 Aplikácia DocScan), ďalej stiahnutím z internetu (napríklad dostupné digitalizované dokumenty zo stránok pamäťových inštitúcií) alebo ako samostatné vopred pripravené (naskenované alebo nafotené) dokumenty. Importovanie digitalizátov a následná práca v expert klientovi je možná len so súbormi vo formátoch PDF, JPEG, PNG a TIFF. Obrazové súbory by mali byť pred importom do Transkribu pripravené v osobitnom priečinku vášho počítača. 35 Po kliknutí na voľbu Import Document(s) sa otvorí nové okno s ponukou možných spôsobov nahratia digitalizátov na platformy Transkribus. Zvolený dokument môžete vložiť piatimi rôznymi spôsobmi, a to označením (zakliknutím) jednej z nasledovných možností: 1) Upload via priváte FTP 2) Upload via URL ofDFG ViewerMETS 3) Extract and upload imagesfrom pdf 4) Upload single document 5) Upload via URL of IIIF manifest Po zvolení preferovanej voľby sa zmení vizuál príslušného okna. Následne je potrebné doplniť požadované údaje. Pri prvej voľbe Upload via priváte FTP vyberáte dokument priamo z prostredia platformy Transkribus. Pri druhej a piatej voľbe, teda Upload via URL of DFG Viewer METS alebo Upload via URL of IIIF manifest, je potrebné do príslušného okna vložiť URL adresu stránky, kde sa nachádzajú vybrané digitalizáty. Pri tretej voľbe Extract and upload images frompdfje potrebné vybrať z lokálneho priečinka (Folder) formátu PDF. Najjednoduchšou možnosťou v prípade nasnímania dokumentu do viacerých JPEG súborov je zvolenie štvrtého spôsobu, teda vloženie samostatného dokumentu. Po zvolení uvedenej voľby, ktorá je v prostredí Transkribu přednastavená, vyberte príslušný priečinok (Local folder) s pripravenými dokumentárni a pomenujte ho vlastným názvom (Title on server). Podľa tohto názvu budú importované dokumenty na serveri neskôr ľahko identifikovateľné. Po týchto krokoch môžete začať s procesom nahrávania dokumentov na server potvrdením tlačidla Upload v spodnej časti okna. • / í i * - ; * ' Q - • • ' J* a M *-1 I 4*1 o.w o _ ' i* dnlnflL • i •• ^ p.— ^ ^ r j _ . ^ | < a m ň • 1« 1% t hiumttvJ p I M . 1 M K M M I H W < M P . I ; IM. lUrowHWI.CVU.CMB 1« IM HIAIWN^UJIW1C*I_5FI_S. tl l l t t . í>*nimiámnutu»ďam- S 112. LIittHvmmMt.htjtwi- • 1U. S 1 : M » M i-OMh.HtfWi - IH 1 kí CtmanoMi GmUt M m . > ."r/'..M.> FflSCflZřl. inriOUNCp.. Ffi Sfp 22 <_ t 11111-4 SU>JkKjW. m f n i M o H . ŕ* U M I n l l u l i (H i" bp4oÉd KU Uft DIOU^WHIT MET* :~ UphMd UPI ol Nŕ ivriWu •ľ E>**cl *yj iltw*l .m*íj« HJI Obrázok 52 Možnosti importovania digitalizátov Prenos všetkých dokumentov môže byť zdĺhavejší. DÍžka importovania dokumentov na server závisí od aktuálnej vyťaženosti samotného serveru, predovšetkým však od veľkosti prenáša- 36 ných dokumentov (digitalizátov). Pri nahrávaní dokumentov na server vo veľkosti väčšej ako 1 GB je potrebné počítať s tým, že dĺžka procesu môže trvať aj viac ako jednu hodinu. Úmerne s narastajúcim množstvom GB sa násobí aj časová hodnota prenosu dokumentov na server. Po ukončení importovania digitalizátov sa na obrazovke objaví okno oznamujúce ukončenie procesu nahrávania dokumentov. Aby sa importované dokumenty stali viditeľnými, je potrebné odísť zo zvolenej zbierky prekliknutím na inú zbierku a následne sa do nej opätovne vrátiť. Oba uvedené kroky realizujte kliknutím na voľbu Collections. Po opätovnom zvolení príslušnej zbierky sa v ľavej časti obrazovky objavia všetky dokumenty, ktoré sú do zbierky zaradené. Prostredníctvom dvojkliku na príslušnú položku v zozname {Title) sa v pravej časti obrazovky otvorí úvodná strana nahratého dokumentu. T, lml-lwHwH.MnI-MON™.l|))TM.JOJnm»OÍ 1 • »* H - ~ » • - Hnnriimwc-jmrw. U h l i /MU > M) ŕ H • Srrvtr Oxntow Layoul Mrt3d.it> !tx* O T* • l g u o « Q - •k - DMt*n«É_ mt*ů ti Don™*Ui(p _ * J I - tubs U K U T lisom o » U K U T 1 í J ÍH « 1 1 • H 1 p a e 3i i a i n * . o r Í tot • •. vuuttai»f^ni4u m ob tom*[IUUV4«C.VjllL^Tk>i ill .i. H > - | « " 1 : iu 112. LMMifMmbM4M_ľUbM_JÍ L . ikjn u - J.- SJ i H -.TJ>- J.-. "10 Í K 1JH. i U>1 -I. i á r t e l dt rf^f'-Mý 7 Obrázok 53 Otvorenie príslušného nahratého dokumentu Medzi jednotlivými stranami dokumentu prechádzajte prostredníctvom tlačidiel na hornom ovládacom paneli, alebo manuálnym vpísaním čísla požadovaného digitalizátu do políčka označujúceho číslo digitalizátu a potvrdením uvedenej voľby prostredníctvom tlačidla ENTER na svojom počítači. • ^ C - ~ T • B *Vj**'.Jf'A;ÍBl £fc*K»41WtYY1 S* rver O J H V H I r y c j Mnadata P] Ti I I * M M f C W t««j.Cvl«.WM.n «««1 nqr1.rtrIMIWtow^WWVÍiJ^WJOÍMiiojpmrge«ft IM**/ 4 |i. • 1 JMH TTi) íM'ih | * * 4 4 4 i:-i:- * * * á« /r / >/ VMUlKllVUFU 1VI! M I 15J- ln*H»»j.V*lC*T«>(.SfTJ. 112- S btonrwkiH.uw. ilSi. J Warvn<4iV.I«rtp. 1*1. Om4n«W Umí t « H Obrázok 54 Preklikávanie medzijednotlivými stranami importovaného dokumentu 37 4 Segmentácia dokumentov v Transkribe Keď máte dokument nahratý v Transkribus expert klientovi, môžete začať s analýzou rozloženia {Layout Analysis). Výsledkom analýzy je segmentácia nasnímaných snímok dokumentu, t. j. identifikácia jednotlivých prvkov, rozlíšenie štruktúry, horizontálnej orientácie textu a určenie poradia čítania textu. Pri segmentácii sa uplatňuje metóda analýzy obrazu a textovej analýzy, ktorých výsledkom je členenie textu na časti, resp. objekty. Tie sa následne prepájajú s textom, ktorý bude výsledkom transkripcie. Každý objekt segmentácie určuje, kde sa nachádzajú: - textové rámce {Text Regions, TR) - vymedzujú oblasti s textom, môže ísť o hlavný text dokumentu, čísla strán, marginálie, tabuľky a i., označené sú zeleným rámom, - riadkové rámce {Line Regions, LR) - vymedzujú riadky v rámci textových rámcov, označené sú tyrkysovým rámom, - základné čiary {Baselines, BL) - vymedzujú čiaru, ktorá sa tiahne pozdĺž spodnej strany riadka. Ide o najdôležitejší referenčný bod na rozpoznávanie textu, na základe ktorého sa sofrvér učí čítať jednotlivé znaky. V závislosti od zvoleného profilu sú označené fialovou alebo červenou farbou, - okrajové a nadbytočné časti dokumentu, ktoré nie sú dôležité pre proces transkripcie a trénovania modelu. Súradnice objektov sa v procese segmentácie ukladajú do súboru príslušnej stránky dokumentu. Správna segmentácia textu výrazne ovplyvňuje prepis dokumentu, kvalitu vytrénovaného modelu, korekciu transkripcie a proces spracovania prepísaného textu. Transkribus má k dispozícii niekoľko profilov zobrazenia dokumentu, ktoré sa zobrazia kliknutím na ikonu * {Profiles) v hlavnom menu: - štandardné zobrazenie {Default) - na snímke dokumentu sú zobrazené všetky segmentované objekty, riadky sú označené tyrkysovým rámom, základné čiary sú zvýraznené fialovou farbou, pod snímkou dokumentu sa zobrazuje pole textového editora, v ktorom sa zapisuje/zobrazuje transkripcia dokumentu, - segmentácia {Segmentation) - na snímke dokumentu sú zobrazené všetky základné čiary červenou farbou, snímka dokumentu je viditeľná na celej pravej strane expert klienta, - transkripcia {Transcription) - pod snímkou dokumentu sa zobrazuje pole textového editora, v ktorom sa zapisuje/zobrazuje transkripcia dokumentu, na snímke dokumentu sa zobrazuje len riadok, s ktorým aktuálne pracujete. Na analýzu rozloženia odporúčame použiť profil Segmentácia {Segmentation), pretože v ňom sú najlepšie viditeľné chyby, ktoré vznikli v procese segmentácie. Kvalitnú analýzu môžete zrealizovať aj v profile Štandardné zobrazenie {Default). 38 Ui Transkfibus Expert Client vl.26.0 (05JMLZ023_0&56X Loaded doc: loann. Amos Conieoii Orbis Pictus (P0=0nil: S. P. We Server] O v e r v i e w | L a y o t default rr ;—1 1 Segmentaten | Trariiinpticji t Occur TranscriptionJnvisibleTabs Ufa Find Documení Save current as new profile... \, User Manager ^.Versions - Jobs [£J Recent doiumerlt,, 3p User activity Collections: michsela.íTnikuíková©umb.sk Collection (72423, Owner) C01-10 0 0 H Obrázok 55 Výber profilov segmentácie a transkripcie 4.1 Spôsoby segmentácie Analýzu rozloženia (Layout anály sis) môžete urobiť dvomi spôsobmi: - automaticky - označenie textových rámcov, oblastí riadkov a základných čiar necháte urobiť výlučne softvér, - manuálne - spočíva v manuálnom vytvorení textových rámcov a automatickej segmentácii riadkových rámcov a základných čiar. Objekty segmentácie, textové rámce a základné čiary môžete označiť výlučne manuálnym spôsobom, t. j. bez použitia funkcií automatickej segmentácie. Ide však o veľmi prácny a časovo náročný proces. Nástroje na tvorbu objektov sú popísané v kapitole 4.2 Opravy po automatickej a manuálnej segmentácii. Výber spôsobu segmentácie závisí od štruktúry a obsahu dokumentu, s ktorým pracujete. Nesprávne zvolený typ segmentácie môže viesť k časovo náročným opravám. Automatická segmentácia rozpozná, kde sa text na snímke dokumentu graficky nachádza, rozpozná základné textové rámce a riadky v nich, ale nerozlišuje typ obsahu. Text vo vytvorených blokoch zoradí podľa súradníc objektov na snímke, spravidla od ľavého horného rohu smerom nadol. Automatickú segmentáciu je preto vhodné použiť na dokumenty s jednoduchou štruktúrou a jasným poradím riadkov. Pri komplikovanom rozložení textu je však potrebné definovať viac blokov textu. Manuálnu segmentáciu je vhodné použiť pri členitom obsahu a zložitejšej štruktúre textu dokumentu, napr. ak text obsahuje poznámky pod čiarou, stĺpce, tabuľky, alebo sa v dokumente vyskytujú marginálie a i. Na obrázkoch nižšie môžete vidieť príklady dokumentov vhodných na automatickú a manuálnu segmentáciu. 39 3ŕl T . i . . .. , . y ; ,r. j-Lf í * " — v * * — « . ^ r S i S f - Y , . ^ . . . / i / j / . ^ í ? w i ( > i Obrázok 56 Príklad dokumentu sjasnou štruktúrou poradia blokov textu a riadkov vhodného na automatickú segmentáciu 4 0 4.1.1 Automatická segmentácia Pri automatickej segmentácii softvér na snímke dokumentu sám vyznačí textové rámce, oblasti riadkov a základné čiary. Nastavenie a spustenie automatickej segmentácie Otvorte záložku Tools na ľavej strane klienta pod hlavným menu. Prejdite do sekcie Layout Analysis. Pred spustením segmentácie treba: 1. nastaviť metódu (Method) - automaticky býva přednastavená Transkribus LA. Kliknutím na šípku na konci riadka sa otvoria ďalšie metódy (Kraken, PrintedBlockDetection a Separator Detection). Voľbu metódy vyberte podľa typu dokumentu, s ktorým pracuj ete. Transkribus LA je vhodná na segmentáciu rukopisných dokumentov, Printed Block Detection na segmentáciu tlačených dokumentov. 2. označiť strany, na ktorých chcete automatickú segmentáciu vykonať: a. na j ednej strane (Currentpage) - táto voľba j e automaticky přednastavená, b. na celom, resp. len určitých stranách dokumentu (Pages) - po kliknutí na krúžok pred označením strán sa otvorí okienko na zápis rozsahu strán, prípadne rozsah strán vyberte kliknutím na tri bodky za okienkom na zápis rozsahu. Na začiatok odporúčame spustiť segmentáciu najednej strane, aby ste si overili, či je automatická segmentácia pre váš typ dokumentu vyhovujúca. 3. vybrať objekty segmentácie: a. na segmentáciu textových rámcov zakliknite štvorček Find Text-Regions, b. na segmentáciu riadkov zakliknite štvorček Find Lines. Segmentáciu oboch objektov môžete urobiť súčasne. Segmentáciu spustíte kliknutím na tlačidlo Spustiť (Run). Zobrazí sa dialógové okno s nastavenými parametrami segmentácie, ktoré potvrďte tlačidlom OK. Server Overview Layout Metadata Tools v MoťJŕH Training » líJrMjt AftJIy-jl Mílhtui TnntknbuiLA Configure... @Current p*ge ]filrer b>- NEW.IN.PROGRESS ] \Z - Dottrmmi Srlettkin loann, Amos CínueniF Orbis Fictus (Ptnonjí: S, P.Weber, l ,'i?a>_Írjktura_nem_duplicated (975071) ] OCuffent(o|!ríítie.n Chsonúca.. Iplfind TmťRťaion^ Ipjfinrj Lints Modci; ľJefiult Homageneou-i i* Etun Obrázok 58 Dôležité prvky nastavenia automatickej segmentácie (Method Transkribus LA) 41 4.1.1.1. Pokročilé nástroje na nastavenie automatickej segmentácie textu Proces automatickej segmentácie je defaultne nastavený a nemusí vyhovovať každému dokumentu. Používatelia Transkribus expert klienta majú k dispozícii nástroje na úpravu predvolených parametrov. Dialógové okno s ponukou sa otvorí po kliknutí na ikonu Nastaviť (Configure...) v sekcii Analýza rozloženia (Layout analysis). Nastavenie pozostáva z dvoch krokov: 1. výber modelu, 2. úprava parametrov objektov segmentácie. Smrym C w _ l^yuul MTNHMJ Tmi. - •••rw-'.^r= U , * ^ In*** ,1* > t _ i i i w i H A I . , |. . » If » H C" fc} - tillivn. on 111". lÄVt^aiwil Ů*t« H4W1 i l i ' VWm 1TW1 "í»i"» "ajBwlí .lŮíJj 014ň»rt ľ-«llKQ.-rll»tjrtlJ* ta*Q71Sfc l*TT»t rs-Ni** TF»I MÍMMI WVKf WfP*« WMVn L l * p.. l KUL J Ha k M M .u ľ -i u m hm •*» In Tt'g™fi«* 1««.. i > ™ i » »« n .Jz-l i n m i . n . i •i .mi i.i Ml'ľr " l.lfi i J. k r*•J t. MM [Trtn r»Srii ,.">j-!irr- l *ril lilir.. íi!jn*«-'r :. - .:. I|-: i i-1 •+.:*. . . ] , . , , . , f r l •mlmíM KtitH t* I* hip1 *U. 'K, ŕ k. i.-' im .ii. ^ ..' Ifl Irll p*^j tiijniai írt. n-í. «rj ,*rr llr i.H ťt»• . . - i i".t. • n . In' Mlf •i" —v .tiir. ua .hu m. ;i-n i-.;n ei.ŕ.; mytírfnl. Ill"' * : . L i " T ••• M> VIIt_7 l«ťj-ť. , . . . . . . . . tm. • i-, Obrázok 59 Otvorenie nástrojov konfigurácie automatickej segmentácie 10 Uycrnt Analysis Configuration Selected model: Baseline detection settings Minimal baseline length Medium Parám-Value: [25: Baseline accuracy threshold Medium Parasn-Value: Use; trained separators No - 4 Param-Value: [-1 Max-dist for mere,irK) baselines Medium V Param-Value; 0101 Image scaling Default Param-Value; !.0 Region detection settingsRegion detection settings Method General V Baseline orientation Honzonta! V Apply defaults OK. tancel Obrázok 60 Detail dialógového okna pre nastavenie parametrov pokročilej segmentácie 42 Výber modelu Na výber je niekoľko vytrénovaných modelov rozloženia obsahu: - v dialógovom okne kliknite na Default Homogenous, otvorí sa ponuka v výberom modelov Choose model, - k dispozícii je niekoľko modelov, ktoré vytrénovali vývojový tím sofrvéru Transkribus alebo používateľská komunita: • Universal Lines - najvšeobecnejší model, ktorý je v súčasnosti na platforme k dispozícii. Tento model odporúčame použiť, pokiaľ si nie ste istí výberom optimálneho modelu, ktorý bude vyhovovať vlastnostiam dokumentu, s ktorým pracujete, • Mixed Line Orientation - model pre rôznorodé rozloženie textu na snímkach, t. j . text je písaný vo viacerých smeroch, • Horizontál Line Orientation - model pre dokumenty s homogénnym rozložením textu, t. j. len horizontálne alebo vertikálne čiary. K dispozícii sú aj modely zohľadňujúce štruktúru novín, pohľadníc a modely vytrénované pre špecifickú typológiu dokumentu. 'ľhoctŕ * TiDdei 1.8.'* H * 1 1 > H tptUMwui Lnt bŕ Mart Um Qnwirilicn li*m,iifitn.i fVA RH-.I-M ... Bílíliníi •r- f! 1*01- 1 « IÍOI.. l í f l l . U B I . m u ítii. l « l í ř í o o :i o 1*ÍT* 84í* K/A Í B I * m/A K/A N/A m/A CERYJ m/A m/A m/A m/A J® C'MWn L*afrlrtg Curve O K on Iran Set imM i CEÄ on VWxtitxn S í t [m \ [ ] Obrázok 61 Ponuka modelov na segmentáciu dokumentu Úprava parametrov objektov segmentácie Nastavenie parametrov segmentácie možno vykonávať pre oblasť základných čiar a textových rámcov. 43 Parametre analýzy rozloženia (Layout anály sis) základných čiar (Baselines) Úpravu přednastavených hodnôt odporúčame, ak pri segmentácii bolo rozpoznaných príliš málo/veľa základných čiar alebo ak boli nesprávne spojené/oddelené. Pre každý parameter môžete vybrať jednu z troch navrhovaných hodnôt - nízka (Low), stredná (Medium), vysoká (High) alebo si hodnotu prispôsobte (Custom): - minimálna dĺžka základnej čiary (Minimal baseline length) - udáva sa v pixeloch. Ak algoritmus v procese segmentácie detekuje základné čiary pod nastavenou dĺžkou, vynechá ich, - prahová hodnota presnosti základnej čiary (Baseline accuracy threshold) - v prvej fáze rozpoznávania rozloženia sa každý pixel označí ako základná čiara, oddeľovač alebo iné. Prah presnosti základnej čiary sa pohybuje v rozmedzí od 0 do 255. Vyššie hodnoty sa prejavia vo väčšej presnosti rozpoznaných základných čiar. Pri obrázkoch s nižším rozlíšením sa pri neúspešnej detekcii základných čiar odporúča hodnoty znížiť. - použitie natrénovaných oddeľovačov (Use trained separators) - oddeľovače sú malé zvislé čiary nakreslené vedľa každej základnej čiary, označujú jej začiatok a koniec. Rozpoznávajú sa v prvej fáze analýzy rozloženia. Prahová hodnota oddeľovača sa pohybuje v rozmedzí od 0 do 255. 0 znamená, že oddeľovače sa vôbec nepoužívajú. Zvyčajne aj nižšie hodnoty zabránia spájaniu základných čiar. Použite napr. hodnotu 1, ak chcete informácie o oddeľovačoch používať niekedy (Sometimes) a vyššie hodnoty, ak ich chcete používať stále (Always). - maximálna vzdialenosť na zlučovanie (Max-distfor merging) - v druhej fáze sa softvér pokúša zlúčiť blízke základné čiary za predpokladu, že je ich vzdialenosť menšia ako nastavená hodnota. Použite hodnotu Low na zlúčenie čiar, ktoré sa na dokumente nachádzajú bližšie ako 0,5 % šírky obrazu, Medium na zlúčenie čiar, ktoré sú bližšie ako 1 % šírky obrazu, alebo High na zlúčenie čiar, ktoré sú od seba vzdialené viac ako 1 %, ale bližšie ako 5 % šírky obrazu. Vo väčšine prípadov by mala dobre fungovať voľba Medium. - škálovanie obrázka (Image scaling) - môžete sa rozhodnúť, či chcete zvýšiť škálovanie obrázkov s nízkym rozlíšením alebo znížiť škálovanie obrázkov s vysokým rozlíšením. Túto funkciu odporúčame vyskúšať len vtedy, keď segmentácia s predvolenými nastaveniami nefunguje, napr. detekuje žiadne/málo základných čiar. Parametre nastavenia generovania textových rámcov (Text regions) Po analýze riadkov a základných čiar dochádza ich k zoskupeniu do blokov. K dispozícii sú dve metódy zhlukovania: - všeobecná (General) - zhlukuje riadky zľava doprava. S nastavením tejto hodnoty súvisí aj nastavenie orientácie základných čiar (Baseline orientation). Nastavte hodnotu Horizontál, ak sa v dokumente nachádzajú len horizontálne orientované riadky, alebo hodnotu Mixed, ak sú v dokumente aj riadky otočené o 0, 90, 180 a 270 stupňov. - vlastná (Custom) - ide o jednoduché aglomeratívne zhlukovanie založené na naj ľavejšom bode každého riadku. Zhlukuje čiary na základe ich vzdialenosti. Môžete nastaviť, či na snímke má byť jeden textový rámec (One), niekoľko (Few), stredne veľa (Medium), veľa (Many), alebo ich počet voliteľne prispôsobte (Custom). Nastavenie parametrov ukončite v záložke Tools. Nezabudnite, že ak ste si vopred označili textové rámce, nesmie byť zaškrtnutý štvorček Find Text-Regions (viac v kapitole 1.1.3. Manuálna segmentácia). 44 T layout Analysis Method: Transkribuj LA ® Current page Configure... O Pages (94): I 1-94 Filter by: NEW,JN_PROGReSS B » Document Selection loann. AmosComenli Orbis Pictus (Posonii: S. P. Weber, 179S)_frsktura.nem.duplkated (975071) OCurrentcollectirjn C hoose docs, O Find Text-Regions Q Find Lines Restrict on structure tags Min line/region overlap fraction: • Split lines on regions Model: Default Homogeneous •=> Run Obrázok 62 Ukončenie nastavenia parametrov segmentácie 4.1.1.2 Automatická segmentácia a rozpoznávanie textu Automatickú analýzu rozloženia (Layout analysis) a transkripciu dokumentu môžete vykonať v jednom kroku. Slúži na to sekcia Rozpoznávanie textu (Text recognition), ktorú nájdete v záložke Nástroje (Tools). Pri transkripcii dokumentu týmto spôsobom treba aplikovať niektorý z vytrénovaných textových modelov. Textový model je algoritmus umelej inteligencie vycvičený na určitom počte údajov (obrázkov a prepisov), ktorý dokáže zistiť najpravdepodobnejšiu postupnosť znakov pre každý segmentovaný riadok textu. Všeobecný model pre všetky rukopisy neexistuje, preto musíte vybrať čo najvhodnejší model pre písmo a jazyk dokumentu, s ktorým pracujete. V rámci programu Transkribus je k dispozícii niekoľko verejných modelov, ktoré sprístupnila komunita a tím vývoj árov programu Transkribus, aj súkromné modely, ktoré vytrénovali samotní používatelia platformy. Pred spustením rozpoznávania textu a segmentácie treba: 1. nastaviť metódu (Methoď) - automaticky býva přednastavená HTR (AU engines), t. j . prehľadávanie všetkých dostupných modelov. K dispozícii je aj Transcribus OCR. Dvojitým kliknutím na HTR (AU engines) sa otvorí dialógové okno. 2. označiť strany, na ktorých chcete automatickú segmentáciu vykonať: a. na j ednej strane (Currentpage) - táto voľba j e automaticky přednastavená, b. na celom, resp. len určitých stranách dokumentu (Pages) - po kliknutí na krúžok pred označením strán sa aktivuje okienko na zápis rozsahu strán, prípadne rozsah strán vyberte kliknutím na tri bodky za okienkom na zápis rozsahu, 3. vybrať model - modely môžete prehľadávať a filtrovať podľa metódy, ktorá bola použitá na vytrénováni e modelu, podľa jazyka, názvu, typu dokumentu, úspešnosti a i. Nastaviť môžete aj definíciu riadkov a polygónov zaklinutím Compute Hne polygons. Nastavenia potvrďte kliknutím na OK. Rozpoznávanie textu a segmentáciu spustíte kliknutím na tlačidlo Spustiť (Run). 45 • n . i . i :••> I f r c T . ^ • i. '" T - ^ . « . ŕ. j " " .'4Lm«nM *Í H,/ŕi..— >hf^M, ti m .(«4 i * - " ] ^ - . ' • " ] Orr tri « I i i • .IV. n/™"- jril-l (TTfTT • tKr>, llHrlŕ1.,-U •* "jr|l. Tm -r--I ÍF--H .. fjfe, b t^ps ... uľWva :D»t«-./ t r. P. V|tw, T i i . • • * '.n••"i I a>n** . i j L H. t t ( O M j M i , I i i *PJI i M . i - ^iH,.4l F-ri ^ in-*». r---, •• fwr.. i«Jťu um*: >• op «*» — w** ŕi-fj-TBIMA ULN 41—Pri I* Obrázok 63 Výber modelu ( j Teil fcccgnitKHi CanT-gurMiro AK All LveidOtl I O I - I Í 5 J 2 » H < S t • M fcdHOL CreM_ t " P y l M H . ÍJlJtJ 0 '"•'.SijMun ijtntacUtfoiria. *C ll Í Í O S O * 0 ofc«ii»rw»ii8;.. Cf II l>M^ i *!D*i<*«W<"il««d Ml A Hin« 5tnt- Nico* Mri*L- P y i * * H _ « 1 1 - i n -> .MIX n r y i t . i i m W I J S « l » i w . Urm: Huifl. •n.fü» i n-, m » 1 1 MIS i .•:>(-«-.,• « M r i ij».i6(ii _ Cyfnuň ^ tieimí hfofljr. Pyl*»H. « 1 1 í t f m m 0; II c DuttUFH . ;i v*n ílm !yi A « 1 1 . J •^Hussiwi BJMric NjflOBriri » 1 « . s M*nm Anhjn . in íiJJIp j Vlr*!ttij™rtCVI(řl Htílíti*Duích, f Uj.. irjfflkiiuíf C« 6M.MH- 1T 13 < 6 Ä « I řHiiAQVitn •nÍ cn -U.JI-Í CITUUH. 1." in ••:MOBEl 1, W Hl.lKHAř; V JfCtlíW^h. CITU)»H. i.- m ! p » l + 3 ^•.BftfltJA tjnwKtlWMJ- (UirittonKS).- C1TUHH. l i n I Í 7 H 1 >M-.i |t»PJmt> ft jtrt Hl i© MT Done - * Q Q Q Q ~ TR ® BL • W -Ä O t t a* X 3> L Obrázok 71 Ikony nástrojov editora Canvas 4.2.1 Korekcia textových rámcov {Text Regions) Textové rámce, ktoré sa pri automatickej a manuálnej segmentácií vytvárajú, majú tvar štvorca, alebo obdĺžnika v závislosti od textu, ktorý označujú. Mali by obklopovať celý text, ktorý je obsiahnutý na snímke dokumentu a má byť predmetom transkripcie. Počet a štruktúra textových rámcov závisí od štruktúry a obsahu dokumentu. Pri manuálnej segmentácii je niekedy potrebné vytvoriť špecifické typy a tvary textových rámcov. Aj pri automatickej segmentácii textových rámcov môžu nastať prípady, keď je nutné urobiť čiastočné korekcie. Editor Canvas poskytuje niekoľko nástrojov na prácu s textovými rámcami. 51 Prispôsobenie textového rámca Štandardne sú hranice textového rámca na seba kolmé a definované štyrmi kontrolnými bodmi, ktoré vymedzujú vrcholy rámca. Textové rámce je možné prispôsobovať posúvaním kontrolných bodov, prípadne posúvaním čiar označujúcich hranice rámca. Pri manuálnom vytváraní textových rámcov môžu nastať prípady, že sa rámce prekrývajú, alebo text z jedného rámca čiastočne prechádza do iného. Rámce je možné upravovať pomocou pridávania kontrolných bodov, čím sa vytvára polygón. Na úpravu hraníc textových rámcov: - v editore Canvas kliknite na ikonku (Addpoint to selected shape), - na zelených čiarach označujúcich hranice textového rámca pridajte ďalšie kontrolné body, - textový rámec pomocou pridaných bodov upravte na požadovaný tvar. Rozdelenie textového rámca Textové rámce je niekedy potrebné rozdeliť, lebo text, ktorý rámec označuje, navzájom nesúvisí, napr. hlavný text dokumentu od marginálnych poznámok. Pre rozdelenie jedného textového rámca na dva, rámec označte kurzorom. Podľa toho, ako potrebujete rámec rozdeliť v editore Canvas, vyberte príslušnú ikonku: - horizontálne rozdelenie - ikonku H (Splits a shape with a horizontál Hne), - vertikálne rozdelenie - ikonka 0 ( > V (Splits a shape with avertical Hne), - prispôsobiteľné rozdelenie - ikonka D Q L (Splits a shape with a custom polyline). Po zvolení správnej funkcie v označenom textovom rámci kliknite kurzorom na miesto, kde ho chcete rozdeliť. Spojenie textových rámcov Automatickou segmentáciou môžu vzniknúť dva textové rámce, ktoré treba spojiť do jedného. Na spojenie viacerých rámcov: - na klávesnici stlačte CTRL a kurzorom označte rámce, ktoré chcete spojiť, - v editore Canvas kliknite na ikonku X (Merges the selected shapes). Odstránenie textových rámcov Pri automatickej segmentácii môže vzniknúť nežiaduci textový rámec na mieste, kde sa nachádzajú rôzne šmuhy, text presvitá z inej strany a pod. Vyskytnúť sa môžu aj prípady, že v jednom textovom rámci vzniknú dva rámce. Tieto textové rámce treba odstrániť, aby nenarúšali štruktúru dokumentu, prípadne neoznačovali nežiaduce riadky, ktoré by mohli znižovať kvalitu vytrénovaného modelu. Na odstránenie rámca: - kurzorom označte rámec, ktorý chcete vymazať, - v editore Canvas kliknite na ikonku (Remové a shape) alebo stlačte kláves DELE- TE. Ak odstraňujete rámec, v ktorom sú označené riadky a základné čiary, odstránia sa aj tie. 52 i f „ , . u - — r - i ^ M 4 ^*-V S^rí-Ě^íi 'yt&^iÚJ'-%<>.&J$ j&v+ysc, -rtiU-^.^ J ^ V / i OŔrázoyt 72 Kombinované horizontálno-vertikálne rozloženie textu vyžadujúce vytvorenie Švecifickvch textnvvrh rňmnm,špecifických textových rámcov 53 T R O L J BL W 4 oc-H oo L x • 3 fafa/y* úfa <Äŕjki^ * f 5 ^ * f v r t s y * * Obrázok 73 Detail manuálnej úpravy textových rámcov (polygónov) pridávaním nových bodov definujúcich hranice rámcov pomocou funkcie •>' q (Addpoint to selected shape). Vyžaduje tvorbu dvoch samostatných rámcov a vykresľovanie komplikovaného rozdelenia rámcov samostatne. 54 3 / 2 7 • N S B - New O L O B I O W ©_ Ó i o o V oo L A • *^ d B i } . ® i* » Q < 4 * ^ e i ^•Z ^ i & A *>-r~ ^"'^ n '*J ' ~ * - £ " Lív K ť ' v ^ f l ^ / í v *»« • ...... . . f - .v. I í VÍ ?y . 'í ~ . /I J - r*' J- i -> , . . J . - i - /*v ^ Obrázok 74 Manuálna úprava rámcov (polygónov) pomocou funkcie O Q L (Splits a shape with a custom polyline) Na začiatku vytvoríte jeden veľký textový rámec zahŕňajúci celý text. Následne oddelíte horizontálny text od vertikálneho pridávaním samostatných bodov funkciou Splits a shape with a custompolyline, ktoré ukončíte spojením linky v mieste, kde ste začali. Súčasne sa vytvoria dva samostatné rámce. 55 • . ^ í ľ T ^ A — : A • , c í l . . . . - - 7 - - - Vsi Ľ • it*. i - ŕ . i r r » . . . ... JÍV.-*. . ., i.e. >'sf r• 3$ f. w r . o - ' "S n, y* Jt . Í . . ^ . ^ / ľ * - 3" - ' ,<,'Z - w / * ,ľ, „ / i ÍPA^ s? t: -s"•>" r í l i n » ň - yJH*l- r * **"'S a v í a H í - .'. i' 4 ŕ-Ar t*-~ rf^arí. Obrázok 75 Výsledok rozdelenia rámcov s použitím funkcie ot> L (Splits a shape with a custom polyline) - dva samostatné rámce textu 4.2.2 Korekcia riadkových rámcov (Line Regions) Riadkové rámce sú viditeľné v profile Default a Transcription. Vymedzujú ich mnohouholníky, v ktorých sa nachádza ručne písaný alebo tlačený text príslušného riadku v textovom rámci. Na snímke dokumentu ich reprezentuje tenká čiara tyrkysovej farby. Táto čiara spája body, ktorých počet závisí od dĺžky textu nachádzajúceho sa v príslušnom riadku. V procese transkripcie nemajú význam, preto ich netreba manuálne upravovať. Zmeny na úrovni riadka sa vykonávajú na úrovni základnej čiary (Baseline). Tieto zmeny sa následne prejavia v úprave riadkového rámca. K prispôsobeniu riadkového rámca dochádza po spustení trénovania modelu alebo transkripcii. s c a t ů m i , f ( - r t T " T f I I — B — i — 1 — r i * m « i nWn ,m i gramíoa-dim flo» • r i b n s & h f f r h i s ( Obrázok 76 Zobrazenie riadkového rámca po segmentácii (vľavo) a po transkripcii (vpravo) Era him i f>rt gramma cum tlo^i 56 4.2.3 Korekcie základných čiar (Baselines) S chybami sa stretnete aj pri automatickej segmentácii riadkov a základných čiar. Základným referenčným bodom na rozpoznávanie textuje základná čiara (Baseline), ktorá popisuje polyčiaru tiahnucu sa pozdĺž spodnej časti riadku písaného alebo tlačeného textu. Jej úprave je preto potrebné venovať zvýšenú pozornosť. Základná čiara je špecifikovaná červeným (v režime Segmentation) alebo fialovým (v režime Default a Transcription) označením. Obrázok 77 Spôsob označenia základnej čiary v profile Segmentation (vľavo) a Transcription (vpravo) Najčastejšie sa môžete stretnúť s nasledujúcimi chybami pri analýze: - základná čiara nekopíruje celý text v príslušnom riadku, Navigatio* *- J6* Nubes, - Olera. - - 3° Ofciues* i - 4° íPanifiáum, • 96 Obrázok 78 Nesprávne dotiahnutá základná čiara - základná čiara sa nevytvorí tam, kde sa nachádza text dokumentu, tjeitbud) nití) t M e r a l l e i t i g e f u í j t t % © a ä © c a f e - - - ? - . t u i r t o . - B i i t — í i n e n t toecft / _ , Obrázok 79 Nevytvorená základná čiara základná čiara sa vytvorí tam, kde sa text dokumentu nenachádza (napr. šmuha na dokumente, text presvitajúci z druhej strany papiera a pod.), Eerff-fiŕfäljriitMen to.bten aífbgWtít) lU'-.begcábetu/ Obrázok 80 Základná čiara vytvorená na mieste, kde sa nevyskytuje text 57 - vytvorí sa jedna základná čiara cez viacero susediacich textových rámcov, N o s i n c J u d i m u u n o t t r o s d e m o r t u o s MiúLjnĹ kalot\tainkat- -koporsó* As t r i 1 "jíriuk ii. impoDÍQ3us_ fer e t r o ; 3, 'š? kfípnrs/k t zádra ÍSĹzĹeJi t M i h á l y : Obrázok 81 Základná čiara prechádzajúca cez dva rámce - vytvorí sa viac základných čiar namiesto j ednej. a h . e r - f e r r a riufi,. " 134 Jrfab.er__ngEia-. rius. - - - 126 E a b e r m u r a r i a s , ^ - = 1 * 9 Fersa belHav 5-8 _ É í f W . F w u d e s , 5.6 Obrázok 82 Prerušovaná základná čiara na úrovni jedného riadku textu Podobne ako na korekciu textových rámcov, aj na korekciu základných čiar používate nástroje v editore Canvas. Úprava označenia základnej čiary Keď na farebné označenie základnej čiary kliknete, zistíte, že ju tvorí niekoľko pospájaných kontrolných bodov. Začiatok a koniec základnej čiary nemusí presne zodpovedať textu. Prax ukazuje, že nie je nevyhnutné začiatok a koniec označenia doťahovať. Dôležité je, aby základná čiara správne kopírovala spodok riadku a písmená na nej „sedeli". Niekedy je však potrebné základnú čiaru upraviť, prípadne predĺžiť. Môžete tak urobiť dvomi spôsobmi: 1. natiahnutím okrajov základnej čiary v požadovanom smere: - kliknite na posledný bod základnej čiary, - posuňte ho do požadovanej strany. 2. pridaním nových bodov na základnej čiare: - v editore Canvas zvoľte na ikonku <£a (Addpoint to selected shape), - kurzorom pridajte nový bod na požadované miesto a základnú čiaru upravte tak, aby kopírovala spodnú líniu písmen. 58 Pridanie základnej čiary Ak sa pri segmentácii nevytvorila základná čiara tam, kde sa nachádza text: - v editore Canvas vyberte ikonku _J B L (Add a baseline), - postupným klikaním kurzorom na spodnej línii písmen vložte niekoľko kontrolných bodov po celej dĺžke riadku, - tvorbu základnej čiary ukončite dvojitým kliknutím, alebo stlačením klávesu ENTER v poslednom bode. Základnú čiaru odporúčame označovať viacerými klikmi pozdĺž celého riadku tak, aby kopírovala písmená aj v prípade, že riadok nieje napísaný rovno. Odstránenie základnej čiary Na odstránenie prebytočného riadku: - kurzorom označte základnú čiaru, ktorú chcete odstrániť, - v editore Canvas kliknite na ikonku (Remové a shape) alebo stlačte kláves DELE- TE. Rozdelenie základnej čiary Ak potrebujete rozdeliť riadok, ktorý prechádza do viacerých textových rámcov: - kurzorom označte základnú čiaru, ktorú chcete rozdeliť, - v editore Canvas vyberte ikonku D O H (Splits a shape with a horizontál Hne), - kurzorom kliknite na to miesto základnej čiary, kde je potrebné ju rozdeliť. Spojenie základných čiar Algoritmus niekedy nerozpozná štruktúru riadku a namiesto jedného riadku vytvorí dva, resp. aj viac. Na spojenie základných čiar: - na klávesnici stlačte CTRL a kliknite na riadky, ktoré chcete spojiť, - v editore Canvas vyberte ikonku X (Merges the selectedshapes). Základné čiary je možné zadefinovať aj vertikálne a kombinovať rôzne smery čiar najednej strane dokumentu (napr. pri pohľadniciach alebo ako uvádza príklad nižšie). 59 ; C kfe' d • «,-5*;,Ä,• ^ ^ - y / * ^ M ? ^ 7 *^ ; . | s | | | í 4 f r * J w J , AL^U,, „.Afy/ c j w . , ^ > ^ k'tó hm£?& **** ^ r r ' ^ r ^ : : - - ^ / segmentácie horizontálno-vertikálneho členenia textu 60 ^ v ä* ****** / * ~ s ^ t f ^ ' á f i v 7 i m ' f F, t g Obrázok 84 Manuálne doplnenie riadkov pri horizontálno-vertikálnom členení textu 4.2.4 Kontrola a úprava poradia čítania textových a riadkových rámcov Mnohé dokumenty obsahujú nielen hlavný text, ale aj poznámky pod čiarou, marginálie, ktoré pridali iní používatelia dokumentu, prípadne je obsah dokumentu veľmi štruktúrovaný, napr. je zapísaný v stĺpcoch, obsahuje tabuľky a pod. Algoritmus pri analýze rozloženia usporadúva textové a riadkové rámce podľa ich grafického výskytu a automaticky ich čísluje podľa súradníc na snímke dokumentu, pričom postupuje od ľavého horného rohu smerom nadol. Na trénovanie modelu nieje dôležité striktné poradie čítania textových rámcov a riadkov v nich. Toto poradie je však dôležité, ak chcete s textom následne pracovať, sprístupniť ho iným používateľom alebo ho publikovať. Na to, aby bol text s náročným rozložením usporiadaný pre čitateľa zrozumiteľne, má Transkribus expert klient k dispozícii nástroje, vďaka ktorým môžete zmeniť poradie čítania textových a riadkových rámcov a usporiadať ich do logického sledu. Nástroje na úpravu poradia čítania textových a riadkových rámcov: 1. ikonka 1 (Shape visibility...) v hlavnom menu - na korekcie menšieho rozsahu, 2. záložka Rozloženie (Layout). 61 e B tt »'fciB Dfaffl Obrázok 85 Umiestnenie nástrojov na úpravu textových a riadkových rámcov Pri dokumentoch so zložitým usporiadaním textu, kde sa poradie riadkov neriadi bežnými pravidlami, a pri dokumentoch, v ktorých ste vykonali veľa manuálnych opráv automatickej segmentácie, je možné oba nástroje kombinovať. 4.2.4.1 Viditeľnosť položky (Item visibility) Táto funkcia slúži na opravu menších chýb poradia čítania objektov segmentácie. Po kliknutí na ikonku E> (Shape visibility) sa otvorí okno Viditeľnosť položky (Item visibility), ktoré obsahuje možnosti pre zobrazenie jednotlivých objektov segmentácie: - textových rámcov (Show regions), - riadkov (Show Unes), - základných čiar (Show baselines), slov (Show words), - začiernenia (Render blackenings), číselného označenia poradia čítania textových rámcov (Show regions reading order), číselného označenia poradia čítania riadkových rámcov (Show lines reading order), - farebného rozlíšenia štrukturálnych tagov (Display structure types in color), - pomenovania štrukturálnych tagov (Show structure types names). So fed E3 Item visibility X 1^/1 ,_R| Show regions I I .L| Show lines 1^1 ..Bj Show baselines I I Wj Show words I I Render blackenings I I if\ Show regions reading order I I ||_ Show lines reading order I I *W Show words reading order I I \°> Display structure types in color I I H I Show structure type names Obrázok 86 Ponuka zobrazenia objektov segmentácie V režime Segmentation a Transcription býva automaticky nastavené zobrazenie textových polí a základných čiar. Ostatné možnosti si vyberáte podľa toho, aký objekt potrebujete zobraziť. Každý textový rámec má vlastné číslovanie riadkov, t. j. prvý riadok textového rámca má byť označený číslicou jeden. 62 " Ä í í q u a fcatct e jfolhflt rin g 6 i t Ě í u d í í ; I . . i k í l u i L í t t . tou- . m/alya'xágU ry.aJibun Xj:'if;tl, .10.. í g . e t a i í t-ľ ä f i _ í u fjtfiilni;, t g . p e a r •.'10 í , 14. & í r c ., t-j;i;;.:tr.-/;t;t, l 3 . ItZ'Lteugei^AJlzl.cí i rjgerptct. \%. ijtifeln (. S»Idll> »3 5 , 1 2 . . Jfiŕi^iŕl. f íii, 1 3 , ffr&Engni, Í í . iintffliftrmsfti C í ä S . B l l t i . _ ) _ i i t í l a b - í t . e t i a m fiai-- guls>ja._i4í.ľ'asynak ienne ^&t-í>ti..eiffn«. tí).oíA_iir.ci!Jttí_fL_ä-BwinfKÍ f., í ^ e t á . M. J 3 E o n i i i . l ^ f-íní.:JID J J c t c i t i . ! . . . Pi»qi TO iTig^nŕe i d . äi^kcLai!^.ii^íc.iEsfmu!2>L^4i ;.). inoiftŕ '.'ilijitiy. 15. t'v. 16. Obrázok 87 Zobrazenie správneho poradia čítania textových blokov a riadkov štruktúrovaného textu Kontrola poradia čítania textových rámcov a riadkov: - cez funkciu Viditeľnosť položky (Item visiblity) si zvoľte, ktorý objekt segmentácie (textový rámec alebo riadok) chcete zobraziť - najskôr odporúčame urobiť kontrolu poradia čítania textových rámcov a následne kontrolu poradia čítania riadkov v nich, - na snímke dokumentu sa zobrazí číselné označenie poradia čítania príslušného objektu - čísla v zelenom krúžku označujú poradie textových rámcov, čísla v modrom krúžku označujú poradie riadkov v príslušnom textovom rámci, - kliknite na číslo, ktoré potrebujete upraviť, - zobrazí sa dialógové okno Zmeniť poradie čítania (Change Reading Order), do ktorého zapíšte novú, správnu hodnotu a potvrďte ju kliknutím na OK, - zápisom novej hodnoty dôjde k prepisu nasledujúcich hodnôt daného objektu. 63 LQILQCerOjl—g^ .1 Change Reading Order X Please enter new reading order value: 3&jiaikorjiisiiak #L egy a 9 Jzarvay h igen &&t££S-i I I Do it for all following i O K i r Cancel Ps á í í a t -Lsupán* luk költGindngii. <&ľ vad—dlfzíiô bat n u c . e i n . y a f r e e y t * j m j i i - d 3 t ü t e U . e i c b - t i & L _ £ r t í i c J 3 t l u i ^ i i r * Obrázok 88 Dialógové okno na úpravu číselného poradia objektov A.2A.2 Záložka Rozloženie (Layout) V porovnaní s nástrojom Viditeľnosť položky (Item visiblity) sa spočiatku zdá byť menej prehľadná. Kombinácia týchto dvoch nástrojov však výrazne uľahčuje reorganizáciu textu a chybného poradia čítania riadkov. S e r v e r O v e r v i e w | L a y o u t M e t a d a t a T o o l s Type Text Structure Readi... ID Coords Other v Page v Table 1 Table_15... 1445,240 2712,240 2712,2002 1445,2... > TableCelI TrpTableCelITyp... TableCelI.. 1445,240 1445,2002 1909,2002 1375,... TrpTableCelITyp.., > TableCelI TrpTableCelITyp... TableCelI.. 1875,245 1909,2002 2288,1995 2250,... TrpTableCelITyp... > TableCelI TrpTableCelITyp... TableCelI.. 2250,240 2233,1996 2712,2002 2712,... TrpTableCelITyp.., v Table : Table_15... 59,1424 13-53,1424 1 353,2299 59,2299 v TableCelI TrpTableCelITyp.,, TableCelI.. 59,1424 59,2299 507,2299 507,1424 TrpTableCelITyp.., Line 1 TableCelI.. 155,1431 200,1431 244,1431 239,143... Line ; TableCelI.. 113-, 1529 1 53,1529 203,1529 247,152... Line 3 TableCelI.. 107,1574 1 52,1577 197,1577 241,157... Line 4 TableCelI.. 107,1624 1 52,1524 197,1627 241,162... Line i TableCelI.. 149,1315194,1313233,1316233,131... Line i TableCelI.. 95,1363 140,1353 135,1366 230,1365... Line 7 TableCelI.. 93,1911 143,1914133,1914 233,1917... Line £ TableCelI.. 93,1971 101,1971 145,1962191,1962... Line 5 TableCelI.. 143,2007 157,2010 212,2010 256,201... Line 10 TableCelI.. 95,2061 140,2051 135,2061 230,2064... > TableCelI Trp TableCelITyp .,, TableCelI.. 507,1424 507,2299 902,2299 902,1424 TrpTableCelITyp.., > TableCelI Trp TableCelITyp .,, TableCelI.. 902,1424 902,2299 1353,2299 1353,1... TrpTableCelITyp.., v TextRegion paragraph 3 region_1... 577,32 370,82 870,196 577,195 Line 1 regionjl... 577,125 597,123 642,119 637,119 73... v TextRegion paragraph - region_1... 103,234 1273,234 1273,535 103,633 Line 1 regionjl... 558,292 603,295 643,295 593,29573... Line : region_1.,, 312,421 815,421 860,421 905,41392... Line 3 region_1... 197,424 241,421 235,421 331,424 37... Line - region_1.,, 433,528 523,523 573,523 513,523 56... v TextRegion paragraph 5 region_1... 1957,92 2194,92 2194,2111957,212 Line i region_1.,, 1957,1351955,1372010,134 2055,13... v TextRegion paragraph t region_1... 193Ě,;0Ě1 l7052 081 ; 705,; 2 71 193... Line i region_1.,, 2453,2133 2432,2135 2527,2132 257... Line : region_1... 2015,2153 2051,2150 2105,2153 215... Obrázok 89 Náhľad na štruktúru objektov na záložke Layout 64 Úprava poradia čítania objektov segmetnácie na záložke Layout. - cez ikonu Viditeľnosť položky (Item visíblity) si nastavte zobrazenie číslovania textových rámcov a riadkov (Show regions reading order a Show Unes reading order), otvorte záložku Layout v menu na ľavej strane okna expert klienta - zobrazí sa zoznam objektov segmentácie s popisom ich typu, štruktúry, poradia čítania, súradnicami na snímke dokumentu a i., - kliknutím na zobáčik _v] pri označení typu objektu, alebo pomocou ikoniek Iffl B v záhlaví záložky môžete jednotlivé položky segmentácie rozbaliť alebo minimalizovať, - kliknutím na objekt na snímke sa tento zvýrazní (sivé podsvietenie), 5 1 — | r > n ľ j * Liyptil m a n ' [nm! * 4 íf> l i ITJB 1,1 r 1—1 •-!.-. i tatu ft.l*«l4rtcrl.p iui;t UJÍ nu m jml itn... t i h m r H - lilhtel u Mb •'3 ' r í bUrZcI. 4U.J1 u taM M-lrf.n,, tÉAťlt- SKMUCTítlrJMOWlťl IrtimríliT. 1 " 1 HUKU. ujmi ju.'+-m)*-L« ; 1 « i UUÍ J . BÍ.W^ Hi'IľT If-.'ST: Ml 117- 1 » Ľľ.KJJ lii'Si WJSľ IJ: lf.\ 1— '• mail m -n: :it'«< ;ai m. Ó H lÉHfH v; mi B.I na IÍI iiu ia i IM. l „ Uh T t W J W i l w iE11 dí.iíiíiy|H!ii- iin: (HUTI [1 1(71 UtjlHlII HU. h UM d u, B'*wji^jimi.jíi_ • UM H wJrai «Jsw IIUMI j n u i . MÁJ hi^olfttlVf . Ijttiľ^ w n u M u n a i i i j i . . %)i>ufUirv-- -*.-THB-*I P k -)K : 4r,ii«Ě«si*ií;,<. i*",ia 1ft.u It;np «*+ITP ri . r-V"* u ij^m iii^H MB J I ^ ! rfiui.1 Y1|AII1IAI4^IWI.W,'I . • m rtivn 1 •I.'.-ĽIwfiiu m i n . • i •» ir.ifjjji.mitt*. n i . u r • u» —!-»• j »•*•".'- wiviÍ I S I m w<4IH741 i w u . w : IKJ;U i or.mwnpwcmanniiKtjm ywjoii m-jn «i_ 1 — i «MUH)«ti>U> fSľ.JIE iv.. l UM Í HIHUUH Jiso mbia 211. «31 <>« B- * 1 • / 33K ( •> X f I 2 Í X X 1 L f i c p u l t T i r i 5 . ľ 7fírji*/i/f. Sutí Sfjrabiuj,. slunci! cliffll .( Obrázok 90 Príklad zobrazenia bloku textu na záložke Layout - - * a * n i E S M i Mil It TithOdl »i ISMU' r m im .1 •'.'i-i^;*'. r "lLN-.il h i í r i . MJc.it > -.i .• ii •• —.. ' UcílI. Ln 1 (Mid. Irn 1 L" J utrite. L" > " M * . L" • M > ; J L« 7 U M * . i.. •- " K í l . Uv < I * « 4 L J UH •J l-llí-J u i í i i r.._ .^.iT,r 1 ~pKl,l • ľ.'.KP J «*».l. L * 1 . Ln t ľ | " . l . Lis 1 M|«H_1_ . Ln J HtMll_l_ :>.!>: 1 M|M_1. L— 1 Nt*U1_l V "ľ 7 **T 1 • L ^ I«7**řt- T p*taui.l • k» I r*(tín 1 MOďtdr d«j.l ÍÍ3KIÍ4ÍL,. i+íii*t UÍIÍXJ ijrrumj itfl.. i:-5^*r T«I fK; jar. i n*^ » . . aniHtí-ivtu ntL, itlAU OSJi.WMdM »i«iX2»B:jai«ii>",n!" ni wi Iru ainp_ nmut m n x i n i u i :J'.IIÍ. \V n'4 TV.-V> KJ".'.«l». Jli^HHIILilllL. A i w u».in*:a,uffl«li|ii 'n.itniiAiiui;i.itirCJL1I71 ítl.MI M4lM 1LI.I*?liiaw KTÍÍt J1L7PI rtun •Ajai 'fUllil I I U W 11-, «11 u- IW (K.ÍM nu I LfJ ŮV L'J 5ň! 11(3^« I T* I laH.M.ieAiiiiH' uvn. >xu -itiai I."TI* II!«H W»ltVrllitlri*LWIi. C H L 4 I I I V I I « ' raJ".r?:. il?,*at:ít,JiiiL, lt*- J*K*y.. \\ k t t l K VI Hlt**.. t»?.« J*,« !'«J-^ »WU i»r.imjXlilt»ciMj«MI. n Jiíw ;i".7i>ii :s».;jnm ,i»/i«,'ji'.fin,-M-..'it.i-- .. ». .-...JI . - . . c - O"" •A ftwi*círr|iiLktt .l1 • * M <-L • «r I t l t K r l ^ lil.i.^'.i , 'ilulKCi o3n_ • in iL. i.i.iř . ti = [|CJ „' Llixi i .L0l,1;DiiLUI. •oi in li/dJrr •.< nil fill ilmKlrf i / | | . l l -l.il ír " .3. ' foi«i.ljj f.jhl ičris-lícny J. íl"I I' It TMrm lt«> . ti Tľľ 3> I: ' c.jnitj lit iiľfi*[ la tliini'lrl" y: C 111 IK ] J- |t.'jrůl:rl. I nu linu »«f" t iLitilirt'tnl W I I B <äi1t i » rii r* ««•' ťll 3 í til . i . Obrázok 91 Príklad zobrazenia bunky tabulky na záložke Layout 65 <^P*IT O n ™ ™ Llymí] M í n i l i bolí i - x « * * « • a m a s Í U M I M Itiili- D - l-sL-l 1 *l>._'. - V. r. '.• ip bjMciHVr­ 1*n j"» 1 , LW 4 ln.r-.rl . Um, , Jrr f UkCriL >lki T atuCrivI** I Mucii > i U ŕ . n -- 1» I.L.Í.I_ UĽr*.r« I W ;-.-uti. Hiyi H P , * . ! . rflpTP* J ppj*»_l.. lha ľ rPG«i.l . j-j.... r- -r-*' J • i| 1 i,l r L H t OfH.1. « Lha I • 9 . f t Hg*«J.. ri p-j**vi. v Si s laMI.. liw t PO«l_l • f p •**•.'laa i myeri ! • • p;ŕ- • Craft ODrp i«W*)irUm mjaoi K U L u i i , " u i a i i s « ' i » Ä ' m - i,w*aoLii-- m H ľ < IM 1!S i W i l 154» m r i -ak 1711 í u m i JApn"_ l^lľl '01 Iflľl 1U.1KJ 141,HA? uval\&*&i9 i-i3waiifr_ •lisai ' a i a a i i n w i f X S Ä i n - . u r i K f ^ n K ^ i n ; ^ n iftM.li i/^. K t u ř í t n i i n i»liS*D>|-- ruím^nipp. i^.Ľ TOUIX l*WTTt| ir.irt wjMMí.iii Obrázok 92 Príklad zobrazenia riadku na záložke Layout objekty segmentácie môžete presúvať dvomi spôsobmi: • použitím ikoniek Q S nachádzajúcich sa v hornej časti záložky Layout, • presúvaním riadkov v textovej štruktúre - vybraný riadok potiahnutím presuniete na požadované miesto (podobne ako presúvate označený text v programe Word), umiestnenie riadka na novom mieste reprezentuje čierna čiara. •1 ~p - 0 1 O * OW o- a •É, 4 „ M • »- *» m O X • * .R ťl a B Vn h l Hwtwp • i p r v lslhfrt-i J » life MU 1 fclWiiilíWi! 1 Cw 1 P.1.1.U u: mi -ÍĽ Hli HI.U41 HHIBL. < I M J P.1A1 iiiuM m i n w m j ľ . m . r km 1 WP.HT. •PUM IX. l»r iMiíiTiii.ila. 1 l~r 1 ».1J>JI 0»n-ji«.aMii>M«tíii.uít Íha P.1JU0 U5t«'*MI Kli !HI9l>ř«l!l 1 I M 1 p.i_aJi ft Hí) HG ifJH l.ýlXn IK IM*. 1 L ~ 1 "m.HH- ia.Hn uiPfiiimLiai.cl^tlii> LM ! «.!.'.* 8 5" «1 lí?i UklM. 15119». 1 I M : HUW W, J311II v m l a U - L . UH 11 -.'.«.-" íiaai ia),-«i 1E.3JS1 afiřfl-i>u> 11 m . H i - »Ui.rMuii.' ui^iiiisi 1 V * o _ í-liili(r»li««MÍB»5«í.l > U M 1 P.1JP.W - i i - w i i r U1.11U ftH.111- : i HH.IMI_ uw.HOl . 5__ilM.wi.i)B.f"Sj3r*ii>j_ EnM-.iťiiľ.t;.v.i.ii-.i«. 1™ j XI ^ 1B7 «1. ULT7 ill. 1 Ue-LU. KJ r I M ! :•! '-.'S'-.•' t.*; 'i'i v;. 1 ( M * p . ' ŕ » iHlITľ»l_lItt W 'ľ Ml. IW- 1 I M i I M 7 1 1 P H SSIlJTIMlim BT.I7nHilř7_ H Jiiip.ii.1111 rir.iÉii lozili- \r- RaaBBi • .- ' .MÍ.'l». SI1HI Hä,»1l KJItUMMIIH I M 11 p_ia_ai •IU.XHM u i t l M i M ie.ni, U H I I *n.m>- Klilioii; iIľlMH|-KHlU_ i I M It k.lJl* .ujoji m j a i W / M I M M . 1» 11 P.ljivfl lanu 1 *ar..va U4P 1_1ua.111 p I M > 4ip_M«l- KJ :•: • :J. > .i • lr.irp^ŕ-T • Ipllrj^- 1 i V l ň T . U l i l ) 1fii.111)1W t l n u uť.ii. l a t í n is»_.'3 ur__ - W i l i e r 1 Mm t 1 •: • l^.">HdmSt__|ľ,lH _7?f _W 1«___ .i-: .u • r: 1 LÍM : a J j U Pif) B* IffliiH l » i * K í l _ í . . I M 1 * » _ I M . . B H I H I K U lll' Dl HÉÍ.IÍL. > U H pjm» pm)S IWUl! TODttläiItt- 1 Uk 1 aj_i.li •1 H.-4J IVJÍ14-fcntpWn_A4l_ I M t > ] • « vňati i « t i « TTř.iu fa«ii»_ T — .!M1 m* u* i m u i m- .11 W.11 , I M 1 PAUS .í' l^H ill ĽOftVf.. 1 ( M t ifriPcCl , ->»iF9imiii mca-npn-w 1 L M 11 B i l J I I U I íii IBtSÍI Dí « ! » U . , I M ll ime»iMii_i i » * i i s t a l i . • PJ 11 im. Mil . iiM.Tii m i n i laainMň^L. > I M li lrH_IHi- «l,Jpl 1911, Dl BHT»BPJ,r7_ 1 I M M nn.HH i i « i i » ifx m: m i,XXXLIS e p u l t u r a . ^ ( f i i K t i oiLm •i iii.oanrif , & .n-rci ni uma . . - J - - - ! í j y l u i . cf ín.-ľi lim. 1 t -Jofcroi dauHOitnoij 'DfTlIo.t/iipMjii ,T..p.raiuí A 1" >ŕľfľ**ar r ŕ ! í>bt t r i í m IntfJ. -r.iiti IIIL^ . P ;i; ii ^or ^ILUII Cľip p-/, i> ÍIjmrftiTí .t .^ni r 1 i a o Ht ^7 rrJtrľŕT (Äo- :•r "+p m rJ^'^^ll ír|l, i l í o m i j ú ľ*ld- f (HiflO J - **•* . -Í11701TJ/ I, a t í.-tiolm. vtlttt. ' ( MI Wat- niiT íian «íf yipiiutf iťjL-up/j- : 3S(fl>KtipflaLH , i i ' S 1 ÍÍJIR |i* ••f í l i t í r . J , Obrázok 93 Presúvanie riadku na záložke Layout 66 4.2.4.3 P r á c a so stĺpcami Dodatočne možno upraviť aj poradie čítania objektov, ktoré majú iné usporiadanie, napr. stĺpce. Program automaticky priraďuje poradie čítania na základe horizontálneho usporiadania riadkov na stránke namiesto toho, aby riadky zoradil podľa stĺpcov. Čiastočne tento problém odstránite nasledovne: - pomocou ikonky 0 1 í V (Splits a shape with a vertical line) v editore Canvas rozdeľte textový rámec podľa usporiadania stĺpcov na snímke, - keď je každý stĺpec vyčlenený v samostatnom textovom rámci, poradie čítania riadkov sa automaticky aktualizuje. Na príkladoch nižšie vidieť, že vertikálnym rozdelením stĺpcov došlo aj k rozdeleniu riadkov, ktoré prechádzali cez viacero stĺpcov (napr. riadky č. 6 a č. 21 v prvom stĺpci). Tento krok vo väčšine prípadov vyžaduje následnú kontrolu a korekciu poradia čítania riadkov. fimcti _ olim mabantur , & ere5.in.urrm i, irt , és hamvokatCGiidebaaiur. --.ť hólttakat rét, iten meg - éget Ľ -y vederten (kat íŕ fonnájfc. íóíd- yíiiijdb*iiJ_i,_jFŕ* y.as íncJudiinus % jftr.os demortnos i: čulo,( farcop/ia.-. u* ml cinkat fiopůKSÓban 2. c rádra 1"e u t Mihály' ben %tittn ^ kí\itint / JitiiD.- /biŕ_ &ľÄ\t in e i i m m í n i ' . i 4 e n _ í i e on f tie e t Obrázok 94 Poradie čítania riadkov v stĺpcoch pred vertikálnym rozdelením textového rámca <:remabaDtar t & jOUlereť in tirnajr ífccoodc b a j a n y 9 •ofiros demortnos <-MH t hatnvokat V-ÍJ vederbčn ( k o c•• -imkat koporsóí. m 2. fSitporsá.- rádra i •• t en t M ihál K ' 'ÄM.ť £ o v t e n wur? n tooc íjeftert & e r ' l ^ i ů j to. elnf ntíícit* Obrázok 95 Poradie čítania riadkov v stĺpcoch po vertikálnom rozdelení - v strednom a pravom stĺpci treba poradie korigovať 67 4.2.4.4 Vkladanie medziriadkov Pri rukopisných textoch sa môžete stretnúť s vloženým textom (vsuvkou), ktorým autor do pôvodného textu vkladá nový obsah. Vložený text vytvára medziriadok, ktorý treba správne včleniť do štruktúry a obsahu dokumentu tak, aby text logicky nasledoval. Na vygenerovanie správneho poradia čítania je potrebné urobiť manuálne úpravy: - cez ikonku Viditeľnosť položky (Item visibility) si nastavte zobrazenie číslovania riadkov {Show Unes reading order), - kliknutím označte riadok nachádzajúci sa pod vloženým textom, - pomocou ikonky O T Í V (Splits a shape with a vertical line) v editore Canvas rozdeľte riadok na mieste, kde vložený text obsahovo patrí, - opravte číslovanie poradia riadkov. ASAvtáu -x&^pr 'pptoB*? Obrázok 96 Rozdelenie riadka, do ktorého treba vložiť vsunutý text J CľiBngrRroding Ordrr X ; ^ > U F f j ^ . * 7 ^ •jLÉé^.pt. crtim*- / / / * 1 O D O tt HOltCwing ' n J" im-ŕl ; ^ > U F f j ^ . * 7 ^ •jLÉé^.pt. crtim*- / / / * U". IjafKLľr ; ^ > U F f j ^ . * 7 ^ •jLÉé^.pt. crtim*- / / / * Obrázok 97 Úprava poradia číslovania: riadok č. 28 bude přečíslovaný na č. 27, riadok č. 27 bude mať č. 28, poradie čítania riadku č. 29je správne 68 i O faxy** , s g ^ ^ f e a g žsá™**- é aiJSÉĚÉJ Obrázok 98 Správne poradie číslovania riadkov s vloženým textom po manuálnych úpravách. Na tomto príklade vidieť dva vložené texty s upraveným poradím čítania (riadky č. 28 a č. 32) Na obrázkoch nižšie uvádzame názorné príklady úpravy stránky po automatickej a manuálnej segmentácii štruktúrovaného textu. Sepultura. i ' Temetés, [ f lune t i o l i m c i n a b a a l u r , & ,ncref in u r n a i . -•icondebaniu i . fŕ* , <* m tinfitlfirftt f o r « ŕ J « l u l l ' c- CllTtif) I. aur* Í . ŕ o j b e a J • > ^ - , í \ f c « t i r t . '•'OJ j n d u u i m n s .i.'l tr"/?tj'Ajj/ŕf. i 7~!r líJ'Fl nul"*" rr rĽ'flUiítťlirii ÍB e í n n ©arfl ( í . -• o H ro* d e m o n nOíf.; jírtíií.' AvpprjvLv£ulo,(Jarco{tha- tan i. -dťiLit. . J|ii.>nuii.i5 fc- :. tponó - riíí/ra J z e a l Mihál.v" v á r a ) 3. ttft- 2abrt i i . 11 t í elTerri cura> •,/ia* fjompa Tu LJebti. i o c*mcle ] i j m , 4j>JÍ A vefpilln Ľ/bus Jj. ľ c p i i k r o . feruntur, & Im '.r.anliir. ! ; d vera res 3s. p e r i c u l i ple•yjfhnd, m o n u u r a ,. isque m o r a It: -lire : :: j si 1. v i J i L a d t i U C . q u i hat .ííir pro m o r m o , ,im ľ u n u i pro i L d i t , more anii- 1. ,0 . c a n t a n l u r u / m n í , & í » m [ nx 10. p u l ľ a a L.t : ^•JL I n m t n m ú s m.jo u b l q a c oblit i , .-..puterum 6. L .i monumentts, e p i i a p l i i i l i u * • kiiiietiäitt. • •: nik. á ct-iemitt n i fofru BtaU £4* bímSIrebbífc .; troqfn.i LKJCD fir ťoti trn &Hafltl*K» 5Iní * i . i b si.'Wqt, Ĺ i ť '» 11 v i . ' JÍ> 6, kopor.X-.kavtl Je : nmtfkť.etofí tstoat « . J " X . •rtó*ACvi-ťr « . £.b ititt Eŕnť BÍJrni mní « f « » ' FftjTiftín 3*1««Obrázok 99 Neuspokojivé výsledky automatickej segmentácie textových a riadkových rámcov pri použití metódy Transkribus LA Algoritmus na obrázku vyššie automaticky identifikoval tri bloky textu, pričom do dvoch textových rámcov zahrnul aj časť ilustrácie. Pre ľahšiu identifikáciu riadkov by bolo vhodnejšie oddeliť text zapísaný do stĺpcov do samostatných textových rámcov. To je možné urobiť tromi spôsobmi: 69 1. vytvorením samostatných textových rámcov pre každý stĺpec zvlášť, 2. použitím nástroja na prácu s tabuľkami (viac v kapitole 4.3 Práca s tabuľkami), 3. dodatočným rozdelením stĺpcov za pomoci funkcie gtj V (Splits a shape with a vertical line) v editore Canvas (viac v kapitole 4.2.4.3. Práca so stĺpcami). Tým, že nedošlo k správnej segmentácii textových rámcov, nieje správne ani poradie čítania riadkov. Navyše algoritmus detekoval aj riadky v ilustrácii, ktorá zasahuje do dvoch textových rámcov. Napriek tomu, že text nachádzajúci sa v stĺpcoch nebol pri segmentácii rozdelený do samostatných textových rámcov, sofrvér automaticky pristúpil k segmentácií textu do stĺpcov. Viditeľných je niekoľko chýb, kde text, ktorý sa nachádza v rôznych stĺpcoch, je spojený do jedného riadku, napr. do dvoch stĺpcov prechádzajú riadok č. 19 na str. 178, riadky č. 18, 26, 28 na str. 179. Text na snímke je mierne naklonený (smeruje zdola nahor), čo má za následok nesprávne poradie čítania riadkov, pretože riadok nachádzajúci sa vyššie má z hľadiska nastavenia algoritmu vyššiu prioritu. Preto sú na str. 179 takmer všetky riadky číslované sprava doľava. Manuálna korekcia poradia čítania riadkov takto segmentovaného dokumentu by bola časovo náročná (min. 10-15 min.). Spočívala by: - vo vymazaní nesprávne identifikovaných riadkov, - v doplnení chýbajúcich riadkov, - v upravení nesprávne vymedzených riadkov, napr. riadok č. 9 v strednom stĺpci na str. 179, - v rozdelení spojených riadkov, ktoré sa majú nachádzať v rôznych textových rámcoch (stĺpcoch), - v rozdelení textových rámcov do stĺpcov s použitím funkcie O Q V (Splits a shape with vertical line) v editore Canvas, prípadne aj oddelením ostatných častí textu, napr. číslovanie, kustódy s použitím funkcie D O H (Splits a shape with a horizontál line) v editore Canvas, - v usporiadaní textových rámcov do správneho poradia, - v kontrole poradia čítania riadkov v textových rámcoch a presune nesprávneho poradia riadkov na záložke Layout. Nesprávne usporiadanie textu nemá vplyv na vytváranie modelu, pretože sofrvér sa učí čítať jednotlivé znaky bez ohľadu na logické usporiadanie textu. Taktiež nemá vplyv na následnú transkripciu dokumentu. Sťažuje však transkripciu nevyhnutného počtu strán potrebných na trénovanie modelu a zároveň komplikuje percepciu prepísaného dokumentu. 70 LXXXII. ra. & A' letnetés. Da* Segrábmg. Defuncti o]im crťtnabíjtur , & cineresHfi urna i, recondebantiir> Jľ hililaktit ré-\ E (í Kstitirt Itlif ^en/en «sg--ŕ^ť(-l!i(rl Bor 2$ften CfrfifS, tír^ař/íiitoiíiri. L-rtinnt Í linl) íl( i/eíŕffriť/i(kor-^fíf)e in eíiuničfrit* J? formájú ťií!d*3;! (Urne)'I. oMf* IVdénTbeir?-rr"ei-j f)tit a1;vt, Jíelt/k, I Nos ineJudimu^' Mi tŕ mi halat-] Sfflfp trčili Lltifí' noArosidemorlnoäfííií/iitif kuporsó^'i ÍCerfls»61!iíII if I U C Ľ I O , [i/iWrj///ia'jŕ(j/i 2. i-árjuki caemeteTÍuro , 4. ubí a verpillonibus 5, Tepulcro .inferurnur, & JmI mantur. Sed veto res | eft periculi plenísííma, menuu™ absque mora íepelire : Biím tepe vivit adlmc, qu' liabetut pro mortuo. i P Cum funus pTOcedit, more aaliqua ! cantanLur • hynini , & campanse ID. p u l í a u Hir : és ki-vítet/ui íe-1 lint íafifli fl> rtlfť inctési pomp/mol Ěeidjen • ©řprntlgť ď tcmetilbe, 4. na* tem ftlrtfcríofť 4. (103111., a' h«l ti str-4. ji( Uoti Srn ,ŤÍÍ, A cl-temct- tnifcbtafiS«I*i)t 1 íífícŕ. rr t eiifjifttdtret " tti erfcřn. De í%cn ľcfís- •lelwnsdalogď/ia.jttát min.d«n vdřakoz-ás jií/lkul eltemelni • .mert—gyaříran gš ill flíír Ótť Fípf fř fjffátjrttctf, btn Šoírm alfbsltlcfr Sítin ofUi.lt 'ifletban van flíÁ^ EtjsnlflMlotttí WS'el" •ô'r^rŕť nrŕj ůrr fSrtůíit rjel)»l« \iáltnak taHcnnk. J Mikor «' haloU 'tiitvifiik,régijz<>kás f se/int , ŕ/jf^ei ňickcítetriek, iírff'harangok 10. Aúzattatnah ; qut tamen mos non ubique obti net, Sepulcrum 6. tegitur, et moflumentis, £. epitaphiiBque p. oroatuf. tfliŕU/ffiíSi/ /ne ien hälyekeu /(f - ióW 7. /ť és nTitléke7.et-ofi lapival l). 'J í « pond-ltSvi- Ír4ssal ineg - tŕkesíttetik ten iítrt. fortijřtróflítireirtr, jiDítttlt 1HHĚ QÍW ôrfattfiiit/ mitr tft ffitícEen 10. flílôtí' t e t ' ~, r meItĚ(Q?í»>i»6n ' t)dt Sod) nid)t u&tr» dlí (tRgrfůfjtt íft. 'ntlrt m it «fii ŕ m :(Sra&[ieiri 7. 6w í ť c ř t ' - ,uiib tttit B m f í milrtti unt) St(ií« fdjtlftíti gíiiírt^ Obrázok 100 Neuspokojivé výsledky automatickej segmentácie textových a riadkových rámcov s použitím metódy Printed Block Detection Algoritmus na obrázku vyššie automaticky identifikoval textové rámce. Segmentáciou bolo vytvorených niekoľko rámcov, pričom vo viacerých prípadoch bol správne oddelený text nachádzajúci sa v stĺpcoch. Ako samostatný textový rámec bola identifikovaná aj ilustrácia. Do segmentácie boli zároveň zahrnuté aj ozdoby tlače pri paginácii, ktoré by z pohľadu trénovania modelu mohli pôsobiť rušivo. V niektorých prípadoch nedošlo k správnemu oddeleniu textu v stĺpcoch, čo spôsobilo určenie nesprávneho poradia čítania textových rámcov a poradie čítania riadkov. Aj napriek detekcii samostatných textových rámcov v stĺpcoch je viditeľných niekoľko chýb, kde text, ktorý sa nachádza v rozličných stĺpcoch, je spojený do jedného riadku, napr. dvojitý výskyt riadkov č. 5, 8, 11 a 15 v bloku 18 v strednom stĺpci na str. 179. Manuálna korekcia poradia čítania riadkov takto segmentovaného dokumentu by bola časovo náročná (min. 10 min.). Spočívala by: - vo vymazaní nesprávne identifikovaných riadkov, - v doplnení chýbajúcich riadkov, - v upravení nesprávne vymedzených riadkov, napr. druhý výskyt riadku č. 2 v strednom stĺpci na str. 179, 71 - v rozdelení spojených riadkov, ktoré sa majú nachádzať v rôznych textových rámcoch (stĺpcoch), - v rozdelení textových rámcov do stĺpcov s použitím funkcie O C h V (Splits a shape with vertical line) v editore Canvas, - v usporiadaní textových rámcov do správneho poradia, - v kontrole poradia čítania riadkov v textových rámcoch a presune nesprávneho poradia riadkov na záložke Layout. Nesprávne usporiadanie textu nemá vplyv na vytváranie modelu, pretože softvér sa učí čítať jednotlivé znaky bez ohľadu na logické usporiadanie textu. Taktiež nemá vplyv na následnú transkripciu dokumentu. Sťažuje však transkripciu nevyhnutného počtu strán potrebných na trénovanie modelu a zároveň komplikuje percepciu prepísaného dokumentu. Sepultura,. A' lemetés. Mefuttcti _.olim . i e m ĹI b n n i ur_, _& •lincres in urna i, j j c u i i í l s í i j a u i r . S o s includimus iiDÄroä d e m o r t u o s l-sciil {.fu.-1 v. 1 S3e hólttakat réf] nten meg - éget:-ék , ďs hitmvokat vedcrbänQkoir í o r m á j ú i'Ďldioénj.benj I. elr lAi .a' mi haioli&inkaL kaporsó! Sleíottfn.iWiw-i ij'cbe in efním&rtij ja (Urne) ""f' Mefuttcti _.olim . i e m ĹI b n n i ur_, _& •lincres in urna i, j j c u i i í l s í i j a u i r . S o s includimus iiDÄroä d e m o r t u o s l-sciil {.fu.-1 v. 1 S3e hólttakat réf] nten meg - éget:-ék , ďs hitmvokat vedcrbänQkoir í o r m á j ú i'Ďldioénj.benj I. elr lAi .a' mi haioli&inkaL kaporsóÍĹBíc lefljn.iwf"- 3Ľ íBerilortelien in äirien Sara tí' iääa(«3nifflUS. ĹÚliSfíí - rídra ÍäSíL.i-3t. í -; * n i M"h á ] y' ílzáraj 3 , téjz- \jzuk; i'.'íjtiľ Sí ítat mindeii.vd: i zkozds.riélhú.1 el- %aU—gyakraa . . . Í I Ľ O . J Í S Bon t e n tofctengĽÍiíkrti J . ij;iĽb ítiiaťfítjatttt t í ijLíiSít cfua<[.l a\\m rrm.iiJ.ini i r , ij • irtcrcr. m urati • V kétttaÁat rtŕ i>:weit megťget ŕii , ríf ňamivial ._> í.T[/{vŕrH(k.i>i,•' ľ o r c o j j ú ľ u l J •'OÍIrojíirmorrnos'HIHAUI ivpůrtá. •I" ÍScllldJlTIUI ÍIUUOBJÍOUÍ .ííj V [t i .-v rri: ItJE' u m r Ě m r i i B I T i- .imiT, II H t He i'ifKK in fit r m ''rii' « (llitiij J . i.iuatjrr, víj[r lijiti 11« [í* ^n^tm in l'iytn l"tf am í 'O tt-l \,*hri in t w « H » "JSI Ä .Vífpillt) . -j. fcnulcrp i.lfcrulltur, & bn i.-jatur. íti--P»rií«li pli í ijlima, morluuui Ľ*a*qU* niurA i r j.r]ire ; : im (xpc viu iJliuc.Hlui La te.lurplOHuorluu í -j'jnĽJrfo/cÄ(i* .'•-.•iíul nniiitn : nfWiJ/ ť.'-Li ŕiarasrn i r.?/Mŕffflť: L . . . dinifunus pro ř í d i t , m o r e i-v.o , cnsinnlurl J ' y m n i , S e i r n !'• 1 'n;ic I O . jmjfar. r^t u m n í moi .-•t. ť-fcíiŕfl Vití : .•., !«rM.i£/»«* : ? •puk'"1 1 0 1 (•.•ijjrWJJ!LEÉJl-7 : 'jíicr, i í rna n u m* m ii i epiinpliilfl11 " . o T Ď i l u r , U mtify A«W' L i T i r í . iSati .7, .J* frtik-M„ .iffiíiŕŕiií-wí-e/r•tgival !l. V j "rií-éfľi'kAnat filg'Átliitľí't, rifn^f ncí, rftfr c.'« flr (tlt S*b>al» 1 tie w a i ľf.flíitcaaín Hi1rt t Č nenljLibcit, tuttc 10. mläw , ^ i ' t l A t a.ttBDB' .Ittivtirilftf [1 |inj(ÍÚL?ít IS. ,!aí PJra* r V (Split a shape with vertical Hne) v editore Canvas vytvorte v tabuľke stĺpce - kliknite na všetky čiary, ktoré definujú bočné línie buniek tabuľky. OTA Á t} Adicrt « OlMl »*• 4 Im*)- 1 K i '«•:' .i B * ^ J 4 Untaltwŕ.eiJHJn V Anide (nper.ir*nlai i 7T" Obrázok 103 Výber funkcie na segmentáciu tabuliek 74 Obrázok 104 Horizontálne a vertikálne členenie tabuľky Po rozdelení tabuľky na bunky je zvyčajne potrebné manuálne korigovať čiary, ktoré tvoria tvar jednotlivých buniek. Môžete tak urobiť posúvaním bodov/vrcholov oblasti bunky alebo pridávaním ďalších bodov pomocou funkcie j(a (Addpoint to selected shape) na vytvorenie špecifických polygónov kopírujúcich text umiestnený v bunke. 75 /A K. * , • 't: /•', ľ ŕ r ŕ Ä / J l . ' - / r ' / • y .f/ /H ÍĹt í l s-l'/j-l m rrrrrrl'c a/r J/ í ffrm £ /' rt \ 'r} fcifei - ' / f — ' 7 ~ ' / " y •JA Obrázok 105 Detail - korekcia buniek tabuľky pridávaním kontrolných bodov Segmentovaná tabuľka predstavuje jeden blok textu automaticky označený ako Table. V záložke Layout môžete skontrolovať poradie čítania jednotlivých buniek (TableCell). Poradie čítania jednotlivých buniek je automaticky nastavené po riadkoch od ľavého horného rohu k pravému dolnému rohu tabuľky. 76 m 9fa• i J]S Mal b.t.1.. a|l . •Lfcrrřj' i,fcl)r:.IÍ-- tH*ť.K ~J^T |J ta.-- K c - . r - íif-^JlWJawW'íl-l bL-naXaďfMlHkW HM-j i..*ti.,k,iii.i.i •Wd BUqkl J'tAl 'aU'J * H.-HWlIK-ŕ-^ĽÍ.-* I •MM. tti-M-i&lM -J. 'L k-Vim-.Itv.TI lil ',1 n»i*i M « u * * i i TÉMÍrf C+,1T1 11'J.a*.UĽ.». l N---V.IH- F*^tIMÉ > 4i, H*.'LlJHl l M I L T, T.-- 1. . l-a • ikiŕri IV«,MJ iajn ina \ Obrázok 106 Označenie blokov textu (Table) a bunky (TableCell) na záložke Layout Po ukončení segmentácie tabuľky môžete pristúpiť k automatickej alebo manuálnej segmentácii riadkov a základných čiar textu (pozri kapitolu 4.1 Spôsoby segmentácie) a kontrole poradia čítania riadkov (pozri kapitolu 4.2.4 Kontrola a úprava poradia čítania textových a riadkových rámcov). 4.3.1 Označenie hraníc bunky Tabuľka, ktorú ste si vytvorili, slúži najmä pre potreby transkripcie dokumentu. Pre potreby ďalšieho spracovania dokumentu môžete tabuľku graficky upraviť vložením hraníc, ktoré vymedzujú a oddeľujú bunky: - označte si bunku, ktorej hranice chcete vymedziť, - stlačte pravé tlačidlo myši, - v dialógovom okne označte voľbu El Mark-up borders, - otvorí sa ďalšie dialógové okno s ponukou, vyberte hranicu, ktorú chcete pri danej bunke vymedziť (podobne ako práca s označením buniek v programe Excel). 77 T -U • r f i — i i II • ' I . . . . Auion M r u e t u r r t y p f ľ S í í K t í l t f W l I t * $4i«arow<*tl« * Seíett cotumiK -» tmw^.UU '.11 B T..J.M i!.* H ; n-uciancrii w *- f • h i M . 1 0 a MWnM.«UO*(Kt S e l e c t all c e l l s S e l e c t r o w c e l l s S e l e c t c o l u m n s cells. F o c u s , o n t a b l e @ D e l e t e r o w @ D e l e t e c o l u m n m M a r k - u p b o r d e r s & T a b l e h e l p Obrázok 109 Voľby na označenie viacerých buniek v tabuľke Ak potrebujete ohraničiť bunky, ktoré sa na snímke nenachádzajú vedľa seba, stlačte kláves CTRL a postupným klikaním kurzorom vyznačte príslušné bunky. Následne vyberte voľbu pre označenie hraníc {Mark-up borders). 4.3.2 Kopírovanie tabuliek V prípade, že tabuľka sa v rovnakej alebo podobnej štruktúre nachádza na viacerých stranách dokumentu, štruktúru tabuľky stačí vytvoriť len pri prvom výskyte tabuľky a následne ju kopírovať aj na iné snímky dokumentu pomocou nástrojov nomacs. Postupujte nasledovne: - v editore Canvas kliknite na ikonu . ... Ďalšie nástroje segmentácie {Other segmentation tools), - kliknite na voľbu Kopírovať rámce {Copy regions (text or tables) to other pages...), - v dialógovom okne zapíšte rozsah strán, na ktoré sa má štruktúra tabuľky skopírovať a voľbu potvrďte kliknutím na tlačidlo OK, P O Z O R ! políčko Dry run nesmie byť zaškrtnuté. 79 1 1 ^ i - i : : : » * * p • a* CnNtc top level tew region *i1h tire of image S Ciwte drfjijt line tor srwctfdilrw/UttHirv V •:' Simpl.tyshac*orsel«c1«UmM ; Simplify shape o( ill lines on trw page Remcre jmjii anoyc emtrty te»t regionsRemove tmmt ten lines. Merge irm!! text linei . lunty regionu riťfl or tablet! ie cifier puget, Comert all region stupes to rectangles Extend baselinesSplit bfieiirm on region borders. Tfamrorm lave to r«Jxim_ 'rig .::<-.-*, l.tb r Create table row*Obrázok 110 Voľba na kopírovanie textových rámcov 80 ©L ^ BL W • • r y •77 •/ v i ř - •rt^ľSi • í# ŕ, X !Ä 7 ' C o p y s e l e c t e d s h a p e s t o o t h e r p a g e s <§) P a g e s ( 2 9 ) : X 1 - 2 9 r u n O K C a n c e l ( d* í * .,,•1 Air., « C « f « - fc/l* . V ^ r / . . i ^ AWÍVCT. , f 4 * * ŕ . Obrázok 111 Odstránenie voľby Dry run Je možné, že pozíciu skopírovanej tabuľky/buniek bude potrebné upraviť. Ak chcete upraviť pozíciu celej tabuľky: - tabuľku označte, - na klávesnici stlačte CTRL, - premiestnite tabuľku. 81 4.3.3 Štrukturálne metadata - tagovanie štruktúry dokumentu Transkribus expert klient obsahuje funkcie na značkovanie prvkov štruktúry dokumentu, t. j . popisu obsahu textových rámcov, obsahu bunky a pod. Tieto funkcie na nachádzajú na záložke Metadata (Metadata) v ľavom hornom menu klienta, v podzáložke Štrukturálne tagy (Structural) (viac o štrukturálnych tagoch v kapitole 7.2 Štrukturálne metadata). m f E • j F v i íMP— - . — - 5 ."r. .t. r.'r M c i a j r r i U n i U II, . . . . „i/ryt. ' i ŕ l m,f m> : t,u l . i , I ' l i 4.r j 'IX Jdrlur H ! 1 *"- -I .vi".. I*WMI* r 1» L.UM, •r-.r i ŕ . --iM„ r:rf;al4rtl* lit ' "> *r*.|f|jii rr nl Hm -f-m: "|ílt Obrázok 120 Označenie přepisovaného textu horným indexom Odlišné typy a druhy písma (napr. gotické a humanistické) nie sú osobitne značené. Zásady používania špeciálnych znakov Skratky prepisujte podľa predlohy - nerozpisujte ich. Platí to pre historické spôsoby skracovania slov aj pre skratky používané v súčasnosti. Diakritické znaky môžete vynechať (v prípade jednoduchého prepisu) alebo ich použiť podľa predlohy (v prípade transliterácie). Častým prípadom je zamieňame hlások i a j, ktoré je v rukopisoch náročné rozlíšiť najmä v majuskule. Zdvojenie znakov U alebo ij sa prejavilo v používaní grafémy y. Vkladajte ju pomocou virtuálnej klávesnice. Platí pritom odporúčanie, aby sa každý znak pre dostatočné osvojenie strojového učenia vyskytol v prepísanej vzorke aspoň 50-krát. Obrázok 121 Dvojhláska v podobe samostatnej grafémy v zápise slova pestilencý Ligatúry môžete rozpisovať, nieje potrebné používať pritom osobitné znaky ako pri skratkách. Ak sa rozhodnete ponechať ligatúru (napr. ce), mala by sa v prepísanej vzorke vyskytnúť v odporúčanom počte. K formám zápisu hlásky s, okrem už spomínaného okrúhleho a dlhého s, patrí aj dvojité s, často v podobe ligatúry /3. Ostré s môžete prepisovať ako ss alebo použiť znak/3, ak sa v prepise vyskytuje 50-krát. Tagovanie skratiek Ak sa chcete venovať skratkám aj po prepise textu alebo ich chcete vynechať z trénovania modelu, môžete ich označiť tágom. Skrátené slovo alebo jeho časť s výskytom skratky označte v poli textového editora kliknutím na pravé tlačidlo myši. V ponuke sa zobrazí voľba Všetky tagy (AU tags). Vyberte funkciu Skratka (Abbrev). Skrátené slovo zostane podčiarknuté červenou farbou. Označenie s hodnotou skratky sa zobrazí na paneli vľavo na záložke Metadata, časť Textual. Nečitateľné miesta V prípade nečitateľnej pasáže alebo pasáže zapísanej iným druhom písma ju môžete označiť pravým tlačidlom myši. Z voľby Všetky tagy (AU tags) vyberte funkciu Nejasný (Unclear). 87 Pasáž bude podčiarknutá žltou farbou. Označenie sa opäť zobrazí v časti Textual. Takéto pasáže nemusia byť priamo zahrnuté do modelu (viac v kapitolách 5.2 Trénovanie modelu PyLaia a 7.1.2 Ostatné textové tagy). • • " T " • • rC-> lni >M ~**.nrf fr*<&+^ £ ^ / . t ^ *wvvaV^- 0-JnÍŤtAn(r frC r\íi\\,/au j píe Trdcrrri'^Zz * ^ Í C * t-Yt fjrnnntiKmtj tM/IMm naigmNpn t ř-t* M •Ztxi&.m r* 1H1W5 P i ^ t. fil«- M l 1 ! CH ? ? . M U . Ilmigr M f ü M « < R ™ * i t r a M ů i } w*te S M i 1 « 5 « 1 Obrázok 122a Označovanie stavu transkribovanej strany na paneli nástrojov 5. 2 Trénovanie modelu PyLaia Pred spustením trénovania modeluje potrebné pripraviť si vzorku Ground Truth (viac v kapitole 5.1 Prepis dokumentu), t. j . k originálu čo najpresnejší prepis (manuálny alebo automatic- 88 ko-manuálny), ktorý sa umelá inteligencia naučí „čítať". V závislosti od typu přepisovaného dokumentu (tlač, rukopis) a počtu rúk (resp. meniaceho sa štýlu písania autora) sa odporúča trénovať model na 5 000 až 15 000 slovách, čo zodpovedá prepisu približne 25 až 75 strán: - v prípade tlačeného textu na približne 5 000 slovách, - v prípade rukopisného textu na aspoň 10 000 slovách pre každú ruku. Ak chcete trénovať model na rozpoznanie troch rôznych „rúk", mali by ste prepísať aspoň 30 000 slov, 10 000 slov pre každú ruku. Platí to aj v prípade jedného autora, ak sa jeho rukopis v priebehu života menil. Veľký model trénovaný na viac ako 100 000 slovách, ktorý obsahuje rôzne ruky z rovnakého obdobia a regiónu, by mal byť schopný rozpoznať aj rukopis, ktorý sa do tréningu nedostal (aj keď výsledky jeho prepisu môžu byť v porovnaní s trénovanými stranami o niečo horšie). Je dôležité, aby strany vo vzorke Ground Truth boli reprezentatívne, t. j. aby obsahovali varianty všetkých typov písiem (resp. aj jazykov, abecied, no aj štýlov písania), ktoré má váš model byť schopný rozpoznať (čiže prepísať) súčasne. Strany zahrnuté do vzorky Ground Truth majú vplyv na kvalitu modelu. 5.2.1 Nastavenie parametrov pri trénovaní modelu PyLaia Po príprave vzorky Ground Truth nasleduje spustenie trénovania (nového) modelu. Funkciu Trénovať nový model (Train a new model) nájdete na záložke Nástroje (Tools) v časti Trénovanie modelu (Model Training). Server Overview Layout Metadata Tools ' Medei Training *K View models.-. * Train i new modelObrázok 123 Záložka sfunkciou trénovania (nového) modelu Po jej výbere sa vám otvorí okno na trénovanie modelu. V hornej časti si nastavte vstupné údaje ako aj ďalšie parametre nástroja PyLaia, ktorými môžete zvýšiť funkčnosť a efektívnosť trénovaného modelu. J •. • UMU •- I ll'i Obrázok 124 Okno na trénovanie modelu 89 Ako prvé uveďte povinné údaje: - názov modelu (Model Name) - jazyk dokumentu (Language): Jazyk(y) pridáte tak, že najprv kliknete na ikonku 0 , vpíšete názov jazyka do príslušného riadku (AddLanguage), potvrdíte dvojklikom, pomocou zeleného tlačidla plus pridáte do zoznamu (Current languages) a opätovne potvrdíte tlačidlom OK. V závislosti od jazyka vašej vzorky Ground Truth máte možnosť pridať j eden a viac j azykov. - popis dokumentu (Description). Následne podľa typu dokumentu a skúseností, aké nadobudnete pri práci s nástrojom PyLaia, môžete vyplniť ďalšie parametre (a podľa potreby meniť predvolené nastavenia): a) štandardné parametre (PyLaia HTR) - maximálny počet cyklov (Max-nr. of Epochs) predstavuje maximálny počet opakovaní tréningu, keď sa stroj „učí" čítať cvičný súbor; t. j . pri každom cykle prečíta tú istú stranu a vyhodnotí ju. Na začiatok sa odporúča ponechať predvolené nastavenie (250 cyklov). Treba mať na pamäti, že zvyšovaním počtu cyklov sa aj proces trénovania predlžuje a naopak znižovaním zasa skracuje. Zvyšovanie počtu cyklov nemusí mať vplyv na výslednú úspešnosť modelu. - predčasné zastavenie (Early Stopping) predstavuje minimálny počet opakovaní tréningu. Pre väčšinu modelov postačuje predvolené nastavenie (20 cyklov). Znamená to že, ak sa hodnoty modelu zlepšujú, trénovanie bude aj po dosiahnutí 20 cyklov pokračovať. Ak však už hodnoty nebudú vykazovať zlepšenie, trénovanie sa automaticky zastaví a vyhodnotí. - základný model (Base Model) Ak chcete zefektívniť učenie, ako základný model si môžete vybrať jestvujúci, verejne dostupný model za predpokladu, že má podobné vlastnosti ako váš cvičný súbor. Keď do vami trénovaného modelu pridáte dáta základného modelu, umožní vám to začať s menšou vzorkou a za istých podmienok aj zlepšiť vami vytrénovaný model (viac o zdokonaľovaní modelu v kapitole 5.3 Vyhodnotenie úspešnosti modelu a jeho zdokonaľovanie). Tabuľka s prehľadom základných modelov sa otvorí stlačením tlačidla Choose... Základný model pridáte dvojitým kliknutím na príslušný model a potvrdením tlačidlom OK. - rýchlosť učenia (LearningRate) Predvolená hodnota 0,0003, ktorú odporúčame ponechať, definuje, ako rýchlo bude učenie pri prechode od jedného cyklu k druhému prebie­ hať. - typ obrázka (Image Type) Ak predbežné spracovanie trvá príliš dlho, zrýchliť ho môžete tak, že zmeníte typ obrázka - z originálu (Originals) na komprimovaný (Compres- sed). - vykonať binarizáciu (Perform binarization) Táto možnosť je predvolená. Označenie možnosti zrušte len v prípade, že máte strany s rovnakou farbou pozadia. na trénovanie použiť existujúci polygónový ťah (Use existing Hne polygonsf or training) Túto možnosť označte, ak chcete počas trénovania zohľadniť existujúci, nie predvolený polygónový ťah. - vynechať riadky označené tágom (Omit Unes by tag) Túto možnosť označte, ak chcete z procesu trénovania vynechať riadky obsahujúce slová označené tagmi Medzera (Gap) alebo Nejasný (Unclear). Vynecháte tak nielen označené slovo, ale aj celý riadok, keďže trénovanie prebieha na úrovni riadkov. 90 - obrátiť text (Reverse Text) Túto možnosť označte, ak je smer písania na obrázku opačný ako pri prepise (napr. originál bol napísaný sprava doľava a prepísaný text zľava doprava). V tomto prípade sa tiež môžete rozhodnúť, či chcete z obráteného textu vylúčiť číslice (Exclude digits) alebo text označený tágom (Tag exceptionsfor reversiorí). - trénovať skratky (Train Abbrevs with expansiorí) Túto možnosť použite, ak chcete dosiahnuť lepšie výsledky pri rozpoznávaní skratiek. - trénovať tagy/zahrnúť vlastnosti (Train Tags/Include Properties) Tieto možnosti použite, ak chcete trénovať textové tagy a ich vlastnosti, ktoré sú súčasťou vzorky Ground Truth. Pomocou zeleného tlačidla plus pridávajte tagy, ktoré sa majú trénovať. Vďaka tejto funkcii môže model tagy v procese rozpoznávania generovať automaticky. - obnoviť predvolené nastavenia (Reset to defaults) Túto možnosť vyberte, ak sa rozhodnete vrátiť k predvoleným nastaveniam. b) pokročilé parametre (Advanced Parameters...) Kliknutím na tlačidlo Advanced Parameters... sa otvoria pokročilé parametre nástroj a PyLaia, rozdelené v stĺpcoch do troch skupín: predbežné spracovanie (Preprocessing), model (Model) a trénovanie (Training). Ponechanie preddefinovaných nastavení odporúčame zvážiť v závislosti od špecifík vášho dokumentu. Ak napríklad trénujete tlačené dokumenty obsahujúce kurzívu, zrušte predvolené označenie funkcie Deslant, ktorá slúži na vyrovnávanie kurzívneho písma. Štyri parametre v stĺpci Preprocessing však nemeňte (Moment normalization; Features parallelogram; Features surroundingpolygon a Features surroundingpolygon dilate). 5.2.2 Spustenie trénovania modelu PyLaia V spodnej časti okna na trénovanie modelu sa na záložke Dokumenty (Documents) nachádza pripravená vzorka Ground Truth. Príprava trénovania modelu spočíva nielen v nastavení príslušných parametrov, ale aj v rozdelení vzorky do dvoch súborov: • Do cvičného súboru (Training Set) vyberáte strany, na ktorých sa model môže vytrénovat'. Na cvičnom súbore sa stroj „učí", pri každom cykle „prečíta" rovnakú stranu, pričom chybne prečítané znaky pri každom nasledujúcom cykle vyradí. • Do overovacieho súboru (Validation Set) vyberáte strany, na ktorých sa presnosť vytrénovaného modelu automaticky overí (odskúša). V porovnaní s cvičným súborom je preto menší, spravidla 10 % z celkovej vzorky Ground Truth. Na druhej strane overovací súbor by mal byť reprezentatívny, t. j. mal by obsiahnuť príklady všetkých písmen, jazykov a iných atribútov zahrnutých v cvičnom súbore. V opačnom prípade, čiže ak je overovací súbor príliš homogénny, výkon modelu môže byť nízky, prípadne skreslený. Označené súbory alebo samostatné strany (po rozbalení priečinka), ktoré chcete pridať do cvičného súboru alebo do overovacieho súboru, vyberajte pomocou zelených tlačidiel na trénovanie (+Training) a overovanie (+Validation). Ak sa rozhodnete pre automatický výber overovacieho súboru (Automatic selection of validation set), označte najskôr stránky, ktoré chcete pridať do cvičného súboru, potom označte príslušné percento strán (2 %, 5 % alebo 10 %), ktoré chcete priradiť do overovacieho súboru, a potom stlačte tlačidlo +Training. Ak chcete niektoré strany z cvičného alebo overovacieho súboru odobrať, príslušnú stranu označte, a potom zvoľte xRemove selected entriesfrom training/validation set. 91 Pri presune strán do oboch súborov sa odporúča vybrať si verziu prepisu {Transcript version) - Ground truth only, a to ako poistku, že sa do nich nedostanú strany s iným príznakom (napr. In Progress). tangu • IVJ iv. rii • m MIM j i i i*-1-* Jj.'•/•^-u.iuri-.in-it \r-*r,áj-'ii ri-wviS 1 1 4.X-i*CJ"ŕ u •< n i Ľ- U1 i iJLO 3 1.1 M I - - I — , . D •» 'S y r • M. t l l l l j á l l i p u HJlJn •4.1.,»+ Obrázok 125 Ukážka nastavenia parametrov a rozdelenia vzorky Ground Truth pri trénovaní modelu Trénovanie modelu PyLaia spustíte tlačidlom Trénovať (Train). Otvorí sa okno s prehľadom dát o cvičnom a overovacom súbore (Dataset Overview). Ak sú pre vás tieto dáta postačujúce (napr. počet slov v cvičnom alebo overovacom súbore), stlačte tlačidlo Spustiť trénovanie (Štart training). Proces spracovania údajov a priebeh trénovania si môžete skontrolovať v zobrazení hlavného menu pod ikonkou - (Show jobs). Pri tvorbe modelu PyLaia sa zo vzorky Ground Truth zároveň generujú tzv. jazykové modely, ktoré sa môžu použiť pri transkripcii textov. Pomáhajú určovať pravdepodobnosť poradia slov alebo frekvenciu ich výskytu a kombinácie v istom kontexte. Ich použitie môže mať vplyv na zlepšenie výsledkov transkripcie. 5.3 Vyhodnotenie úspešnosti modelu a jeho zdokonaľovanie 5.3.1 Hodnotenie úspešnosti modelu Po vytrénovaní modelu expert klient ponúkne výsledok v podobe grafu a percentuálneho vyjadrenia chybovosti znakov v automaticky prepísanom texte. Výsledok je dostupný na záložke Nástroje (Tools) v časti Zobraziť modely (View Models). V ľavej časti okna sa zobrazí zoznam dostupných modelov vrátane vášho modelu. Po kliknutí na príslušný model sa na pravej strane zobrazí vyhodnotenie, ktoré má dve časti. P r v á časť vyhodnotenia obsahuje vstupné údaje o transkribovanom dokumente, ktoré zadávate pred spustením modelu: - názov modelu (Name), - jazyk dokumentu (Language), - popis dokumentu (Description), - súhrn nastavení pred spustením trénovania (Parameters). Softvér prepočíta aj počet slov (No. ofWords) a počet riadkov (No. of Lines), ktoré vstupovali do trénovania. Je to dobrá pomôcka, keďže na základe týchto údajov viete posúdiť, či bol rozsah cvičného a overovacieho súboru dostatočný. 92 flrtaiti H*™ I I L»ngLJgg: I MIKrJriiiLjnUtv4_kuruvj_1rDklurD_iYjkjjt|i_14J Cnufor fdcij.niiniiwvjíumb.st ^ĽPIIEIIII, JiHiin/inuah Urbc Hcttyi. PuMjnbMii Vi'ŕLtr lunou Filci, ŕuui Idrníudvjťi. IĽ'JI luľ-lLPfllŕrcqrnpnif frimfnfitirai Mjirc rpnfhi ĽĎrfj- sloppmij Fpťifh* trjinnl Líŕning rttt i u (IJMCU n DDIÍIIUHHL Přilil :riŕi. ! Jí - E • lSŕ7 Obrázok 126 Vstupné údaje o transkríbovanom dokumente D r u h á časť vyhodnotenia obsahuje grafické zobrazenie procesu trénovania, t. j. krivku učenia (Learning Curve) a chybovosť znakov v cvičnom a overovacom súbore na úrovni dokumentu ako celku. Graf zobrazuje presnosť vášho modelu. 0 20 40 60 80 100 120 140 160 180 200 220 240 260 Epochs |—CER Trati —CERVaMatkinl CERonTrain Set: 1.50% CERcn Yaliclaticn Set: Obrázok 127 Grafické zobrazenie procesu trénovania Os y predstavuje mieru chybovosti znakov C E R (Character Error Rate) a udáva sa v percentách. Krivka sa vždy začína na 100 % a tým, ako sa model trénuje a zlepšuje, postupne klesá. Miera chybovosti znakov porovnáva celkový počet znakov (n) vrátane medzier s minimálnym počtom vložení (i), nahradení (s) a vymazaní (d) znakov potrebných na dosiahnutie rovnakého výsledku ako vo vzorke Ground Truth. Vzorec na výpočet miery chybovosti znakov: C E R = [ (i + s + d) / n ]*100 Každá malá chyba pri prepise je štatisticky plnohodnotnou chybou. To znamená, že chýbajúca čiarka, u namiesto v, á namiesto ä, medzera navyše alebo veľké písmeno namiesto malého sa počítajú ako chyby. 93 Os x predstavuje cykly, t. j. priebeh tréningu. Počas procesu trénovania vykonáva Transkribus vyhodnotenie po každom cykle. Model na obrázku 126 bol vytrénovaný pri počte 101 cyklov. V tomto prípade bol maximálny počet cyklov nastavený na 220, ale trénovanie sa automaticky zastavilo pri 101, pretože model sa už nezlepšoval. V grafe sú zobrazené dve čiary, jedna modrá a druhá červená. Modrá čiara predstavuje priebeh trénovania (učenia). Červená čiara predstavuje priebeh vyhodnocovania na overovacom súbore. V tejto fáze ponúka Transkribus dve hodnoty miery chybovosti znakov - na cvičnom súbore (CER on Train Set) a na overovacom súbore (CER on Validation Set). Miera chybovosti znakov na overovacom súbore je z hľadiska hodnotenia úspešnosti modelu dôležitejšia, pretože ukazuje, ako si model poradil so stranami, na ktorých nebol vycvičený. Hodnoty CER on Validation Set 5 % a menej možno považovať za vynikajúci výsledok automatického prepisu, hodnoty do 10 % za uspokojivé. Odlišne sa vyhodnocuje úspešnosť modelu na úrovni jednotlivých strán. Prvý spôsob je porovnanie textových verzií. Na záložke Nástroje (Tools) vyberte funkciu Porovnať textové verzie (Compare Text Versions...) Získate tak podrobný prehľad toho, čo model prepísal správne a kde v porovnaní s verziou Ground Truth urobil chybu. "V ľ.n». mi:dtl-. * Lifoul Araryíii 1 V IrifldvtMf U ÍÍ1 f iinra riaj* 1 i Fťľri t?,-. NFlV.W.reMSEH J bi *- l> nir '-.i-li; I « m f\moi [ I I H Í OittiftftbniFiioni Ĺ i . R yAbrr. 179*l.i»nwr)tlt lejmunUl-sn. Jul rjm.tri kJ 1 t,1.E„,„:m Q f c n d l ™ \ Modt* DfJjunlfcJTiogtntoiii . - RJL M m « O H H W ^ ^wnmwiij Omjtwv j PlJCIIM- duniáu;. (Jonivmij Dr'jbcí ) KnpsjJ. Knh.nU. 1 il«ýiiwihj»tiiy|í\t,i«j^ínýtriiilMwiír|r)\\iwJ.ii:i.L pchni í .íha Hícbm fC]m « * K h n í J • i UUwfw-Ontolu i u \, i-r.m h i vvTllffllWiý h myť?j.my (tfylclŕ fltarf) Ijir.vr ľ^apni in .'. nwirpyiHi t n n fn hýívi v. Hmywymira •>.Karjnfv ^íLmpcH.JJ ílŕ^iŕŕ í lujibŕ \1rviiL, (Rrnrti,) ,t 7h|rÁ í^ftui M U M - S Í V I v I lalubi, ttaetiiwriwmwBwwagt TrvcfagTOtjrmi bvivun v.' mrujmji liolulnuru (HatuviiiEyJ k u [Hdiifatscy;)T ľ ) B * v f v Jndyfc íft1JOCV Kolunrif. How) Kotum. Morik} t \? iwu wnf icú 1 jm.famjlípttv {In* d}-dMU. Mertou.} S. Kí &Ů1Ý Piw 10 ptvĽj Jy w jvťŕmfleij Jv-ein P*íj. Cap (Eofinf t L Knjzdj if ba Sir;!Jí ( ľ i r t i i ) rfnriin) tfWiď.l'iH I ti TMtflttwičt, 12 Witmu WT a»eC 13 S * « + r S u ilea. L i fU**».-X**vk*. J 5 * - J í k ľ i u y i tu. Ljtajj m-.tJ iwiH.rt}«Mum» .NrtijpjJ lú Jjtagj nlinl? fn ú k o l ) Dumi*, « ŕ ŕít™tdii™vlil+.-(*-A.r ŕwkKS raiil*A [íw (rfíhnjrvĽtJjŕl r.iikHin^ifint-í-iiJtiiij^ (nhjkn»4íi.i(;!i.'!.i: I lump*! rnniuiríb fhjľiiLirai f'.jviilupc Obrázok 129 Ukážka chybovosti v trénovanom modeli Najrýchlejší spôsob, ako si štatisticky overíte chybovosť na úrovni strán, je použitie funkcie Porovnať (Compare...) na záložke Nástroje (Tools). Na začiatku je dôležité uistiť sa, že ste v hornej časti okna vybrali správne verzie dokumentu, ktoré chcete porovnať - manuálne prepísaný text, resp. Ground Truth (Reference, Correct Text) a text prepísaný automaticky (Hypothesis, HTR Text). Potom stlačte tlačidlo Porovnať (Compare). Výsledok sa po niekoľkých sekundách zobrazí v dolnej pravej časti okna. ťf*n#Ml JtdvjruKd jpriHpffH i tlama ">•«•• ŕun- T_M ">•«•• ŕun- T_M MU [ llliaitJi* Cff-tKwt •»J*,|.»|iTU»..art>JI M i II HJ] a>»-"- HJiť Mil UM II -L B - I I .-..li- - • Ďjnrt Obrázok 142 Výber modelu ajeho charakteristiky v ľavej časti obrazovky s aktívnymi tlačidlami na zobrazenie pôvodných digitalizátov použitých do cvičného a overovacieho súboru modelu v pravej časti obrazovky Vpravo hore sa nachádza možnosť pridať do predvolieb automatickej transkripcie aj jazykový model, ktorý sa automaticky vytvára pri trénovaní modelu. Pridanie jazykového modelu môže pomôcť najmä pri dokumentoch, kde sa niektoré výrazy často opakujú (napr. matriky, vizitačné protokoly, účtovné knihy a pod.). Po potvrdení výberu modelu kliknutím na tlačidlo OK vpravo dolu sa vrátite do dialógového okna Rozpoznávanie textu (Text Recognition). Obrázok 143 Pridanie jazykového modelu do nastavení výberu modelu na automatickú transkripciu a potvrdenie výberu modelu 106 Záverečné nastavenie predvolieb automatickej transkripcie a jej spustenie Po výbere modelu na automatickú transkripciu dokumentu sa po návrate do okna Text Recognition zobrazia možnosti pokročilých predvolieb: o predvolená hodnota Compute linepolygons - Transkribus automaticky nanovo určí hranice riadku, o Use existing line polygons - vyberte túto možnosť, ak ste vo fáze segmentácie textu manuálne upravovali/opravovali hranice riadku, o Add estimated words coordinates - voľbou tejto možnosti sa v originálnom dokumente zvýraznia hranice slov určených a aplikovaných pri automatickej transkripci. Táto funkcionalita môže pomôcť pri dodatočnej kontrole a korekcii automatického prepisu. o Restrict on structure tags - ak ste oblasti textu označovali tagmi (značkami), napr. marginália, hlavička, päta, číslo strany a podobne, môžete ich výberom jednotlivých tagov, ktoré sa rozbalia po kliknutí na toto tlačidlo, označiť, t. j . obmedziť rozpoznávanie textu na označené tagy, o Delete other text (if using structures) - ak ste pri predchádzajúcej voľbe označili tagy, na ktoré sa má zamerať rozpoznávanie textu, voľbou tejto možnosti môžete text v ostatných oblastiach dokumentu odstrániť z automatického prepisu, 107 4 U •M *M Obrázok 145 Ponuka tagov (značiek) na výber pri voľbe Restrict on structure tags o Recently used HTR models - rozbaľovacie tlačidlo s ponukou nedávno použitých modelov ostatnými užívateľmi (odporúčame nerozbaľovať: náhodným kliknutím môžete vybrať model z tejto ponuky, čím sa prepíšu všetky predvoľby, ktoré ste predtým nasta- vili), o Enable SmartSearch - príprava na využitie funkcie zdokonaleného vyhľadávania v automaticky transkribovanom dokumente (vo výsledkoch vyhľadávania sa objavia nielen výrazy identické s reťazcom zadaným pri vyhľadávaní, ale aj rôzne alternatívy príslušného slova. Predvolenie si Transkribus so zapnutou funkciou SmartSearch dokáže zapamätať, a potom aj vyhľadať až 100 variantov slova. P O Z O R ! Zapnutie tejto funkcie zvyšuje hardvérové nároky na výpočtový výkon aj úložný priestor voči serverom platformy Transkribus. Týmto odôvodňuje prevádzkovateľ platformy 50 % navýšenie poplatku za automatickú transkripciu každej jednej strany (snímky) rukopisného/tlačeného dokumentu so zapnutou funkciou SmartSearch. Poznámka: Vzhľadom na túto cenovú politiku si zapnutie funkcie SmartSearch treba vopred premyslieť. Na druhej strane, ak by ste chceli funkciu SmartSearch pridať dodtatočne, k už automaticky prepísanému dokumentu, musíte na celý dokument nanovo spustiť automatickú transkripciu so zapnutou funkciou SmartSearch, za čo vám bude účtovaný opätovne poplatok vo výške 1,5 násobku poplatku, ktorý ste už uhradili za automatickú transkripciu bez zapnutej funkcie SmartSearch. o v poslednom rámčeku sú pre kontrolu uvedené základné špecifikácie modelu (názov a jazyk modelu, použitie, resp. nepoužitie jazykového modelu), ktorý ste vybrali na automatickú transkripciu, Kliknutím na potvrdzovacie tlačidlo OK spustíte automatickú transkripciu podľa zadefinovaných kritérií. Ešte pred spustením samotnej automatickej transkripcie sa otvorí okno s potvrdzujúcou otázkou a upozornením, že ide o spoplatnenú operáciu. 108 » 1 • -11 • P •- ť U I* • J • — • \T \-S Obrázok 146 Okno s potvrdzujúcou otázkou na spustenie automatickej transkripcie s upozornením, že ide o spoplatnenú operáciu a s informáciou o výške poplatku za 1 stranu (snímku) digitalizátu Výsledok automatickej transkripcie O spustení automatickej transkripcie Vás informuje záložka pri ikone zoznamu úloh (Jobs). m t r • -i -1 • w v UM: • • ^ I H. JE^I^JH^** - O " I D* r: tf úS ' * •* * ^ — « U.h ._^AxlL. k 1 5 Obrázok 147 Záložka pri ikone zoznamu úloh informujúca o spustení operácie automatickej transkripcie Po kliknutí na ikonu zoznamu úloh sa otvorí okno zoznamu spustených úloh na serveroch platformy Transkribus Jobs on Server. Operácia automatickej transkripcie, ktorú ste spustili, je uvedená v prvom riadku s príslušným statusom: PENDINGIRUNNINGIFINISHED a základným popisom. 109 Vaša požiadavka na automatickú transkripciu sa zaradí do poradia podľa aktuálne spracovávaných požiadaviek na serveroch platformy Transkribus. Poradie vašej operácie zistíte, ak podržíte myšku nad riadkom spustenej operácie, resp. táto informácia sa nachádza aj v stĺpci Description. Čakacia doba na výsledok závisí od poradia a náročnosti jednotlivých operácií a rádovo sa zvyčajne pohybuje v hodinách až dňoch, samotný proces automatickej transkripcie netrvá dlho - približne minútu na jednu snímku (v závislosti od dĺžky přepisovaného textu). Z okna zoznamu úloh si viete overiť aj cenu v kreditoch za zadanú požiadavku automatickej transkripcie po kliknutí na tlačidlo Kredity (Credits). 110 I • y r • Q » - • • Ľ3 T - -— *1 n 0.' • • ,1 Obrázok 149 Tlačidlo Credits v okne zoznamu úloh na zobrazenie ceny (počtu kreditov) za vykonanie automatickej transkripcie t f <«. M . - . . i n i m i i , » c i - i ; i ŕ Obrázok 150 Stavový riadok v okne Transactions of PyLaia Decoding s informáciou o cene za automatickú transkripciu jednej snímky technológiou PyLaia HTR vo výške 0,17 kreditu Po ukončení automatickej transkripcie sa pod snímkou príslušného digitalizátu zobrazí výsledok - prepis textu. Dvojitým kliknutím na riadok z prepisu sa farebne zvýrazní a priblíži príslušný riadok na digitalizáte, resp. vice verša, čo uľahčí kontrolu správnosti prepisu a prípadnú korekciu. 111 • > fl-r;-' • * Í * - > • i * i 1111 p n n. fiiiH< • v* Jiu • bac :r .4^b— »»»••• i -IF, I Id Tm -rum. Tf —*- * n M "A-r .»-•+•* : H I 1 M B u n i w J K ď i .-•••*» itv, M f ^ : : i j i Wm «*-T»Y, rrTTf,!«, W r«iM.r'! . ' • E I Í L U . tm bjEH. Ptr "n ÜT TI •• 'r* T/ H . -*iir;, ľ . MUM -i. ^->-. -i. r\u •u n i nt • N _•*rat-in.-mrju £5 ~£t.*t.-j-gfr.,».^*! -rill-" '•*/,•<•• r • i i.ŤVíÄ- 4 » " " » / • • l - ' . v - e . . - ,>-•>- . - • í t t t V i,ir(c*i . ~J A -V: . . / „ , . / . T . > ! , . , v , 1 H AJ-ĽII; JL.nfl ••aJ--njH Itz^í, J u f l Ar J-ua ^TÍI! oblm^ Ifri OMT+* TirjicMr« íw*ntr* barjurol (fcrflťAji Pŕíifla 1 t-J rrHrfi . l í ^ , ( j.-n Js-jlti rr» r « r « H > - » htjf • 1 U " - j r t i l t aj fl »tí n-ntí-'v ' I W M t " r . r -"i- V M Í J ' : IB-7 4 ľ w n rag, kjfgyoH ršdzai^h*. hli £ v b r i « - . - I Obrázok 151 Výsledok automatickej transkripcie-prepis rukopisného textu so zvýrazneným riadkom na kontrolu správnosti Kontrola kreditov a systém spoplatnenia automatickej transkripcie Ako sa uvádzame vyššie, automatická transkripcia je spoplatnená formou kreditov. Okrem vstupného balíka 500 kreditov, ktoré získate zdarma pri registrácii na webovej stránke platformy Transkribus https://account.readcoop.eu. si môžete podľa potreby dokupovať kredity v e-shope platformy. Cenová politika sa priebežne môže meniť, momentálne sa základná cena odvíja od sumy 0,15 €/jeden kredit. Je to najvyššia suma bez množstevných alebo členských zliav, resp. zliav vyplývajúcich zo zakúpenia predplatného. SÜO CREDITS r SEE PLAM O M t l t m M r i l i v CREDITS 1 2 0 CUTDITS DNE-TiME •• • m í m i • i— M - j " — •' — UrtľjAHISATIOMS CUSTOM T i i l D r c d ID your n e e d s Obrázok 152 E-shop na nákup kreditov na webovej stránke https://readcoop.eu/transkribus/credits/ 112 Počet disponibilných kreditov si môžete overiť priamo v aplikácii Transkribus expert klient, kde v hlavnom okne zvolíte svoju zbierku (stavový riadok Collections). Otvorí sa nové okno Choose a collection via double click, v ktorom treba kliknúť vpravo dolu na tlačidlo Správa kreditov (Credit manager). av ľ — • h / • II • ******* 1 • • 1—. 1 p" I # ™ i |ipr W M B W M U » M « U ' > w V I N . * W>I_'JI.'-»F» . •- .-4.-...- - -. -1 .-.« ! "A l w d . i i i W i gh.KÉŕW r. u H A U H h m ^ r a • «W I M • Ä • *•*£!-« •ni i|É)fcj 11 MJJPLPI MP* ••Wv*-L*nUl*> Mŕt im-, 1 wpl «MtoUU. Uli h -a *11 if i ^ • .-44 i1 -t-i-'V— 14A* 4 * i aj] 4j 4 j —4; ^ |ipr W M B W M U » M « U ' > w V I N . * W>I_'JI.'-»F» . •- .-4.-...- - -. -1 .-.« ! "A l w d . i i i W i gh.KÉŕW r. u H A U H h m ^ r a • «W I M • Ä • *•*£!-« •ni i|É)fcj 11 MJJPLPI MP* ••Wv*-L*nUl*> Mŕt im-, 1 I • lp< *»lt-JII T • » ppf %.r*3ir r i wpl %»HÉ>TV i- V t*.MT« fc~>- — r W i H * l*^J*«.>^.M •M, • *™ P-- n-i I M -. in i »**•< —»r^jiJ * •.' aj P - •%••>-)< K - *•• i - tafwMtlB thWH. * ' pp > \~^WtÉ MM 1 J,f WMfeE"* f • ' • • H •*>•"). _|-— dl— . Ifc^ ť II l|l —-mi— 1 h—1 1 Obrázok 153 Otvorenie správy kreditov pomocou tlačidla Credit Manager V okne Správy kreditov (Credit Manager) na záložke História účtu (Account History) vidieť v ľavej časti históriu pohybov kreditov (nákup/pridelenie kreditov a ich spotreba na automatickú transkripciu). Po označení balíčka kreditov v ľavej časti, ktoré sú označené ako Shareable sa nachádza možnosť prerozdeliť ho medzi zbierky (kliknutím na tlačidlo uprostred), resp. účty iných osôb, ktoré sa zobrazia v pravej časti okna. • t T • T - 1 U4 - J •'• • Obrázok 154 Okno správy kreditov Credit Manager - uprostred tlačidlo na presun kreditov na iný účet 113 Na záložke Balíky kreditov (Credit Packages) si môžete v ľavej časti overiť, o ktoré kredity sa môžete podeliť (v stĺpci Shareable je hodnota True) s iným kontom. V zásade ide o zakúpené kredity, teda kredity, ktoré vám boli pridelené pri registrácii konta, a ktoré nemôžete prideliť inému užívateľovi. V stĺpci Zostatok (Balance) vidieť aktuálny stav jednotlivých balíčkov kreditov, ktoré máte na svojom konte. V spodnom riadku Celkové kredity (Overall credits) vidíte sumár všetkých dostupných kreditov, ktoré máte k dispozícii. Vyčerpané balíčky kreditov (Depleted) sa zobrazujú v pravej časti okna. r... i - -• m ri.. r. rvMla m* tm "íl*** . r J r ir i n m i .1 i im i J a Obrázok 155 Záložka Credit Packages, na ktorej si môžete overiť stav, platnosť a možnosť rozdelenia kreditov 114 7 Možnosti práce s textom po automatickej transkripcii Kapitola uvádza možnosti práce s prepísaným textom, ktorá ho zmení na dátovú základňu a export požadovaných obrazových či textových informácií, s ktorým chcete pracovať už v inom formáte alebo inom programe. Text získaný po automatickej transkripcii a jej kontrole môžete obohatiť o dodatočné informácie. Spočíva vo vyčlenení významných údajov v rámci textu podľa nastavených kritérií. Uskutočňuje sa jeho označením zodpovedajúcimi tagmi (značkami). Rozlišujeme dva základné typy tagov: 1. Textové tagy, ktoré definujú pojmy a frázy v texte a slúžia na označenie na úrovni oblasti, riadku, slova alebo aj jednotlivých znakov. Úpravy urobíte pravým kliknutím na prepísaný text v textovom editore. 2. Štrukturálne tagy, ktoré definujú štruktúru dokumentu a sú založené na oblastiach textu a riadkov. Úpravy urobíte pravým kliknutím na digitalizovánu snímku v obrazovej časti pracovnej plochy. 7.1 Textové tagy Prepísané texty môžete obohatiť o textové tagy, ktoré bližšie charakterizujú zvolený výraz. Platforma ponúka preddefinované tagy označené kurzívou, s ktorými môžete pracovať ihneď alebo si môžete vytvoriť vlastné tagy. Práca s tagmi je možná až po priradení konkrétneho tágu k požadovanému výrazu. Rozlišujeme: 1. autoritatívne tagy (napr. osobné meno, geografické miesto, dátum, inštitúcia, abstraktná identita), 2. ostatné textové tagy (napr. skratky, nečitateľné výrazy, vymazaný text, začiernený text), 3. vlastné tagy. Funkcie na značenie textových tagov nájdete kliknutím na záložku Metadáta (Metadata) a následne na záložku Textové tagy (Textuaľ) v ľavej hornej časti hlavnej pracovnej plochy. Záložka je prepojená s pracovnou plochou a textovým editorom. 115 ľ57 mcLrrhfť -UK M-U.I--J' li IIIII ^mmn:: Tup í f i m r t TiuKitjK B* DUM * * » S SC» Litt i VriTt> K. är«#. IKTK A r -v» Sťnr. r. • A Irji-nl Irl1 U*L6 F*K*f « M i l 7 f • r- — % " V '•• ^ h V"" • I '"n^-T p '^'iri-'i V i" ty-r* -ir-:i "*|.|r i m > LL t Ti««« id Ok, I n j » «d Bi™ TM? Cim w - : " u t W v K i » J r U < 4 u ^ I . - ^ r HÉMC4.I."in i l l 1 l i n M m 1 iuio> WanÉWiri Lk> I W i l l 1HH t r . i It S C«rp«g^VJtaic4Éi Sw-jc i u«or >u:«T Lov MKami 5 Obrázok 156 Štruktúra záložky Textové tagy (Textual) 7.1.1 Priradenie textového tágu Textové tagy môžete použiť na výrazy na úrovni oblasti, riadku, slova alebo aj jednotlivých znakov. Označujte však len nevyhnutné časti textu, ktoré majú byť vyhľadateľné. Každý tag sa používa samostatne na zvolený výraz, ale v prípade potreby je možné k rovnakému výrazu priradiť aj viacero tagov. Možnosti priradenia textového tágu k požadovanému výrazu v textovom editore: 1. Zvýraznite text v textovom editore a kliknite na zelené tlačidlo pri tágu, ktorý chcete použiť. M T i g t QUMTUgi OGOlKCIiOflUeS • ugsr.iKilic.iücirn fulcT -•<• -I 3/-4 einer v o r r e a e von L&sung aer n. Kenrin. 37-5 B a s e l . 1723. 4. 1*3 spHihuooii Loior mentu: drV n*p orgjrniiilion >> per»n 1 J plKf "o m m m -I 38-1 2 6 r J> T t t V i E f l l H e r m e n e u 38-2 ticse N. T. ü b e r 1 M s 8 3 8 - 3 A c c e s s i t 18. Oct. 1813. 3 9 - 1 SuLipositi sunt aliis: Pram for tig: "romminť - ijli r ll'utr Hrm-rntu 1 Henrini Mnlleri Hamhumfansis Obrázok 157 Označenie tágu pomocou zeleného tlačidla 2. Zvýraznite text a po kliknutí pravým tlačidlom myši vyberte možnosť Všetky tagy (AU tags). Zobrazia sa definované tagy. 116 Add ret * * i si ne r v y i n ŕ u í ŕ VUFI LtfsuFigtisF n . s u m m . 3 7 - 5 B a s e l . 1 7 2 3 . 4. 1 Hermeneua a m W i s e r3&-1 2í !• 3^-2 ticfE N . T L i t 38-3 Accessil 1S. 39-1 SLpposiliaur Oltt aera ittv flap 'Jl'Ji-i 1anon plX4 tie wn.trtoKi (oř>- Ift: VjpalwJ All U T . AjléatAQMftM 1 H e n r i c i Mi- • DrMtrlwcDTTOTllolfrnO^llritorflnurstnieca^ 39-3 enaratiores Psalmoruin Davitfis Obrázok 158 Označenie tagu pomocou myši 3. Častejšie používané tagy môžete priradiť aj prostredníctvom pridelenej skratky. Na zjednodušenie postupu kliknite na záložke Textové tagy (Textual) na tlačidlo Prispôsobiť (Customize). Po zobrazení okna Konfigurácia tagu (Tag configuration) označte požadovaný tag a kliknite na tlačidlo Pridať špecifikáciu tagu (Add tag specification). Do stĺpca Skratka (Shortcut) pridajte vhodnú skratku. Následne označte požadovaný text v textovom editore a zvoľte pridelenú skratku. Curtrnrli Mri |^o.' H 6&-2 d e s L xolien veudra sunl R L S D 69-3 Heinníh 8u|3ffltEijFlfteti Item 69-4 H R. duae Parccho Taroseus.. Gu'.tuur 69-5 7 3 5 S«no/itz tria 70- 1 39. - - • t - a J «• r ľ •» - J c - " ; y* Obrázok 160 Použitie tlačidla Prečiarknutie (Strikethrough) Príklad2 Ak si nie ste istí správnosťou prepisu, prepísaný text označte tágom Nejasný (Unclear), aby ste sa ním mohli zaoberať neskôr. Riadky s takto označeným výrazom nie sú zahrnuté do trénovania modelu. 68-1 Detto 89-1 Es/>a ŮH OK 6B-3 H e m i i í . u i r t Obrázok 161 Použitie tágu Nejasný (Unclear) 118 Príklad 3 Ak je text úplne nečitateľný, také miesto označte tágom Medzera (Gap). O-M -3itft _ Í W V * A . Atmió i 'Zta^t. ^Ifl-rf. ŕ ŕ i - * v " - r 1 f T .-*V.T-* Obrázok 162 Použitie tágu Medzera (Gap) Príklad4 Ak potrebujete prekryť čitateľné citlivé informácie, použite tag Začiernenie (Blackening). Používa sa v spojení s oblasťou „sčerneníe", ktorá sa pridáva pomocou segmentačných nástrojov. Použite rozbaľovaciu ponuku na tlačidle segmentačného prvku „+..." na bočnej lište ponuky Plátno (Canvas) a vyberte možnosť Začiernenie (Blackening). Rámčekom označte slovo alebo text, ktorý chcete skryť. Potom kliknite na tlačidlo Viditeľnosť položky (Item visibility) na hornej lište ponuky Plátno (Canvas) a označte možnosť Vykresliť sčernenie (Render blackenings) na zobrazenie začiernených častí na snímke. Nakoniec kliknite pravým tlačidlom myši na zodpovedajúci výraz v poli textového editora a z voľby Všetky tagy (AU tags) vyberte tag Začiernenie (Blackening). Pri exporte dokumentu vyberte možnosť Vykonať začiernenie (Do blackening) a text sa nahradí takto: [...]. Informácie za začiernenou časťou sú zachované len v súboroch METS a TEI, v iných formátoch súborov je text úplne prekrytý. n •< JL 4 a » » m PrirMSpion Chirt fhrm Srapíiic L incDrjriuinq Muac NDIH Stparaior LntínownRfiíSífi Articlf Lejcpenmcnia lit ČléjwW** »í«Ji <í**Ari- H • rffUi't • 4"' A* • I4W LRXJÍI mo L«d __ 'c-i.: «n_tMtats entí'. • -r • irjiťťl Hif.lt. í l n* Qpon.pilMij: UK> PT> TU DOOÍ TXT HSX >.i Erjail ^diit • t i p o i l A l l O r t í • fjport AirCh v*.ř (Split Uno títo Varii, p) Eworl Imjqs • E w i m H i i w í] EuMrt íliumirjŕ ŕTrmfli:* tu Mŕti image type OnglBU íilflftj™ aatMfn O f W * • 1ikn*nw » I If naiif i*ťr >j r <-Mir*i irut Df Jicjjf 1 O f l w w • p w * » • pasia rtnuo _I_lu_ UtttlvrniOr, Ir^fmiitjripmiŕil Ĺ_ CrtjK Titte Age f»»«<12fi: M Z i Obrázok 166 Označenie prekrytia v okne exportu Môžete tiež pridať alternatívy a návrhy k textu alebo dôvody pre nečitateľný text voľbou Vlastnosti (Properties) cez okno Konfigurácia tágu (Tag configuratiori). V niektorých prípadoch sa dá nečitateľný znak alebo znaky uhádnuť a tak sa dajú jednoducho prepísať. Namiesto pridania obvykle používaných hranatých zátvoriek doplnený text označte tágom Nahradené (Supplied). 7.1.3 Vytvorenie nového textového tágu Okrem preddefinovaných, ihneď dostupných tagov môžete používať aj ľubovoľné vlastné tagy. Vlastný tag vytvoríte kliknutím na tlačidlo Prispôsobiť (Customize) v strednej časti záložky Textové tagy (Textual). Po otvorení okna Konfigurácia tagu (Tag configuration) kliknite na tlačidlo Vytvoriť nový tag (Create new tag) a pomenujte ho. 120 TIEUUJ C, II I ní: r- • Avulibk T«ji 1 -ji t>*«r nr* log_ n U HK,ÍI«. • W « n jKhw • H t 1 TljjlKCilVÍHC 1*1 , T. I LÄAJII Cribr Srrtni QtVrichxlKXDpiapcr Sin fr In* ugiung w w I »»>.;iijm,i»»i|| • tJTftftřJ I tt I Obrázok 167 Vytvorenie nového tágu V okne Konfigurácia tágu (Tag configuration) môžete nastaviť aj vlastnosti tágu, ktoré popisujú podrobnosti o konkrétnom výraze. Označte požadovaný tag a kliknutím na tlačidlo Pridať vlastnosť (Addproperty) sa otvorí okno, do ktorého zapíšete špecifickú vlastnosť tágu. Podrobnosti o výraze následne vyplňte pri jeho označení tagom. M t l l d l t J T0D)t svUubir Tnji • o * • ** • 0 o » U umo • « r • w ÍSn-vmv lučili' Miliifil* ' • LVJIJTH-I ri*fK ifcjílvi- TEXIUH [ • « u ' i í - . r - r i i - i u ;: T^Ťp-HTTtV^i i 1« I M l i dar II r-*' n 0 « pHH JJKMTMHMWI á r l r i . Mih T^r^ij I V rn*r t r t i ^ s ITiH livmrj lil y-f] ***** rii>aa nirilM ľ n i tf— "ni*r *MO*J*HT Itn O * * *fI*H S SOT i»pi i Um VnHlSSciv I*nk4*r-v- . r4M**r>j>: • . t m 1 m i«7t * ' M i -n*=-r Hrnuto •• 1(4* lna. A rp«ii» H B 4. 11.« triin«S*iitiv ItojjK CKnjn«U_ 4 1%«*V)UM • Ikjwmri-- IMÍ i i « n i i * i > M t [ i i < wunir.a new» HfirKiřMMMHptbaAv • nntno: .1, Jkmr * i : • ^-i!r 1 -i J 1JŮ1 Ufc 1. AÍTHM llttlA «*OT ttYu. '. • •Í'O-I.-.I W i n i CKHVp] UM Obrázok 168 Vytvorenie vlastnosti storočie pre tag Dátum (Date) ajeho použitie v texte Ak ste výraz/text označili omylom, môžete tento krok opraviť. Opätovne zvýraznite text a kliknutím pravého tlačidla myši stlačte tlačidlo Odstrániť (Delete). Na výber máte dve možnosti, odstrániť iba jeden tag alebo všetky tagy z aktuálneho výberu. 121 17232 - 3 m 3- 1 9. 4-1 Augu: Copy text Paste text o Alltags .a Add a comment 4-2 SCT36 s Delete all tags for current selection a Delete tag: date foffsetQ: length:4;storocie:18.\u0020stor.;) Obrázok 169 Zmazanie označenia 7.1.4 Vyhľadávanie textových tagov Použité textové tagy a k nim priradené výrazy sa dajú vyhľadávať. Môžete s nimi pracovať už aj v expert klientovi, čo je užitočné napríklad ako pomôcka pri ďalšej práci s prameňom. Jednotlivé kroky sa uskutočňujú po zakliknutí tlačidla ďalekohľadu. Táto ikona je dostupná na viacerých miestach pracovnej plochy, napr. na hornej lište a na záložke Server, ale jej prednastavenie na vyhľadávanie tagov Tagy (Tags) je dostupné na záložkách Metadáta (Metadata) a Textové tagy (Textuaľ). Postup krokov na zadefinovanie požiadavky na vyhľadávanie: 1. vyberte miesto prehľadávania (napr. aktuálna zbierka, dokument, stránka), 2. zvoľte typ vyhľadávania, jednoduché (názov tágu, označené výrazy) alebo rozšírené (vlastnosti tagov a ich hodnoty), 3. hľadanie môžete obmedziť aj voľbou Rozlišovať malé a veľké písmená (Case sensitive). Výsledky vyhľadávania sa zobrazia v spodnej časti okna po kliknutí na tlačidlo Hľadať (Search). Zobrazí sa prehľad informácií o tágu a jeho vlastnostiach (označený výraz, časť textu, číslo dokumentu a strany). Po dvojitom kliknutí na konkrétny riadok výsledku vyhľadávania sa na pozadí okna textového editora prekliknete na požadovanú stranu a výraz. C u M i m c f t a - U V I M > _ | C j l » l M k W U E u c t n M K h '. i- r I j:í -jm I HoptröftBtiMei; J I bo •MV. tat ŕlOMlT 61 1"« f :ÍÍ 1-3: T:+: Crjirrr4cm o»'E3 B ľ '.r iWtilhk 'Aiwv Axvil- M K U A l " ŕ , i •• Ľ.I„-. BMC •uaun Hnn«™ J Lxm* »51« « V-kCt P*" U HA V « . "rtl -- Iltt • » • « U UbX.i pLur w » A u tW:i A LJJ» 1 i !• n i iki-Vj T*n> Ĺ •• - iK^jfu typwE 1 f! c(M*yr4em J5"K P'l£t c&jirŕHeiiii a»'C2 ubttGr PÍK* G«c-+Mldmaui> lipu* 1 CQJYŕMitli IObrázok 170 Výstup z rozšíreného vyhľadávania pre tag Miesto (Plače) 122 7.2 Štrukturálne tagy Prepísané texty môžete obohatiť aj o štrukturálne tagy (napr. odsek, nadpis, čísla strán, marginálie), ktoré umožňujú definovať štruktúru dokumentov. Je to doplnková funkcia, ktorú môžete využiť na označenie sekcií, ktoré vás zaujímajú (napr. vyčlenenie rôznych typov rukopisu v dokumente). Nieje potrebné označovať každý prvok dokumentu. Nástroje na značenie štrukturálnych tagov nájdete na záložke Metadata (Metadata) a následne na záložke Štrukturálne tagy (Structural). I ľ y Ti y in c l-.Ut*ir>lľj. IHMh lithC. 1-rlarMCvflju. MMC zoznam všetkých tagov prehľad použitých tagov Obrázok 171 Štruktúra záložky Štrukturálne tagy (Structural) 7.2.1 Priradenie štrukturálneho tágu Štrukturálne tagy sa priraďujú k oblastiam textu a oblastiam riadkov. Môžete označiť niekoľko oblastí naraz podržaním tlačidla CTRL na klávesnici a následne kliknutím na dokument. Najprv kliknite na tlačidlo Viditeľnosť položky (Item visibility) v pravej časti hornej lišty hlavného menu, aby ste označili za viditeľné oblasti textu a oblasti riadkov. » R Q f-, .: DiraLjríjHi • rhMduig • i .liJl <:-. • hrttkl • hxKCf •igtrxJrnriřr P Ll;au-(nniml Dedil • rioatrog • <:gniib.ir-iuik WtshTKifd • rŕdrfjilUlil • footnote J H rnílníilr P ^ ^ H TOf-tňby other liilinťirta = 7 ^ ,Vr;,.<,.W A t . . ' -V . Obrázok 173 Priradenie štrukturálneho tágu pomocou myši 2. kliknite na zelené tlačidlo + pri požadovanom tágu na záložke Štrukturálne tagy (Struc­ tural), Sil VIT CrvLvvirw (jyuul Metadata lrxik : Document Page Hivťrvrtl lEKUHtj CiffllBefrH Pfcseiype: Sriŕrtm tltmtra typŕ: 1jM*ifll Structure Type Type or iŕlŕciďa Ijninŕrfu DSnOWHluitJrrlywfrunies LJDHlrfjj ilrurlurr \i Color Siwrtwt ncdling ligTOture-nujril nijigi:^:: j IpůBiůr* Joaf/wte continued endnote r«-elvJY Gifts' IMIDCsie -*1 luůpcniii Obrázok 174 Priradenie štrukturálneho tágu pomocou tlačidla 3. kliknite ľavým tlačidlom myši na prázdne okno v stĺpci Štruktúra (Structure) na záložke Rozloženie (Layoui) a na záložke Štrukturálne tagy (Structural) a vyberte požadovanú možnosť. Dvojitým kliknutím na jednotlivý riadok v tejto sekcii sa priblíži požadovaná oblasť v obrázku dokumentu na pracovnej ploche a naopak. 124 • f t a t o t o H m * ! S u r f « l u « . C m l a m Obrázok 175 Priradenie štrukturálneho tágu pomocou stĺpca Štruktúra (Structure) 7.2.2 Vytvorenie štrukturálneho tágu Okrem preddefinovaných štrukturálnych tagov si môžete vytvoriť vlastné tagy kliknutím na tlačidlo Prispôsobiť (Customize). Po otvorení okna Konfigurácia tágu (Tag configuration) zadajte názov tágu do prázdneho poľa v spodnej časti okna a kliknite na zelené tlačidlo +. •"i as Vmom \r-* czna-xm I C JiĽr-aUUtU • * EJ _ , («1 ,r. s? RŕitaHt drtwn Obrázok 176 Pridanie nového štrukturálneho tágu Prispôsobiť si môžete aj farebné označenie tagov kliknutím na farebnú časť vedľa štítku a vybrať požadovanú farbu. Rozšírené možnosti jednotlivých tagov ponúka tlačidlo s hviezdičkou nachádzajúce sa vedľa každého z nich. Voľby sú viazané na zvolený tag: označenie všetkých oblastí prázdneho textu, odstránenie zo všetkých snímok dokumentu, premenovanie. 125 Structu rc Ty pr Type of seFected: D M • Show stfiJi-Tiire Type names • Display stnirriire rynefi in c.o\m „ CustorrtiüeSTrumiTe Tyr>e UnjlirKj jiífnjlurrj-ni irk catch-word marginalia trinTnnFi* triL-iTnnle-rnnTintjfiľi ĽIKTIVJLĽ IOC-entry other lai nfina nemrinn OKI C.aior SfirirsiTLit IOI [flj I" J m m s |o 1/tT Ll 5, L H G S ® Current paŕje Q RaQ«$ (12 1): Q Annulate em nfy rerj intw liriih 'flnaTinrj' I J DĽÍĽIĽ [ ' m n u d u t u i n u r i L ! ) till I h r a : i l l UĽĽUIĽ tyfn_'i:' I l u d LIIHJ ' • Rename structure type 'floating" wjtft 'rK>_type_seletted' ÍĽIĽL( sLrutturr; lypů: nu tyuĽ. lotted OK Cancel Obrázok 177 Ponuka tlačidla s hviezdičkou Odstrániť štrukturálny tag môžete prostredníctvom záložky Štrukturálne tagy (Structuraľ). Výberom požadovanej oblasti a následne zakliknutím červeného tlačidla na záložke Typ štruktúry (Structure Type) alebo na záložke Rozloženie (Layouť) cez stĺpec Štruktúra (Structure) a zakliknutím voľby zmazania vo vyrolovanom okne. 7.2.3 Ďalšie možnosti záložky štrukturálnych tagov Ku každej strane dokumentuje možné priradiť typ strany výberom z přednastavených možností (predná obálka, zadná obálka, názov, register, obsah, prázdne, iný) v časti Typ strany (Page type). Kliknite na šípku v prázdnom okne a vyberte požadovaný typ strany vždy pri aktuálnej snímke. Server | Overview | Layout | Metadata Tools Document | Page Structural Textual Comments Page type: Links: Selected element type: Structure Type front-cover back-cover title table-of-contents index content blank other Obrázok 178 Voľby v časti Typ stránky (Page type) Štrukturálne tagy môžete prepojiť prostredníctvom tlačidla Prepojenia (Links), napríklad prepojenie riadku s poznámkou pod čiarou a pod. 126 7.3 Export výstupov So svojimi obrázkami a prepismi môžete pracovať aj mimo platformy. Slúži na to export výstupov. Rôzne funkcie vám umožnia prispôsobiť výstup podľa formátu súboru a možností, ktoré uprednostňujete. Môžete si vybrať export na úrovni strán, obrázkov, textu alebo štrukturálnych prvkov. Funkcie pre export nájdete kliknutím na ikonu Exportovať dokument (Export documenť), ktorá sa nachádza na hlavnom paneli. V zobrazenom okne najprv vyberte z ponuky záložiek, ktoré rozhodujú o spôsobe uloženia, pričom jeho priebeh môžete sledovať v okne Jobs na záložke Server. Možnosti: 1. export zo servera (Server export) pre výstup zo servera platformy s odkazom na stiahnu­ tie, 2. export z klienta (Client export) pre výstup do počítača na zvolené miesto. ^_^i_«ifM4ui_wT-ri^ H t 1 /IM • I i ? ä * b t M M - fcj U * 4 ^ 4 % * ' í-ipa-ľ ůůt-mwú K 1 luuuf llllifJI V .Lj.r-r.r. Mhtdur n* J-I^OT. ľjKiI «l_lf -HUH J _í d lÉHfft h-lpb/,-|riM_rt_a cuVfIMT:-S U ! 1 _ M " _ S 1 M.'íJrdĽfinon wt .n_ů_.r'>_n. •3 lEPlM, Hiirv^ li.tt._V_: " : - i Mlpi •Ylrnnlrltii- nrTTTnrlŕlŤľl-il 1-rnFtllľÉI í rŕ-rtTrrrl^.lÉimii -rip •d Uztttů. W_r-_ 1_.tt_.-Ur_ : .Vt bi -m. +*piV.-lr^m-rkí- mV«pwVbí_íliiGI ŕ_B4_iM4thľ*i|n-1 Je*. SAlM..-J* !J m - Ĺ. q M t * r a t • - t B « « x i « - j • ' Export4 i "JU* H-UM _ Obrázok 179 Okná so záložkami Export zo servera (Server export) a Export z klienta (Client export) 7.3.1 Voľba formátu Následne sa rozhodnite pre vhodný formát. Výber je dvoj krokový, najprv vyberte základný formát v stĺpci Vybrať formát exportu (Choose exportformats) a potom zvoľte rozšírené možnosti v druhom stĺpci Možnosti exportu (Export options). Choose export formats MTrarrs-ribus Document I'LIF r i T E l n o o c x • Simple T X T U tig tuport tfxwij • Tag Export rJOBl • Table rxnon into Txr*1 • ftlgc mclad.!. into Excel Export options: M«S PDF TEl DOCX TXT XL5X Choose export formats MTrarrs-ribus Document I'LIF r i T E l n o o c x • Simple T X T U tig tuport tfxwij • Tag Export rJOBl • Table rxnon into Txr*1 • ftlgc mclad.!. into Excel P; Export Page • Export M J 0 v * 2 • Export ALTO V O {Split Lines Into Words) Opt for Alio v? PJ Export Imjgi; • Export text files • txport strutluijl uiirmcntv to Mtli Choose export formats MTrarrs-ribus Document I'LIF r i T E l n o o c x • Simple T X T U tig tuport tfxwij • Tag Export rJOBl • Table rxnon into Txr*1 • ftlgc mclad.!. into Excel 1 iiwgt lyyv; Omjirul • brj»rt A U lonutU 1 iiwgt lyyv; Omjirul • brj»rt A U lonutU M L'naivt p_LU.'!n O pagelMr -> f.lename $ (plenum* {wJiciuny: 'itmiftnimi nuid b* unicpnf 1 O * x l d • pageNr i pagdd [ Ifuport Seeded as 7IP M L'naivt p_LU.'!n O pagelMr -> f.lename $ (plenum* {wJiciuny: 'itmiftnimi nuid b* unicpnf 1 O * x l d • pageNr i pagdd [ Ifuport Seeded as 7IP Partem | Ssfilename} [ Ifuport Seeded as 7IP Placeholder ildotldr, .Milnum*), i|p.ifdu|. S(p* Obrázok 180 Ponuka možností pre formáty exportu 127 Formát Transkribus Document Pri zakliknutí tejto možnosti sa vytvorí súbor METS, ktorý obsahuje odkazy na rôzne súbory v závislosti od toho, ktorú možnosť si vyberiete (Page, ALTO, obrázky, text, tagy). Obsahuje všetky základné informácie o súbore. Formát P D F Z ponuky si môžete vybrať medzi viacerými možnosťami: 1. Obrázky plus textová vrstva (Imagesplus text layef) - zobrazí sa prepísaný text a obrázok dokumentu. 2. Iba obrázky (Images onlý) - prepísaný text nebude viditeľný. 3. Dodatočné textové stránky (Extra textpages) - prepísaný text sa pridá ako ďalšia strana po každom obrázku. 4. Zvýrazniť tagy alebo články (Highlight tags/Highlight articles) - zvýraznené údaje sa zobrazia vo farbách používaných na platforme a na konci dokumentu sa vygeneruje legenda vysvetľujúca význam rôznych farieb. 5. Export v PDF/A (Export PDF/A) - na dlhodobé uchovanie. f bftn-vr i- icpmi i 1 •: • :i- • i \ \_ Trr.n^hTihu^ [Wiimrnrl VcuiyniIdLui UlniJJti pl'jr. tt\t liycr Ulmflqminry nľjttrttctr pjgti • Hiytiliyfilliip • Hintilirihľ arHrľi-: I | Export POľ/A ["J'.r.rv^íii:! Iným r i C c b i t U r i j U t " í l « iillďajc • ta U Siinplr TXT [JJ IUÍT. tsípnrt ^hťrtij I IT.gLipQÍIflŮto [TJ U n n u l turf tipaři [~J P.iqr mnflHM.i iniľ> íľfr\ UlniJJti pl'jr. tt\t liycr Ulmflqminry nľjttrttctr pjgti • Hiytiliyfilliip • Hintilirihľ arHrľi-: I | Export POľ/A ["J'.r.rv^íii:! Iným r i C c b i t U r i j U t " í l « iillďajc nmrart*ll Horním linjiipty|:K vj ["J'.r.rv^íii:! Iným r i C c b i t U r i j U t " í l « iillďajc • bijinil M K I E J IÍÍW ftftt (121): . ~| 1-1 •Cwmni flii TngrmmE CľMice Ľtpcrt lU tsgi in doc [ 1 í IIIII:^ ÍMifi n |KiH Obrázok 181 Ponuka pre formát PDF Formát T E I Táto možnosť je určená pre používateľov z komunity konzorcia Text Encoding Initiative (TEI). Formát textových súborov Na výber sú k dispozícii súbory programu Word (docx), kde si môžete vybrať možnosti týkajúce sa zlomov riadkov, skratiek a ďalších alebo sa môžete rozhodnúť pre jednoduchý súbor txt. V tomto prípade môžete vytvoriť súbory triedené podľa tagov, od prvého po posledný, pričom tieto súbory môžu byť pomenované podľa jedného alebo viacerých atribútov tágu. 128 Export podľa tagov Pre export priradených tagov existujú tri možnosti: 1. súbor Excel - vytvorí sa súbor s jednotlivými záložkami pre každú kategóriu tagov a jednou záložkou s prehľadom všetkých tagov, 2. súbor PDF - zvýraznia sa tagy v exportovanom súbore, 3. súbor docx - tagy sú viditeľné v exportovanom súbore. 7.3.2 Ďalšie možnosti Stav verzie (Version status) - táto možnosť umožňuje exportovať jednotlivé (predchádzajúce) verzie dokumentu. Slovná vrstva (WordLayer) - exportuje sa text zo segmentácie slovnej vrstvy. Funguje len vtedy, ak ste počas rozpoznávania textu zvolili možnosť Pridať odhadované súradnice slova (Add estimated word coordinates). Vykonať začiernenie (Do blackening) - táto možnosť funguje len pre súbory Word, PDF a METS. Začiernené citlivé časti prepisu zostanú skryté aj v exportovaných súboroch. Vytvoriť titulnú stranu (Create title page) - titulná strana sa vygeneruje z informácií pridaných na záložkách Dokument (Document) a Metadáta (Metadata). Môžete sem vložiť informácie o názve, autorovi, jazyku a dátume dokumentu. Môžete tiež vytvoriť redakčné vyhlásenie (Editorial declaratiorí) popisujúce postupy pri transkripcii dokumentu. Posledným krokom je výber počtu strán, ktoré chcete exportovať. Môžete exportovať všetky strany, vybrané strany, rozsah alebo len aktuálnu stranu. 129 8 Základy automatickej transkripcie na platforme Transkribus Lite Platforma Transkribus Lite (v súčasnosti prezentovaná pod názvom Transkribus web app) je vo svojej podstate bezplatná webová verzia sofrvéru na automatickú transkripciu rukopisných alebo tlačených dokumentov Transkribus Expert Client. Mnohé z používateľmi obľúbených funkcií v prostredí Transkribus expert klient je možné s drobnými variáciami a istými obmedzeniami nájsť a použiť aj v Transkribus Lite. Aj na webovej platforme Transkribus Lite je teda možné po vytvorení si konta vložiť do systému digitálnu kópiu jedného historického dokumentu alebo niekoľkých rôznych dokumentov), a to v podobe digitálnych snímok (skenov) alebo PDF dokumentu. Na automatický prepis týchto digitálnych kópií je možné použiť sprístupnené špecifické nástroje, tzv. modely rozpoznávania rukopisného textu (HTR Models). Na účel automatickej transkripcie môže byť použitý aj užívateľom vytvorený vlastný, teda špecifický model rozpoznávania rukopisného/tlačeného textu. Okrem získania a uplatnenia modelu na automatický prepis vloženého historického dokumentuje na platforme Transkribus Lite samozrejmosťou aj vyhľadávanie vybraného slova či skupiny slov (slovných spojení) vo vloženom digitalizovanom dokumente (dokumentoch) a jeho automatickej transkripcii. 8.1 Webové umiestnenie a výzor stránky platformy Transkribus Lite Platforma Transkribus Lite je dostupná na webovej stránke https://app.transkribus.eu/ TrorukrihiLi » FN • 30. augusta 2023 bola webová stránka platformy Transkribus Lite prepracovaná, došlo nielen k vizuálnej zmene stránky (zmena tzv. front-endu), ale aj k zmene a doplneniu obsahu a niektorých funkcií. Postupy, ktoré približujeme v nasledujúcich riadkoch, sú vypracované na podklade najnovšej podoby webstránky Transkribus Lite. Poznámka: V priebehu prvej polovice septembra 2023 sme pracovali s verziami 3.0.0.14 až 3.0.0.18. Platforma Transkribus Liteje teda stále vprocese vylepšovania. Vspodnej časti úvodnej obrazovky platformy Transkribus Lite bolo do 30. augusta možné otvoriť si užívateľskú príručku/interaktívny manuál (Getting started with Transkribus Litej. V novej verzii platformy Transkribus Lite (verzia 3.0.1.22) je táto možnosť prístupná cez záložku Help na spodnej lište stránky. Parciálne vysvetlivky sú dostupné vjednotlivých krokoch príprav dokumentov na segObrázok 182 Úvodná stránka Transkribus Lite verzia 2.3.0.8 používaná do 30. augusta 2023 130 mentáciu a automatickú transkripciu - väčšinou v podobe znaku „ i" (= informácia), prípadne sapotiahnutím myši nad ikonou zobrazí vyskakovacie okno s vysvetlením. Úvodná obrazovka platformy Transkribus Lite ponúka užívateľovi vytvoriť si bezplatné konto. Stačí uviesť e-mailovú adresu a vytvoriť si heslo. Novovytvorené konto j e potrebné si aktivovať v automaticky zasielanom e-maili, ktorý sa odosiela na užívateľom uvedenú e-mailovú adresu. Používateľ, ktorý má vytvorené konto na platforme Transkribus Expert Client, sa môže automaticky prihlásiť aj do prostredia Transkribus Lite. READ •C .P o p i ^ J Ä T r í U i i K r t f H U Sign in toyouí account I ^Cgr.'tr Obrázok 183 Stránka platformy Transkribus Lite po vytvorení používateľského konta Po zvolení si užívateľského konta (užívateľ môže mať viac kont, ako je evidentné aj z nášho príkladu) a zadaní hesla (aj s pomocou automatického vkladania hesla webovým prehliadačom) sa užívateľ dostane do pracovného prostredia Transkribus Lite. ^ife ' P ř e m í r u i L u ) » Ur\l 1 Wektunett?Transkribus, Patrickí tJ Rcífnr doíunwľics • K L 1 maii.ti • i i i i i i, • U (MIHÍU ľl^hlKUl _;r, EcdKlae Ridvjnttnh 01 D LDlIíiľCMJľli Obrázok 184 Základné (úvodné) prostredie po prihlásení Na obrázku vyššie už konto platformy Transkribus Lite obsahuje aj jednu užívateľom vloženú zbierku digitalizovaného dokumentu s názvom DA BBD Prothocollum Ecclesiae Radvanensis. 131 Vloženie vlastného dokumentu do zbierky je vysvetlené v kapitole 8.4 Vytvorenie zbierky dokumentov a nahratie dokumentov. 8.2 Registrácia a cena za prístup k službám Transkribus Lite Na platforme Transkribus Lite je vytvorenie konta bezplatné. Bezplatné konto umožňuje na platformu nahrať digitálnu podobu historického dokumentu, vytvoriť jeho textové rozloženie (segmentácia) pre potreby manuálneho alebo automatického prepisu časti alebo aj celého dokumentu. Bezplatná verzia umožňuje použiť už vytvorené a sprístupnené modely automatickej transkripcie, ako aj vytvorenie si vlastného modelu automatického rozpoznávania textu. Za použitie automatického transkripcie modelom HTR používateľ platí tzv. kreditmi, ktoré získava zdarma pri registrácii (v čase tvorby tejto metodickej príručky to bolo 500 kreditov). Kreditmi sa platí za automatickú segmentáciu a transkripciu každej strany dokumentu. Stav kreditov sa priebežne aktualizuje a zobrazuje sa v prehľade užívateľského konta (Credits). 8.3 Z á k l a d n á pracovná plocha Po prihlásení sa do prostredia Transkribus Lite sa zobrazí hlavná plocha pracovného prostredia. Pracovná plocha má viac-menej jednoduchú štruktúru, ktorá umožňuje aj intuitívne oboznámenie sa s funkciami platformy. V pravej hornej časti sa nachádza krátka lišta s možnosťou zobrazenia a zmien pracovného prostredia, ktorá obsahuje tri textové tlačidlá. Tie umožňujú zobraziť základnú plochu so zbierkou/zbierkami dokumentov (Desk), bezplatne sprístupnené modely automatickej transkripcie (Models) a prehľad práve prebiehajúcich úloh (Jobs). Za posledným textovým tlačidlom sa nachádza ikona používateľa konta, ktorá skrýva možnosť zobrazenia kreditov, editovania konta, výber jazyka a odhlásenie sa z konta. " ^ ^ ^ ^ ^ ! i Desk Models Jobs patrik.kjriK® Ů maíl.com n nrm Obrázok 186 Hlavná pracovná plocha po prihlásení s náhľadom na dokument s prameňom, s ktorým užívateľ naposledy pracoval 8.4 Vytvorenie zbierky a nahratie dokumentov Podobne ako na platforme Transkribus Expert Client, aj vo verzii Transkribus Lite si používateľ môže vložiť do pracovného prostredia viaceré súbory digitalizovaných dokumentov, s ktorými môže na platforme ďalej pracovať. Podporované sú digitalizáty vo formátoch JPEG, PNG a PDF v čo najvyššom rozlíšení. Odporúčané rozlíšenie pri obrázkoch je aspoň 300 DPI. Súbory s digitalizovanými dokumentmi sa nahrávajú z pamäte pracovného zariadenia (počítača) kliknutím na tlačidlo Upload Files. Systém automaticky ponúkne možnosť vyhľadať priečinok s digitalizátmi v pracovnom zariadení a jednoducho ho nahrať na platformu. Následne je potrebné súbor digitalizovaných dokumentov s prameňom pomenovať. Ku každej zbierke digitalizovaných dokumentov je potrebné vytvoriť krátky popis, tzv metadáta. Formulár obsahuje riadky s možnosťou zadať názov prameňa, autora a pisára (viacerých pisárov), krátky opis obsahu, datovanie, žáner a jazyk. • 1 H u t u • i i i l ! 1. r. J 133 Mrradaia SarX JUBWT. urtjyjun V . f * ^irofcn [• IHIMH ~nr^. TIUIII Pw ťi*J Kdf «lltk? 1 ŕlh t prímy «rtŕ Tieni llw -sin uajfi j* pnjsta * <** Obrázok 187 Formulár pre vytvorenie metadát k zbierke digitalizovaných prameňov Obsah jednotlivých zbierok digitalizovaných dokumentov je možné otvoriť kliknutím na ich náhľadové okno, či už na základnej pracovnej ploche alebo otvorením záložky Collections. Systém po otvorení zvolenej zbierky digitalizátov ponúkne náhľad na všetky digitalizované jednotky v prehľadnom zobrazení. ^íf TruJiiKribus 1 DA EBD - Pra[..rRarJvar.E?r>sis 27 •* S S Q Q Q Ljggi U K i m G M 9 L i l 1iamMtu»10LO.H nnp Hr»x)FWry IrnpWM Ism 1 tomMtom Obrázok 188 Prehľadné zobrazenie digitalizovaných prameňov vjednom priečinku (v parciálnej zbierke) K otvorenej zbierke vybraného digitalizovaného dokumentuje možné vložiť ďalšie snímky, a to: - pretiahnutím konkrétnej digitalizovanej strany z pracovného zariadenia priamo do okna s jednotlivými digitalizátmi, alebo - vyhľadaním snímky pomocou prehliadania súboru s digitalizátmi v pracovnom zariadení (Browse/Browsing) a j ej vložením pomocou tlačidla Nahrať (Upload). Jednotlivé snímky sa dajú aj odstrániť. Túto možnosť ponúka menu s tromi bodkami v náhľade každej snímky. Okrem toho je v tomto menu možné vytvoriť metadáta pre každú 134 jednotlivú snímku v zbierke digitalizovaného dokumentu (túto funkciu už bližšie nepredstavu­ jeme). Práca s nahrávaním a popisovaním zbierok digitalizovaných dokumentov je pomerne jednoduchá a na jej pochopenie stačia základné znalosti práce so súbormi, ich sťahovaním a popisova­ ním. 8.5 Segmentácia a automatická transkripcia vybraného dokumentu v zbierke Základnou funkciou platforiem Transkribus Expert Client a Transkribus Lite je možnosť automatickej transkripcie do systému vložených rukopisných alebo tlačených digitalizovaných dokumentov. Procesu automatickej transkripcie predchádza dôležitý krok, ktorým je segmentácia textu prameňa (tiež analýza rozloženia textu) v každej jednotlivej snímke do textových rámcov, riadkových rámcov alebo tabuliek. Až po segmentácii textu prameňa j e možné prejsť k automatickej transkripcii na podklade použitia jedného z voľne dostupných modelov rozpoznávania rukopisných/tlačených textov (HTR Models). Po kliknutí na náhľad jednotlivej snímky v zbierke sa zobrazí úvodné okno s tlačidlom na spustenie automatickej segmentácie a transkripcie (Štart automatic transcription). Z nahraného prameňa s názvom DA BBD - Prothocollum Ecclesiae Radvanensis sme vybrali tretiu dvoj stranu, na ktorej demonštrujeme proces segmentácie a automatickej transkripcie. T i w u h r i l b i u • 4lriBl •>-•!ITľTUIH" bÉVTUIrJalS Ľ u í \ Obrázok 189 Vybraný digitalizovaný prameň pred spustením segmentácie a automatickej transkripcie Na obrázku vidieť, že ľavá časť pracovnej plochy ponúka obraz digitalizovaného prameňa (v tomto prípade dvoj stránka), ktorý je možné segmentovat' podobne ako na platforme Transkribus expert klient, ale s použitím iných ikon (ich funkcia sa zobrazí presunutím myši nad ikonu). Na ľavej strane je môžete zvoliť možnosť Pridať riadok (AddLine), pridať textový rámec (AddRegion), pridať v naskenovanej snímke tabuľku (Add Table). Pod týmito pracovnými ikonami sa nachádza ikona sprievodcu (Guide) a ikona s príkazom na zobrazenie vykonanej segmentácie v prehľadnej tabuľke Rozloženie (Layouf). Na pravej strane zobrazovacieho okna s digitalizátom prameňa je ďalších päť ikon, ktoré umožňujú naskenovaný prameň zväčšiť (Zoom in), zmenšiť (Zoom ouť), centrovat' (Center), natiahnuť do všetkých strán zobrazovacieho okna (Fit to width) a otáčať (Rotate). 135 FliMÉJI 'liiir.ihnJ :ii HIM I W » 4 ^ #1 ff af% r-a • ľa Jůd i ™ km pípu * r » V « n r t . - n rl«» on Ih. t»1 ( M l Hp*jpia* LMpotdna p Ne^ttbaaloiam MP-P J J jB-j t^i—•KUlii rnfen I J£MAPIC- ili wncťjfim vůni ^^"l-yrp^flrriffp- 1HD1IT1 B«7ufň wýjniu< Anjmfri i t ť U l řl aaý aaillqay ľaatjailiafliajiiatjfcírirllrtir tUutuMuvquv HtfNbkum. PlFOTUTV Kfr" l*Mtr;rir.m ijf- .ip-n.r^-rirj-i.ií--iim ÍI>> WWIifpWftHtMDrrvvlOpMtn MU tHxt—iwl^^JrM «1 l I I «J j •a< pxwfaj^ itfw LapNsfanMjfli J< taftfl i q n T i m TihMf [j^niHrirm fnT ni É n i l r r EpAPaaDaaaiaHnfeaplnQ ' t J ' *»"MHII •a! r n t q u c D M i k r t ^ i f i n K d P T »4u>ti alm. ps"* A U p!wnv qu##JtAranppnppri Ve* aeup tanaifcKM* eur) Ip**e iftkupiaK PIPPIP- "W^fi^wWipfftfirtnpAi . f*tvlo* Umm Mgauanarpí lalirrlf M K anudŕjiastt. JctaTflne u nsofiarup. T I « J , aaanui Š iwl m i Np^Moam til-.r .1.1 .ir (JrtiřroiP" Kdw* Cjrv* PÍ/HBRHJUITI VumMnrnSacjabltMTumCIri rnurn Btayni crjqjnluL Arunwn tcrua. al aty r* ppor* Hlazenu M^mlanp. pí HpUp_ íŕňnl*i:ij—. rfji iil JIJII*IIT". pí ŕvnlb rrI Ok HnM "*lv.imit«»V" a n w n w p r j i i a i 4 t « g r n ^ 0 a l f 1 » i . m JAAUfJI PftClrtfíB IpW P> Hrtjírrt M M t M l m i DVrarfu^ cum SophvapaunoE tana i qucpurn Pnwipmn i d a M u m an li- n p i l i l tum řntDnewjrn d*tanoIW7. PJCADUI ÉUt*rtfpi|»!i»g«^rtJVtB<"r—ii • pqn* [^iddlopm opu I_ÍIPP WPfjf trtjrnumiK ni mafpsnriiQUp M * m i Auouilana-pi Hphajdcap Obrázok 190 a 191 Detailnejšie vysvetleniejednotlivých možností segmentácie poskytuje sprievodca (Guide) Systém segmentácie ponúka všetky utility ako v prostredí Transkribus expert klient s tým rozdielom, že sa realizujú pomocou kombinovaných klávesových skratiek. Môžete realizovať vlastnú, manuálne upravenú segmentáciu textu, alebo spustiť automatickú segmentáciu vrátane automatickej transkripcie. Túto možnosť vyberte jednoduchým kliknutím na tlačidlo Spustiť automatickú transkripciu (Štart automatic transcriptiori) na pravej strane pracovnej plochy. Po výbere tejto možnosti systém Transkribus Lite v novom okne ponúkne výber z bezplatne sprístupnených modelov vytvorených pre automatický prepis prameňov rôzneho obsahu, jazykov a tiež z rôznych historických epoch (v čase tvorby tohto textu bolo k dispozícii 153 modelov). Pre potreby demonštrácie ďalších pracovných postupov sme vybrali prvý ponúkaný model s názvom The Text Titan I, ktorý má pomerne veľkú mieru presnosti prepisu (indikátor CER je 2,95 %; bližšie o hodnotení kvality modelu v kapitole 5.3.1 Hodnotenie úspešnosti modelu), keďže v čase tvorby tohto textu sa v ponuke modelov nenachádzal žiadny, ktorý by bol vytvorený na prepis latinsky písaných dokumentov z obdobia 18. storočia ako vzorový prameň. 136 M i i m l i i t -VíO 1t fMMxr l*snjii • ! O , " . - M l ' - I H m d H t O H i (K PitntBd Č i ř e n u • . „ . > L . , . , , . . K I »1 Ol! DLH. M í , "Tí 1WT, INCI " d l * W l (Dung « n p m i w T M i . w i P w p p t i t * m « . í i « n p i i « » Í U u n UM I:*MT o n i i » w n u • • M • • • • _ _ _ _ . - —r M É I É É É <; I N " l n i « « i * m i . D i r i . i f c . i n swt. * i •• : .vObrázok 192 Ponuka modelov automatickej transkripcie Po výbere voľby Rozpoznanie textu (Start Recognition) sa začne vykonávať úloha, ktorá je spoplatnená jedným kreditom. Stav konta s kreditmi sa zreteľne zobrazuje pod tlačidlom na vykonanie rozpoznania textu). Trvanie zadanej úlohy je možné sledovať na záložke Úlohy (Jobs) na hlavnej pracovnej ploche užívateľského konta. Po ukončení zadanej úlohy, t. j . po vykonaní automatickej segmentácie a prepisu digitalizovaného textu prameňa, sa zobrazí okno so segmentovaným textom prameňa (vľavo) a s jeho automatickým prepisom na základe vybraného modelu (vpravo). 1 » ! M*l H r c f c * m l K t n L l i M « i V / . . . . „ , „ • CoftipUAUleMAMAfjiif, viH4MH_ninjs vAearilurtfu* ij$rrfemtUenx, N H K id Ain0«m>dini %jer> Cmujn Lb> tcjodunfltaiwinarmm lumUm Stouotrarun Clii c r i r * per irtumflc^im(•:<;_•- .r Ai-jmcr i-crj : , - i Mjfrf4r|J . f n P p j n i Murk^jnjf I t f g j n J J ^ t < n s » M ! n N « M I - : n r . . - M | ^ « p . ď . . - W > • • « * < • • l c « p Ľ m m i l z n i IIHUTI J r | ^ _ m W ^ c r u n MHWIMTI. im. » m n <*•<••UOfl rXÍPCITiJ COKTÍ IrocLtwrd D_erjrVuf\ Tum ScphwM*K*.^ioi Av^j HwhincL in quonjm n v^ŕn/^ d^Hom MIX m iut4n. OsmntltBI Lun FOMmenscum nfclwio o/ubrus UMqvt vpfcMt h rttaji* B»ľJr«r i-jimo* írMoJtl r i \ l « * r i a i * IMJIIV JITBIÍ j h r i l « t i . i p : * * ! A i t ^ n r n '.[.• • [ii«ruiflM Lwidirfrwiiij:.i u ^ i . Iiirrin nwu ďm a d p w n i i i s s r , raroottiH*. j t b t n _nv A t r f u b n s ^ H á , • •. Obrázok 193 Výsledok segmentácie a transkripcie na ilustračnom príklade prameňa Hoci je na prvý pohľad zrejmé, že automatický prepis na základe zvoleného modelu neurobil veľmi presnú transkripciu latinského textu z polovice 18. storočia, približne 75 - 85 % textuje prepísaného správne. Používateľ si môže v takto segmentovanom a automaticky prepísanom dokumente robiť vlastné úpravy/opravy (či už segmentačné alebo transkripčné) a získať tak čo najpresnejší prepis dokumentu. V upravenom prepise (prípadne vo viacerých prepisoch) je napríklad možné vyhľadávať vybrané slovo alebo slová, a to nielen v jednom súbore digitalizo- 137 váného prameňa, ale vo všetkých zbierkach dokumentov. Platforma Transkribus Lite tak ponúka nielen možnosť automatického prepisu, ale aj pridané funkcionality, ktoré uľahčujú ďalšiu prácu s digitalizovanými historickými prameňmi. 8.6 Tvorba vlastného modelu automatickej transkripcie Platforma Transkribus Lite umožňuje vytrénovat' si na podklade digitalizovaného dokumentu vlastný model automatickej transkripcie. Na jeho vytvorenie sa odporúča prepísať aspoň 20 strán z digitalizovaného obsahu, aby sa sofrvér na vytváranie modelov automatického prepisu "naučil" čítať konkrétny typ písma digitalizovaného prameňa. Na účely demonštrácie postupu tvorby modelu sme vybrali jeden z digitalizovaných prameňov v osobnom konte, ale obmedzili sme prípravu cvičného súboru len na prepis dvoch snímok (troch strán textu). Je evidentné, že na základe malého počtu prepísaných strán bude mať vzorový model veľmi vysokú mieru chybovosti znakov (CER). Pre potreby vytrénovania modelu boli vybrané prvé dve snímky z prameňa Prothocollum Ecclesiae Radvanensis, ktorý obsahuje prepisy rôznych cirkevných nariadení a predpisov z 17. a 18. storočia. Rukopisný dokument je písaný v latinskom jazyku, typ písma je možné označiť za typickú barokovú podobu humanistickej kurzívy. Naskenovaný text prvej strany prameňa bol najprv automaticky transkribovaný modelom The Text Titan I, ktorý sa ukázal ako celkom presný. Následne bolo potrebné automatický prepis opraviť do správnej textovej podoby. Takto opravenú verziu sme označili ako Ground Truth. T n u u h r U i t u - - - . M ti' 4 :B M 1 *J"»» pni Wrfttr«"WMlomfcliMdto pmwttn Or ( r H O O W a k LijwcWi (Koni t poli ílli. SHpJw«,frtf t tmm I lúiiiM. PJTT4 ŕr-mť, i*ft U j m u D K Ĺ L *IL 1 U K f v t i l Dur 1. *n. 4. N«m H r 54 *nl ' Ľ U f i i n i i y u m l t I H l M l t n t l M j i lli iuc. M rusi An. r. IM}*n. L 'SW ArUl. i » * 4 n . í M S J ' W . J i i M i l L n l K & í r t M I M * V M * . W M t u i l R f l M I t l T J » « J nw*m ClUfU* t u r * Hilmnrl l#r^i> 1ŮT *« « a . : « W j i i : « » r i c i i i m ;(• 15J4 fcin p V r S-.Í5Í *J1 0 I H7 4J: *7 -5í3 V I n ! ! M ' i n 70 'SííAn !H6?i*.„., if :r.., i i*, JJ" • . _ ! " .!••-: I j g n htíyil I M M i i i p q « J i M Nn&fm]Me[>ny>]dcnj[iindMtw3eii]»4Hjnlr Pc" < r r t s O W 4 l H n ™ V m Bran iji p t f r í w U r v i M ™ L i m i t u / H á n ! 1U1 i t^j í < • * « • : itp^i.Iil*Aíl. 1 UUUfttk Deti I f n l Htm Art U . A r t 1 5 B M Alt a. U K tam Alt V 1 ( EMA Air I* 14. IL 16 UW.Arc. í U i i A i t 7 1 1 » A n : 7. liS*. Art 21. liSfc A l t 1 0 . 1 » ? A r t 11.1 IM. Aiť J Z 1W*. Art M U J Í í i l i í 1ÍJÍ ( „ l u i . l M j í t o i j r a í l ^ k i U u m Urijun .frfu p n . 1 i . C r C w M h k r u )*ipM«» » V * c r n K :•> pajcM C<*Tm U m I u i ] « i i l*0«hr Ilutvl 1ŮT P»mt 1. taffl L * i . S- Srep>nft O p i g l A W * l v r 41 ä 4 í AmU MÁ h m Arr 25.1S12. An 22 H U Alt 3 i H M AJCS m P . A n . 2 r . 1 I A l Art 23.15ŮF. Art K. l b l l . ATC 31 'i-JS Art 1». I721 Cj4n#e it«\jin S p i y u r t t l « e r p M M Anr^ ! « J Alt liiililUrtltiJfcHjf rrs»r.,i.«íi» IMI 2 > Obrázok 195 Textprvej strany vybraného prameňa po textovej úprave a uložení prepisu ako Ground Truth verzie Rovnakým spôsobom bola realizovaná automatická transkripcia druhej snímky vybraného prameňa, ktorá obsahovala dve strany textu a viac ako 500 slov. Oba tieto automaticky transkribované a textovo upravené pramene boli uložené do nového súboru s názvom DA BBD - Prothocollum Ecclesiae Radvanensis 01 v zbierke prameňov. £ät TrpjiiKribiu »— r,**** DABED - Pfoi\..e Hariva ne ns is CO I...'. : ÚL- Pr«iiDcul*/*it e d t l U r Obrázok 196 Pracovná plocha po výbere zvoleného výberu z prameňa Po výbere súboru dvoch segmentovaných a prepísaných snímok je možné pristúpiť k trénovaniu modelu použitím tlačidla Trénovať model (Train Model). Postup vytvárania nového modelu pozostáva zo štyroch krokov, ktoré sa zobrazujú v štyroch postupne otváraných oknách:. 1. zobrazí sa informácia, že na vytvorenie modelu bude slúžiť vybraný cvičný súbor dát (Training Data) s rozsahom dve snímky a s celkovým počtom 958 slov. 139 Obrázok 197 Náhľad na prvý krokpri tvorbe vlastného modelu 2. ďalšie okno umožňuje užívateľovi vybrať overovacie dáta (Validation Data), teda časť textu z prameňa, na ktorom bude odskúšaná úspešnosť automatického prepisu trénovaného modelu. V prípade vzorového modelu bol ponechaný navrhovaný postup výberu 10 % z cvičného súboru (teda necelých sto slov). Tffxl Mpľogni?iľ>r Mľiľif I -®- -o O I u.i-l.-r > Obrázok 198 Náhľad na druhý krokpri tvorbe vlastného modelu 3. v tejto fáze j e možné pomenovať trénovaný model a upraviť niektoré metadáta pomocou funkcie Nastavenia modelu (Model Setup). 140 Text RctrogniŕLiofi Model -0 O ťfJniMí Vii1wt.il>Jl.i V i w y i ' i SimrUiy.lUrl . í r M ľ f . ľ i T 1 d w N f í i M4>:l4d. 9?d*cnH Obrázok 199 Náhľad na tretí krokpri tvorbe vlastného modelu Te*T. Rctagnulan Model o e © o Mitra uodfUľ UCÍMMI. HiH^inj-i ^.jóo^ IBttic u™ O *^r^Tľ5^ Myŕnj ModťtÍĎ* L m IKO. UTttd ' Proemoitjni ÉKIHÍM Rjdvmcnsif*, Obrázok 200 Náhľad na vyplnený formulár v treťom kroku vytvárania vlastného modelu 4. systém ponúkne zhrnutie vložených informácií a možnosť spustenia trénovania vlastného modelu. Vzorový model sme nazvali My First Model for Latin text, Hungarian Kingdom, 18th c.. Keďže jazykové prostredie platformy Transkribus Lite je v angličtine, rozhodli sme sa používať anglický jazyk. 141 Tc*t Ri-Lo;]-ii:n:r- Model Osa Viílrťjurvi Culj Mo*< Efltjf E •• • v> ItaHrl wvirhirlPM^pljtHi^yaii-trjIn^Jpbhiiw Trdming Ddlj 1 Mt}n vjliflaucr SrUlOHar utlndju, 1 Jlěpti M, (i/ih]ir .ť•J V !M U M Obrázok 201 a 202 Pracovná plocha so štvrtým krokom trénovania modelu Po kliknutí na tlačidlo Spustiť (Start) začne systém trénovať zadefinovaný model automatickej transkripcie. Vzorový model sa trénoval v 100 cykloch a trvalo to niekoľko desiatok minút. Používateľ si môže počet cyklov zvoliť sám, odporúčaných je minimálne 50 cyklov. Riešenie tejto úlohy je možné sledovať na hlavnej pracovnej ploche konta pod záložkou Úlohy (Jobs). Po ukončení trénovania modelu bol vytvorený vzorový model zaradený na novovytvorenú záložku Modely (Models), v rámci nej do podzáložky Dashboard (horná zelená lište vľavo). Softvér vytvoril pre nový model „identifikačnú kartu" s vlastným identifikačným číslom (ID modelu). Karta obsahuje základné informácie o modeli vrátane údajov o miere chybovosti v prepise znakov (CER). Vzorový model dosiahol hodnotu CER až 82,2 %, čo je veľmi vysoká miera chybovosti, ale vzhľadom na to, že bol trénovaný len na základe prepisu troch strán z vybraného prameňa, takýto výsledok sa dal očakávať. „Identifikačná karta" modelu obsahuje v jej spodnej časti aj možnosť graficky zobraziť priebeh vytvárania modelu (Show Description). 142 ^jiSlf T r a j i j k r i j b i i J • D-l fli M*Mt »fe Wpirnmp tg ynur Ai Traifilrio, DF^hlMArri! My Vodels + O*s(npt>or> M i W w Lfy 1 inJ MucM li.i 1 iim Lmr hupqjiun MKJCtít*. 1-Bh t. h** kp *rtjHH14kU (Cm I>T M S • -".>->• - ••. . Obrázok 203 Grafické zobrazenie priebehu trénovania modelu na „ identifikačnej karte " vzorového modelu Platforma Transkribus Lite umožňuje vytvárať aj ďalšie nové modely, a to použitím tlačidla Trénovať nový model (Train New Model) (pozri obrázok č. 202, textové tlačidlo v pravom hornom rohu pracovnej plochy). Rovnako ako v prostredí Transkribus expert klienta aj vo webovom rozhraní Transkribus Lite je možné zvýšiť úspešnosť automatickej transkripcie vo vytvorenom modeli pridaním väčšieho počtu prepísaného textu prameňa do cvičného súboru (odporúčaný počet je aspoň 20 strán). Vlastné modely automatickej transkripcie, ale aj tie bezplatne sprístupnené, je možné zobraziť a prehliadať si ich „identifikačné karty" na záložke Galéria (Gallery). Predpokladáme, že verejne prístupných modelov bude na platforme Transkribus Lite časom pribúdať a užívateľ si medzi nimi nájde taký, ktorý mu umožní získať automatický prepis prameňa s minimálnou chybovosťou. 143 9 Slovník pojmov Archívne fondy a zbierky. Historické rukopisné, prípadne strojopisné dokumenty na transkripciu sa nachádzajú prevažne v archívoch. Historické tlačené dokumenty sa nachádzajú najmä v knižniciach, ale aj u iných právnických alebo fyzických osôb. Na usporiadanie archívnych fondov sa u nás používa Klasifikačná schéma archívnych fondov a zbierok štátnych archívov na Slovensku. Na najvyššej úrovni majú archívy spravidla svoje zoznamy archívnych fondov a zbierok. Tieto zoznamy obsahujú všeobecné atribúty fondu a zbierky: názov archívneho fondu/zbierky, časové rozpätie, rozsah veľkosti archívneho fondu/zbierky v bežných metroch, prístupnosť a typ archívnej pomôcky. Výber konkrétnych dokumentov na transkripciu a výskum záleží na erudícii výskumníka, pretože rozsah a hĺbka spracovania fondov a zbierok sú rôzne. Canvas (plátno; názov pre menu úprav v Transkribus expert klientovi). Spustenie segmentácie (automatickej analýzy) rozloženia stránky a textu neposkytuje vždy vyhovujúce výsledky. Niekedy sú preto potrebné manuálne korekcie rozloženia. V ponuke Canvas, ktorá sa nachádza spravidla na ľavej strane stránky dokumentu, sa nachádzajú potrebné voľby ako ohraničiť textové rámce (Text Regions, TR), pridať riadok (Lines, Ľ), pridať základnú čiaru (Base Line, BĽ), pridať slovo (Word, W), pridávanie rôznych častí (tabuľky, reklamy, schémy, grafy, grafiky atd'.). V ponuke Canvas je tiež možné zmeniť existujúce tvary. C E R (Character Error Rate). Miera chybovosti znakov porovnáva pre danú stranu celkový počet znakov (n) vrátane medzier s minimálnym počtom vložení (i), nahradenia (s) a vymazania (d) znakov, ktoré sú potrebné na získanie výsledku Ground Truth. Ide teda o chyby v porovnaní s presným, referenčným textom. Vzorec na výpočet CER: CER = [(i + s + d)/n]*100. Každá malá chyba v prepise je štatisticky plnohodnotná chyba. To znamená, že každá chýbajúca čiarka, „u" namiesto „v", dodatočná medzera alebo dokonca veľké písmeno namiesto malého písmena sú zahrnuté v CER ako chyba. Považuje sa za potvrdené a overené konštatovanie, že: a) ak je hodnota chybovosti znakov CER nižšia ako 10 %, čo je 10 a menej chýb na sto znakov, tak výsledok transkripcie je dobrý, čitateľný, a ak je to účelné, je možné ďalšie editovanie výstupu; b) ak je chybovosť znakov CER < 5 %, tak výsledok transkripcie je veľmi dobrý; c) ak je chybovosť znakov CER pod 3 %, potom j e možné považovať výsledky transkripcie za výborné a chybovosť znakov CER pod 2,5 % za excelentné. Cvičný súbor (Training Set) pozostáva zo strán, na ktorých sa model trénuje. Na cvičnom súbore sa stroj „učí", pri každom cykle „prečíta" rovnakú stranu, pričom chybne prečítané znaky pri každom nasledujúcom cykle vyradí. DocScan. Open source aplikácia pre Android navrhnutá pre ScanTent. Identifikuje strany dokumentu v živom náhľade a robí snímky v dostatočnej kvalite na transkripciu. V automatickom režime nasníma obrázok po otočení stránky. Umožňuje rýchlo snímať knihy alebo dokumenty bez interakcie s mobilom. Obrazovku smartfónu je možné zdieľať na obrazovke počítača a vzdialene ovládať smartfón napríklad cez TeamViever. Vďaka spoločnosti ifunplay a aplikácii DocScan možno teraz ScanTent používať aj s operačným systémom iOS v iPhonoch. Držiak na vrchnej časti zariadenia ScanTent umožňuje umiestnenie smartfónu, optimálny pozorovací uhol a konštantnú vzdialenosť. Ak denné svetlo nestačí, biele LED pásiky poskytujú rovnomerné osvetlenie, ktoré maximalizuje kvalitu obrazu. Dokument (Document). V štruktúre systému Transkribus expert klient je dokument zvyčajne zaradený do zbierky. Dokument môže byť presunutý do inej existujúcej zbierky. Základné metadáta k dokumentu sú: jedinečný číselný identifikátor, názov dokumentu, meno osoby, ktorá nahrala dokument do zbierky v Transkribe, dátum a čas nahratia do zbierky, meno zbierky, do 144 ktorej dokument patrí. Dokument je možné zobraziť vo forme Prehľad (Overview) s jednotlivými stranami a grafickým rozlíšením stavu stránky (napr. Ground Truth, In progress, Done, Finaľ). Vo forme Rozloženie (Layouf) sú viditeľné texty transkripcie strán, riadky textu, poradie čítania riadkov strojom, identifikátor riadka a koordináty umiestnenia elementov v riadku. Export. Ak chceme pracovať s obrázkami a prepismi mimo Transkribu, môžeme svoje dokumenty exportovať do bežnejších formátov, ako sú docx, PDF, xls, PageXML, TEI-XML alebo txt. Možnosti zahŕňajú export celých strán, obrázkov, textu alebo štrukturálnych prvkov. Exportovať je možné do adresára na lokálnom počítači alebo exportovať na server Transkribus, z ktorého príde oznámenie po skončení exportu. Formát J P G , J P E G . Najrozšírenejší je formát, ktorý sa vyskytuje s príponou jpg, jpeg. V tomto formáte ukladajú súbory všetky fotoaparáty aj mobilné zariadenia, ak používame napríklad DocScan. V niektorých aparátoch je možné voliť jeden formát alebo snímanie v dvoch formátoch JPG a RAW (ARW). Výhodou formátu JPG je, že sa obrázok dá zobraziť prakticky v každom zariadení - v mobilnom telefóne, televízore alebo vo webovom prehliadači. Zaberá málo miesta na disku, je úsporný, pretože ide o kompresiu so stratou. Nevýhodou tohto formátu je, že každou úpravou obrázok stráca kvalitu pri každom uložení. V projektoch transkripcie používame na snímanie mobilnými zariadeniami formát JPG na archivovanie a v transkripcii spravidla pracujeme s derivovaným formátom PDF. Formát P N G . Skratka v preklade znamená prenosná sieťová grafika (Portable 'Network Graphics), čiže ide o bezstratový kompresný formát pre obrázky a fotografie využívaný najmä na internete. Formát R A W znamená, že nasnímaný súbor je „surový", nespracovaný a dáta nie sú komprimované. Dáta v tomto formáte sú veľmi veľké a na ich spracovanie je potrebný špeciálny sofrvér, napríklad komerčný Zoner Photo Studio alebo open source FastStone Image Viewer. Výsledné obrázky majú vysokú kvalitu a po úprave sú vhodné na kvalitné editovanie. Formát TIFF. Vyskytuje sa s príponami .tiff, tif Pri ukladaní do tohto formátu spravidla nedochádza ku kompresii dát. Ak áno, tak ide o bezstratovú kompresiu aj pri opakovanom ukladaní. Súbor zachováva maximum informácií z formátu RAW pri editácii. Nevýhodou je veľkosť súborov vo formátoch TIFF. V profesionálnych projektoch digitalizácie je formát TIFF najvhodnejší na dlhodobé archivovanie. Formáty obrázkov. Snímky je možné tvoriť, ukladať a upravovať v rôznych formátoch. Najčastejšie ide o súbory vo formátoch RAW a JPG. Z hľadiska úprav fotografií je dôležitý formát TIFF. Gotické písmo malo niekoľko druhov. Napríklad francúzska textúra s veľmi ostrým lomom a štíhlou stavbou, talianska širšia a okrúhlejšia rotunda s miernejším lomením oblúkov, zmiešané písmo - bastarda, v Nemecku švabach - písmo širších, oválnějších tvarov a fraktúra písmo užších a špicatejších tvarov s ozdobnými úponkami. Vynálezom kníhtlače (v roku 1450 Johannom Gutenbergom) sa tento druh písma veľmi rozšíril najmä v krajinách hovoriacich po nemecky. Ground Truth (základná pravda) je vzorka manuálne prepísaných a dôsledne skontrolovaných a korigovaných strán dokumentu používaná pri trénovaní modelu automatickej transkripcie. H T R + a PyLaia. Sofrvér HTR+ spoločnosti Transkribus zatiaľ nemôže okamžite spustiť spoľahlivý automatický prepis, ale najprv musí byť vyškolený na konkrétny typ písma a rukopisu. HTR+ vyvinutý tímom CITlab na Univerzite v Rostocku bol do konca roka 2022 aj vo výskume Skriptor používaný ako hlavný stroj na rozpoznávanie rukopisného textu. Transkripčný me- 145 chanizmus je založený na TensorFlow. Namiesto HTR+je v súčasnosti v Transkribe dostupný nástroj PyLaia. Import dokumentov (Upload). Po vytvorení zbierky v Transkribe je potrebné nahrať dokumenty. Potom je možné spustiť nástroje, ako sú analýza rozloženia (segmentácia) alebo rozpoznávanie textu (transkripcia). Údaje v Transkribe sú vždy súkromné a prístupné iba jednotlivým používateľom. Vlastník zbierky (Owner) môže umožniť prácu aj iným používateľom (Users) s oprávneniami, ktoré im pridelí (Owner, Editor, Transcriber, Reader). ISAD(G) (GeneralInternational StandardArchival Descriptiori). Medzinárodný štandard, ktorý definuje zoznam prvkov a pravidiel na popis archívov a popisuje druhy informácií, ktoré musia a mali by byť zahrnuté v takýchto opisoch. Vytvára hierarchiu popisu, ktorá určuje, aké informácie by mali byť zahrnuté na akej úrovni. V súvislosti s výskumom a experimentmi s transkripciou archívnych dokumentov považujeme za vhodné, aby boli transkribované fondy, zbierky a dokumenty popísané na štandardnej úrovni. Tento štandard poskytuje rámec pre spoločný prístup a nie rigidný formát. Model. V platforme Transkribus je model entita, ktorá je výsledkom použitia softvéru strojového učenia a umelej inteligencie a hlbokých neurónových sietí na rozpoznávanie historických rukopisných a tlačených textov. Platforma Transkribus umožňuje používateľom trénovať model rozpoznávania textu rukou (HTR+, PyLaia) na automatické spracovanie zbierky dokumentov. Model je potrebné trénovať tak, aby rozpoznal určitý štýl písania zobrazovaním obrázkov dokumentov a umožnil ich presný prepis. Podľa typu textu môžu používatelia na transkripciu použiť verejne dostupný model alebo vytvoriť vlastný model, prípadne trénovať vlastný model s použitím základného modelu. O C R (Optical Character Recognition). Optické rozpoznávanie znakov alebo optická čítačka znakov je elektronická alebo mechanická konverzia obrázkov ručne písaného alebo vytlačeného textu na strojovo kódovaný text či už z naskenovaného dokumentu alebo fotografie. Overovací súbor (Validation Set) pozostáva zo strán dokumentu, na ktorých sa presnosť vytrénovaného modelu automaticky overí (odskúša). V porovnaní s cvičným súborom je preto menší, spravidla 10 % z celkovej vzorky Ground Truth. Na druhej strane overovací súbor by mal byť reprezentatívny, t. j. mal by obsiahnuť príklady všetkých písmen, jazykov a iných atribútov zahrnutých v cvičnom súbore. V opačnom prípade, čiže ak je overovací súbor príliš homogénny, výkon modelu môže byť nízky, prípadne skreslený. Polygóny (Polygons). Historické dokumenty majú niekedy zložité usporiadanie a pozostávajú z rôznych rozložení, čo môže viesť k problémom s poradím čítania prvkov textu. Pri komplikovaných rozloženiach si rýchlo všimneme, že ručne nakreslené textové oblasti sa môžu prekrývať. Tento problém sa dá ľahko vyriešiť úpravou pravouhlých oblastí textu, pridaním bodov a tým vytvorením polygónov. Poradie čítania. V systéme Transkribus expert klient poradie čítania zobrazuje na segmentovanej stránke to poradie, v ktorom bude stroj transkripcie čítať riadky textu na obrázku stránky. Toto poradie čítania sa vytvára automaticky počas segmentácie, ale možno ho neskôr zmeniť aj manuálne. Pri automatickej analýze rozloženia je poradie čítania určené súradnicami riadkov na obrázku: horný riadok, ktorý je najviac vľavo, je číslo jedna atď. Dôležité je vedieť, že poradie čítania nieje relevantné pre samotné trénovanie, ale môže sťažovať čítanie transkribovanej strany. Ak sa má prepis exportovať a ďalej použiť na vydanie, tak poradie čítania je potrebné zadať správnym spôsobom, aby bol text v správnom poradí. Dá sa to jednoducho urobiť zapnutím poradia čítania ikonkou Viditeľnosť tvaru (Shape visibility). Vo všetkých riadkoch sa tak zobrazí krúžok s číslom, ktoré označuje ich polohu na stránke dokumentu. Kliknutím na tieto 146 krúžky sa otvorí okno s textovým editorom, kde je možné priradiť nové, správne čísla. Táto funkcia je užitočná najmä v dokumentoch s náročným rozložením, kde sa poradie riadkov neriadi bežnými pravidlami. Presnosť modelu. Presnosť modelu je možné merať na konkrétnych stránkach z cvičných a overovacích súborov pomocou funkcie Porovnať (Compare...) na záložke Nástroje (Tools). Na tento účel je najprv potrebné generovať automatický prepis. Na porovnanie textových verzií sú potrebné dva transkribované súbory: referencia (Reference) - správny text a hypotéza (automaticky transkribovaný text). Ako referencia sa vyberie verzia stránky, ktorá bola správne prepísaná, teda „základná pravda" (Ground Truth), čo je manuálny prepis čo najbližšie k pôvodnému textu. Na získanie najvýznamnejšej hodnoty by bolo najlepšie použiť stránky zo vzorového súboru, ktoré neboli použité v tréningu, a preto sú pre model nové. Použitie stránok z overovacieho súboru je tiež možnosťou, aj keď nie ideálnou. Použitie stránok z cvičného súboru nie je vhodné, pretože to prinesie nižšie hodnoty CER, ako v skutočnosti sú. Ako hypotézu vyberieme verziu, ktorá bola automaticky vygenerovaná pomocou vytrénovaného modelu, a na ktorej chceme vidieť, aký dobrý je výsledok. Princípy popisu ISAD(G) sa riadia štyrmi všeobecnými zásadami: 1) Opis od všeobecného po konkrétny - viacúrovňový opis sa začína od všeobecnej úrovne opisu, ktorá je zvyčajne fondmi, a pokračuje do podrobnejších úrovní, ako sú podfondy, séria, súbor, položka atď. Táto hierarchická štruktúra musí byť reprezentovaná a správne definovaná v archívnom opise. 2) Informácie relevantné pre úroveň opisu - informácie na každej úrovni opisu sa musia týkať len archívnej jednotky opísanej na tejto úrovni. 3) Prepojenie popisov - každá archívna jednotka musí byť prepojená so svojou nadradenou úrovňou v rámci hierarchie a jej úroveň musí byť explicitná. 4) Neopakovanie informácií - aby sa zabránilo opakovaniu, všeobecné informácie spoločné pre skupinu sa musia deklarovať na najvyššej možnej úrovni. Podúrovně musia zase obsahovať spoločné informácie, ktoré sa vzťahujú na j ej nižšie úrovne. PyLaia. Nástroj na rozpoznávanie rukopisného textu, ktorý umožňuje používateľovi nastaviť si jednotlivé parametre transkripcie. Zmeniť sa dá aj sieťová štruktúra PyLaia, čo je príležitosť pre ľudí, ktorí poznajú strojové učenie. Úpravy neurónovej siete je možné vykonať prostredníctvom úložiska GitHub. Dokumenty, ktoré boli transkribované pomocou modelu PyLaia, je možné prehľadávať pomocou plnotextového vyhľadávania (Solr) v Transkribe. R E A D (Recognition andEnrichment ofArchivalDocuments). Projekt, ktorého riešenie prebiehalo v rokoch 2016 - 2019 v rámci programu Horizon2020. Výskum bol predtým financovaný ako súčasť projektu tranScriptorium. Tento projekt získal finančné prostriedky zo 7. rámcového programu Európskej únie pre výskum, technologický rozvoj podľa dohody o grante č. 600707. Viac o projekte https://cordis.europa.eu/project/id/674943 Read&search. Platforma Transkribu, ktorá sprístupňuje dokumenty zo zbierky vytvorenej v platforme Transkribus expert klient online formou. Webové rozhranie bohaté na funkcie je ideálne na sprístupnenie historických dokumentov a vyhľadávanie na webe. R E A D - C O O P . Združenie na udržateľnosť a vývoj platformy Transkribus. V októbri 2022 malo združenie 113 členov z 27 krajín. Jedinou členskou krajinou zo strednej a východnej Európy bolo v tom čase Slovensko. V READ-COOP sa kupujú kredity. Nejde o zisk združenia, ale o príjem, ktorý sa používa na výskum, vývoj a infrastrukturu platformy. Riadkové rámce (Line Regions, LR). Oblasti, ktoré sa nachádzajú v textových rámcoch a možno ich opísať ako mnohouholníky, v ktorých je všetok ručne písaný/tlačený text v riadku. Keďže nemajú pre proces transkripcie bezprostredný význam, riadkové rámce by sa nemali opravovať. Ak sa niečo má zmeniť v rozložení riadkov dokumentu, vždy to treba urobiť na úrovni základ- 147 nej čiary (Baseline). Základná čiara by mala prebiehať pozdĺž spodnej časti textového riadku, písmená by na nej mali sedieť a zostupne smerovať nižšie. Riadkové rámce sa prispôsobia automaticky, keď niečo zmeníte na základnej úrovni. Zobrazí sa vyskakovacie okno s otázkou, či chcete zmeniť aj nadradený riadok, čo treba potvrdiť. Segmentácia (Segmentation). Uplatnenie metódy analýzy obrazu a textovej analýzy, pričom výsledkom tejto analýzy je určenie členenia stránky textu na časti stránky - analýzou sa vyznačujú hlavne bloky textu, horizontálne členenie textu, podstatné, prípadne okrajové, nadbytočné časti obrazu, riadky a základné čiary. Jednotlivé nahráte dokumenty v zbierke majú v nástroji Transkribus expert klient formu obrázkov, ktoré vznikli v procese snímania (skenovania). Sú to snímky stránok dokumentov nahratých do platformy Transkribus napríklad vo formáte PDF, JPG, PNG, TIFF. Snímky je potrebné segmentovat', identifikovať jednotlivé prvky obrázkov. Na účely transkripcie dokumentuje najprv potrebné obrázok rozdeliť na textové rámce a riadky (Text Regions a Lines). Segmentáciu je možné vykonať niekoľkými kliknutiami a vo väčšine prípadov si úkon nevyžaduje manuálne opravy. To závisí od zložitosti štruktúry vstupného dokumentu. V Transkribus web app (Transkribus Lite) sa segmentácia spustí automaticky, keď sa spustí úloha rozpoznávania textu. Automatická pokročilá analýza rozloženia CITlab vo svojom štandardnom nastavení zvyčajne rozpozná jeden textový rámec na obrázku so zodpovedajúcimi základnými čiarami. Existujú však aj rozloženia, pri ktorých sa odporúča použitie viacerých textových rámcov. Ide o situácie, keď existujú poznámky na okraji alebo poznámky pod čiarou a podobné opakujúce sa prvky. Pokiaľ sú tieto textové oblasti, ktoré sa líšia obsahom a štruktúrou, obsiahnuté v jednej textovej oblasti, analýza rozloženia jednoducho počíta riadky zhora nadol. Toto poradie čítania nezohľadňuje, kam text skutočne patrí z hľadiska obsahu, ale len to, kde sa na stránke graficky nachádza. Oprava automaticky vygenerovaného, ale neuspokojivého poradia čítania môže byť časovo náročná. Problému možno ľahko predísť vytvorením niekoľkých textových rámcov (TR). S K R I P T O R . Projekt APVV-19-NEWPROJECT-17816 (2020 - 2024). Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov (Innovative disclosure of written heritage of Slovakia through the automatic transcription of historical manuscripts). Riešiteľské organizácie: Univerzita Mateja Bela v Banskej Bystrici (zodpovedný riešiteľ doc. Imrich Nagy, PhD.), Štátna vedecká knižnica v Banskej Bystrici - partner (garant prof. PhDr. Dušan Katuščák, PhD.). Snímanie je jeden z procesov digitalizácie. Vykonáva sa pomocou vhodného technického zariadenia na digitalizáciu, akými sú zariadenia na zachytenie digitálneho obrazu (digitálne fotoaparáty a kamery, skenery na knihy, dokumenty alebo mikrofilmy, audio- a videohardvér) pripojené na vhodnú počítačovú platformu. Je možné rozlíšiť dve rôzne metódy snímania: skenovanie a fotografovanie, používanie digitálnych kamier/fotoaparátov, mobilných telefónov. Na účely automatickej transkripcie, pokiaľ je to možné, použijeme dokumenty nasnímané profesionálnymi skenermi a obrazmi v najvyššej dosiahnuteľnej kvalite. Minimálna kvalita skenovania by mala byť 300 DPI. Nakoľko pri historických rukopisoch ide de facto o grafiku, je vhodné skenovať vo vyššej kvalite. Pre platformu Transkribus je možné snímať dokumenty do formátu veľkosti A3 zariadením ScanTent so softvérom DocScan. Stav dokumentu. Rôzne stavy spracovania strany: New (nový - stav pre novonahraté dokumenty), In Progress (prebiehajúci - automatická zmena stavu po úprave strany), Done (hotový - stránka je prepísaná, ale vyžaduje ešte ďalšiu kontrolu), Final (finálna verzia - stránka prepísaná a skontrolovaná), Ground Truth (základná pravda - 100 % správne prepísaná strana). Znamená to, že sa zaznamenáva práca s každou jednotlivou stranou a verzii strany sa môžu priradiť rôzne stavy v závislosti od toho, aký pokrok sa na nich dosiahol. 148 Štrukturálne metadáta (tagy) (Structural metadata - tags). V štruktúre systému Transkribus expert klient je možné pomocou funkcie štrukturálneho značkovania vo funkcionalitě metadáta označiť, „značkovat"' (Mark-up) prvky štruktúry dokumentov. Okrem toho je možné trénovať modely tak, aby automaticky rozpoznali štruktúru dokumentov. Pridaním tagov, teda štrukturálnych značiek sa vytvoria cvičné dáta pre tento proces. Nieje potrebné označovať každý prvok dokumentu, stačí sa zamerať na označenie sekcií, ktoré nás zaujímajú. Rozhranie štrukturálneho označovania v Transkribe umožňuje rozdeliť dokumenty do štruktúrnych sekcií, ako sú odseky, nadpisy alebo čísla strán, pridať prispôsobené kategórie značiek pre vaše individuálne potreby a v budúcnosti použiť tieto štrukturálne informácie na trénovanie modelu. Tabuľky. Tlačené a ručne kreslené tabuľky sú bežné v historických dokumentoch všetkých typov. V súčasnosti sa tabuľky musia v Transkribe kresliť ručne pomocou editora tabuliek. Technológia, ktorá umožní automatické rozpoznávanie tabuliek, je vo vývoji. Momentálne ide v práci s tabuľkami o poloautomatický proces. Na účely transkripcie je najprv potrebné manuálne vytvorenie štruktúry tabuľky v Transkribe a prepis textu, ktorý tabuľka obsahuje. Ak majú tabuľky v dokumente rovnakú štruktúru na viacerých stranách, je možné schému pripravenej štruktúry tabuľky použiť na dávkové rozpoznanie ďalších strán s tabuľkami. Ak teda majú viaceré strany rovnakú štruktúru tabuľky alebo šablónu tabuľky, pripraví sa manuálne tabuľka len pri prvom výskyte tabuľky a potom sa distribuuje na ďalšie strany pomocou súpravy nástrojov nomacs. Na transkripciu tabuliek sa najprv vytvoria textové rámce (Text Region) pre všetky informácie, ktoré nepatria do tabuľky. Týka sa to informácií v hornej časti, spodnej časti alebo po stranách stránky, ktoré zjavne nie sú súčasťou tabuľky ako napríklad: čísla strán, čísla riadkov, termíny, akékoľvek iné označenia alebo anotácie. Následne sa vytvoria textové rámce pre jednotlivé bunky tabuľky, horizontálne a vertikálne čiary a koriguje sa text v bunkách tabuľky na strane. Grafickú schému tabuľky, ohraničenie tabuľky a buniek je možné použiť na ďalšie rovnaké strany s tabuľkami. Bunky sa ohraničujú pomocou nástroja Ohraničovanie buniek (Cell borders). Textový rámec (Text region, TR). Ak chceme vygenerovať automatický prepis pomocou platformy Transkribus, musíme dokumenty rozdeliť na textové rámce, v nich vymedziť riadkové rámce a základné čiary. V predvolenom nastavení je oblasť textu obdĺžnik, ktorý obklopuje všetok ručne písaný text obsiahnutý v obrázku. Je však možné upraviť textový rámec podľa všeobecného rozloženia pridaním kontrolných bodov, čím sa vytvorí polygón. Transkribus expert klient (Transkribus Expert Client). Samostatná profesionálna verzia Transkribu s plným výkonom platformy Transkribus. Posledná verzia je verzia 1.26.0 z 5. júna 2023. V súčasnosti sa vývojový tím aplikácie sústreďuje výlučne na zdokonaľovanie a ďalší vývoj webového rozhrania Transkribus web app (Transkribus Lite). Transkribus web app (Transkribus Lite). Online verzia aplikácie pre platformu Transkribus k 18. októbru 2023 vo verzii 3.0.1.26. Automaticky transkribuje a umožňuje pohodlnú úpravu historických dokumentov. V súčasnosti už má aplikovanú väčšinu funkcionalit Transkribus expert klienta. V Transkribus web app je teda možné realizovať všetky fázy potrebné na automatickú transkripciu: import dokumentu, segmentáciu, trénovanie modelu, automatickú transkripciu a export transkripcie vo zvolenom formáte. Transkribus. Komplexná platforma na digitalizáciu, na rozpoznávanie textu podporované umelou inteligenciou, ako aj na prepis a vyhľadávanie historických dokumentov - z akéhokoľvek miesta, kedykoľvek a v akomkoľvek jazyku. Platforma integruje nástroje vyvinuté výskumnými skupinami v celej Európe vrátane skupiny na rozpoznávanie vzorov a technológie ľudského jazyka Technickej univerzity vo Valencii a skupiny CITlab University Rostock. V októbri 2023 mal Transkribus viac ako 100 000 registrovaných používateľov a viac ako 40 miliónov rozpo- 149 znaných strán. Platforma bola vytvorená v kontexte dvoch projektov EÚ tranScriptorium (2013 - 2015) aREAD (2016 - 2019). Transkripcia (prepis). Na platforme Transkribus sa používa termín transkripcia vo význame prepisu rukopisného alebo tlačeného historického textu v určitom jazyku a automatický prepis textu v tom istom jazyku. Napríklad rukopis v maďarčine sa prepisuje pomocou znakovej sady tlačenej latinky. Nejde teda o prepis medzi jazykmi, ale o prepis v rámci jedného jazyka. Transliterácia. Ortograficky vernému prepisu zodpovedá označenie transliterácia. Na platforme Transkribus sa pre všetky druhy prepisu konvenčné používa pojem transkripcia. Trénovanie modelu. Pomocou nástroja Transkribus expert klient je možné trénovať model rozpoznávania rukopisného textu, aby bolo možné automaticky transkribovať zbierky dokumentov. Model je výsledkom trénovania, preto je pri jeho tvorbe potrebné trénovať tak, aby stroj rozpoznal určitý štýl písania v zobrazovaných obrázkoch dokumentov a poskytol ich viac-menej presný prepis. Na trénovanie modeluje potrebných 5 000 až 15 000 slov (približne 25 - 75 strán) prepísaného materiálu. Prepis sa získa manuálnym prepisom riadok po riadku presne podľa predlohy. Prepis si možno uľahčiť použitím už prepísaných a dostupných dokumentov alebo postupovať pri príprave cvičného súboru s použitím základného súboru. Pri práci s tlačeným textom sa zvyčajne vyžaduje menšie množstvo cvičných údajov ako pri rukopisoch. Použitím základného modeluje možné znížiť množstvo požadovaných cvičných dát. Ako základný model sa môže použiť buď jeden z verejne dostupných modelov PyLaia v Transkribe, ktorý by mohol byť vhodný pre naše dokumenty, alebo jeden z našich vlastných modelov, ktoré sme už predtým cvičili. Verejné modely transkripcie (Public Models) sú modely Transkribu, ktoré je možné použiť na podobné dokumenty. Pre každý model je uvedený krátky opis cvičného materiálu, pre ktoré jazyky môže byť model užitočný a kto ho vytvoril a cvičil. Cieľom je sprístupniť používateľom Transkribu čoraz viac modelov, aby mohli ťažiť z kooperácie a sieťového efektu, a šetriť prácu a čas. V súčasnosti je dostupných viac ako 100 verejných modelov napríklad: nemecký kurent, noviny, časopisy, rôzne tlače a rukopisy; viacjazyčný model pre tlače v rôznych jazykoch (holandčina, angličtina, fínčina, francúzština, nemčina, švédčina); všeobecný model pre francúzske rukopisy, nemecká bastarda 15. st; dánska fraktúra a historické rukopisy a strojopisy; holandské rukopisy a tlače; estónske rukopisy; fínske noviny a rukopisy; francúzske rukopisy a tlače; hlaholika; latinčina; neolatinčina; ruština; španielske rukopisy a tlače a i. Verzie. Pri práci so systémom Transkribus expert klient sa pri každom spustení úlohy alebo uložení dokumentu vytvorí nová verzia dokumentu. Výhodou je, že sa vždy môžete vrátiť k starším verziám a pokračovať v práci na nich, čo zabraňuje strate údajov v Transkribe. Verzie je možné porovnávať pomocou funkcie Porovnať (Compare). Pri verziách jednotlivých stránok je vždy informácia o stave strany (Page status), používateľovi, dátume zmeny, nástroji zmeny a identifikátoroch. Virtuálna klávesnica. Editačný nástroj Transkribus expert klient, ktorý umožňuje pridávať znaky sady Unicode (ISO 10646) a špeciálne znaky, ktoré nie sú dostupné na bežnej klávesnici. Nachádza sa v poli textového editora v spodnej časti okna expertného klienta. Pomocou tlačidla Upraviť (Edit) je možné pridávať skratky pre často používané znaky a pridávať nové znaky Unicode. Ak je potrebné vytvoriť skratku, stačí ju zadať do stĺpca skratka a na pridanie nových znakov Unicode použiť zelené tlačidlo plus. W E R (WordError Rate). Hodnota chybovosti slov v transkripcii. 150 Základná čiara (Baseline, BĽ). Najdôležitejší referenčný bod na rozpoznávanie textu. Popisuje polyčiaru, ktorá sa tiahne pozdĺž spodnej časti rukou písaného/tlačeného textového riadku. Segmentáciu textu na riadkové rámce a základné čiary je možné vykonať automaticky pomocou Transkribus LA. Pri zložitých rozloženiach a v závislosti od konkrétneho písma v rukopisoch/tlačiach sa však môžu vyskytnúť prípady, keď je potrebné vykonať niektoré manuálne opravy. Základná čiara by mala prebiehať pozdĺž spodnej časti textového riadku, písmená by na nej mali sedieť a zostupne smerovať nižšie. Základná čiara pozostáva z jednotlivých bodov, ktoré je možné nastaviť pri manuálnej úprave segmentácie. Základný model (Base model). Ak tvoríme vlastné, generické modely HTR, tak nepracujeme so základnými modelmi. Pri trénovaní so základnými modelmi je však každé trénovanie pre model založené na existujúcom modeli, t. j. na základnom modeli. Toto je spravidla posledný model HTR, ktorý bol vytrénovaný v nejakom projekte. Základné modely si „pamätajú" to, čo sa už „naučili". Preto každé nové trénovanie teoreticky zlepšuje kvalitu novotvoreného modelu. Nový model sa učí od svojho predchodcu a stáva sa tak lepším a lepším. Preto je trénovanie so základnými modelmi obzvlášť vhodné aj pre veľké generické modely, ktoré sa neustále vyvíjajú počas dlhého časového obdobia. Ak chceme vykonať trénovanie so základným modelom, jednoducho si v cvičnom nástroji okrem obvyklých nastavení vyberieme konkrétny základný model. Potom na karte údaje modelu HTR (Model data) vložíme cvičný súbor a overovací súbor základného modelu, ako aj nový cvičný a overovací súbor. Okrem toho môžeme pridať ďalšie nové strany Ground Truth a začať s cvičením. Zálohovanie a archivovanie. V procesoch snímania je nevyhnutné zvoliť metódu zálohovania a archivovania zdrojových obrázkov a ich derivátov. Základné pravidlo o zálohovaní vyžaduje urobiť najmenej tri kópie na dva rôzne nosiče a jednu - archívnu zálohu mať na vzdialenom mieste. Každá snímka by mala mať aspoň dve kópie, a to na dvoch rôznych úložiskách, napríklad na SD karte, disku, externom disku, digitálnom repozitári. Zbierka (Collection). V štruktúre systému Transkribus expert klient sú dva kľúčové prvky: zbierky a dokumenty. Zbierka je nadradená dokumentu. Dokumenty sú usporiadané do zbierok. Zbierky možno chápať ako priečinky obsahujúce dokumenty. Zbierky sa zvyčajne tvoria podľa konkrétneho projektu. Napríklad všetky dokumenty patriace k jednému projektu sú usporiadané do jednej zbierky. Dokumenty pozostávajú z jednej alebo viacerých strán dokumentu. Každá zbierka v Transkribe má jedinečný identifikátor (JD). Každý dokument v zbierke má jedinečný číselný identifikátor, názov dokumentu, počet strán dokumentu, meno osoby, ktorá nahrala dokument do Transkribu, dátum a čas nahratia, meno vlastníka zbierky. V zbierke je možné manažovať - tvoriť, vymazať, upravovať, pridávať a upravovať oprávnenia používateľom zbierky so súhlasom a rozhodnutím vlastníka zbierky, pracovať s kreditmi k zbierke. Ku každému dokumentuje možné popísať všeobecné metadáta a metadáta k jednotlivým stranám, ako aj štrukturálne a textové metadáta a komentáre. Používateľ môže mať niekoľko zbierok s rôznymi dokumentmi. Na účely prezentačnej vrstvy Read&search je potrebné vytvoriť jednu spoločnú zbierku. Všetky zbierky a dokumenty v Transkribe sú súkromné. 151 Použité zdroje DRAŠKABA, Peter a Jozef HANUS, prekl. Všeobecná medzinárodná norma pre opis archívnej jednotky. Slovenská archivistika [online]. 2000, roč. 35, č. 1, s. 197-215 [cit. 2023-08-17]. ISSN 2730-0323. Dostupné na: https://www.minv.sk/swift_data/source/verejna_ sprava/odbor_archivov_a_registratur/archivnictvo/slovenska_archivistika/Slovenska%20 archivistika_l-2020.pdf KATUSCAK, Dušan: Metodológia a metodika transkripcie historických textov. In: K A TUSCAK, Dušan a Imrich NAGY, eds. Automatická transkripcia slovacikálnych historických dokumentov [online]. Banská Bystrica: Belianum. Vydavateľstvo Univerzity Mateja Bela, 2022, s. 18 - 47 [cit. 2023-08-29]. ISBN 978-80-557-2020-3. Dostupné na: https://doi.org/10.24040 /2022.9788055720203 KERESTES, Peter. Archívny dokument a jeho definícia. Slovenská archivistika [online]. 2022, roč. 52, č. 1, s. 137 - 147 [cit. 2023-18-17]. ISSN 2730-0323. Dostupné na: https://www.minv. sk/ swift_data/ source/verej na_sprava/ odbor_archivov_a_registratur/archívnictvo/slovenska_ archivistika/SA%201-2022.%20roc.%2052.pdf KÔRMENDY, Lajos. Standardizovanie opisu archívnej jednotky: odborný nástroj v kontexte národnej a regionálnej tradície. Slovenská archivistika [online]. 2000, roč. 35, č. 2, s. 222 - 235 [cit. 2023-08-17]. ISSN 2730-0323. Dostupné na: https://www.minv.sk/swift_data/ source/verejna_sprava/odbor_archivov_a_registratur/archivnictvo/slovenska_archivistika/ Slovenska%20archivistika_2-2020.pdf KURHAJCOVA, Alica. Keď sa stroj učí čítať Hurbanove listy. In: Automatická transkripcia slovacikálnych historických dokumentov [online]. Banská Bystrica: Belianum. Vydavateľstvo Univerzity Mateja Bela, 2022, s. 124 - 145 [cit. 2023-10-09]. ISBN 978-80-557-2020-3. Dostupné na: https://doi.org/10.24040/2022.9788055720203 Metodický pokyn odboru archívov sekcie verejnej správy Ministerstva vnútra SR o postupe štátnych archívov pri digitalizácii archívnych dokumentov a tvorby povinných metadát č. SVS-OA-2011/23406-001 [online]. Bratislava, 2011 [cit. 2023-08-18]. Dostupné na: https://www, minv. sk/swift_data/ source/verej nasprava/odborarchiv o v a r e g i stratur/odbor_ archivovaregistratur/MPdigitalizaciaAD_metadata.pdf NAGY, Imrich. Možnosti aplikácie metódy digitálnej transkripcie historických rukopisných textov pri sprístupňovaní archívnych fondov. Slovenská archivistika [online]. 2021, roč. 51, č. 2, s. 53 - 67. Dostupné na: https://www.minv.sk/swift_data/source/verejna_sprava/odbor_ archivov_a_registratur/archivnictvo/slovenska_archivistika/SA%202-2021.%20roc.%2051.pdf NAGY, Imrich. Sprístupnenie Csákósovho katalógu korešpondencie Koháryovcov pomocou automatickej transkripcie. In: KATUSCAK, Dušan a Imrich NAGY, eds. Automatická transkripcia slovacikálnych historických dokumentov [online]. Banská Bystrica: Belianum. Vydavateľstvo Univerzity Mateja Bela, 2022, s. 66 - 83 [cit. 2023-08-15]. ISBN 978-80-557-2020- 3. Dostupné na: https://doi.org/10.24040/2022.9788055720203 PEKOVA, Monika. Od analógového archívneho dokumentu k jeho digitálnej kópii. In: GRESCHOVA, Eva a František CHUDJAK, eds. Zborník Spoločnosti slovenských archivárov 2015. Bratislava: Spoločnosť slovenských archivárov, Slovenské múzeum ochrany prírody a jaskyniarstva, 2016, s. 78-81. ISBN 978-80- 971356-2-1. Resource Center. In: READ-COOP [online]. Innsbruck: READ-COOP SCE, last update 2023 [cit. 2023-08-28]. Dostupné na: https://readcoop.eu/transkribus/resources/ 152 ŠEDIVÝ, Juraj a Hana PÁTKOVÁ, eds. Vocabularium parvum scripturae latinae [online]. Bratislava - Praha, 2008 [cit. 2023-08-25]. Dostupné na: https://manuscripta.at/Ma-zu-Bu/ dateien/Vocabularium_parvum_scripturae_Latinae_2008.pdf Transkribus: help center [online], [cit. 2023-08-28]. Dostupné na: https://help.transkribus.org/ Všeobecný medzinárodný štandard pre archívny opis ISAD(G) [online]. 2. vyd. Bratislava, 2015 [cit. 2023-08-18]. Dostupné na: https://www.minv. sk/?archivne-standardy-1 153 © BELIANUM. Vydavateľstvo Univerzity Mateja Bela v Banskej Bystrici 2023 v spolupráci so Štátnou vedeckou knižnicou v Banskej Bystrici DOI: https://doi.org/10.24040/2023.9788055720708 Táto publikácia je šírená pod licenciou Creative Commons Attribution 4.0 International Licence CC B Y (uvedenie autora). ISBN 978-80-557-2070-8