POKROK V TRANSKRIPCI HISTORICKÝCH RUKOPISŮ Dušan Katuščák Lukáš Němec Vojtěch Říha Obsah obrázku logo, symbol, Grafika, kruh Popis byl vytvořen automaticky Úvod §Historické staré a vzácne tlače, strojopisy a hlavne rukopisy spravidla nie je možné uspokojivo transkribovať pomocou OCR §Prichádza na pomoc umelá inteligencia §V snahách sprístupniť historické písomné dedičstvo sa koncentruje pozornosť výskumníkov na transkripciu a strojové učenie s použitím konvolučných neurónových sietí §Ide o proces, v ktorom sa nasnímaný obrázok mení na text. Cieľ prezentácie 1.Vysvetliť metodiku tvorby modelov transkripcie v platforme Transkribus 2.Informovať o výsledkoch projektu Študentskej grantovej súťaže na Slezskej univerzite v Opave (FPF, Oddelenie knihovníctva) 3.Prezentovať výsledky experimentov študentov Prečo modely? ■Modely slúžia na transkripciu historických textov ■Využíva sa umelá inteligencia ■Na vytvorenie modelu je potrebné stroj naučiť, čo má robiť ■Učenie prebieha tak, že sa manuálne pripraví tréningový set (Train set) a validačný set (Validation set) ■Strany textu je potrebné prepísať čo najpresnejšie do kvality GT (Ground Truth) ■Spustí sa proces trénovania ■Výsledkom trénovania je MODEL ■Na základe čiastkových modelov je možné pripraviť univerzálne supermodely Platforma Transkribus ■Ako to funguje? Všetko je o učení umelej inteligencie! ■Dokument 10 000 strán ■Ground Truth (GT) ■Cvičné strany (25-75 strán/5000-15000 slov - transkribovať: model/ručne ■Trénovanie modelu: napr. 75 strán ■Rozdelíme na: TRAIN SET a VALIDATION SET ■TRAIN SET: napr. 65 strán ■VALIDATION SET: napr. 10 strán ■Spustíme učenie: napr. 250 cyklov (Výsledok je: CER/WER) ■Model použijeme na automatickú transkripciu 925 strán 65 10 10 000 strán Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Tvorba modelu automatického rozpoznávání bohemikálního rukopisného textu v platformě Transkribus Cizojazyčných modelů pro automatické rozpoznávání rukopisu existuje celá řada, ale širší zastoupení bohemikálních modelů zde chybí. Záměrem naši práce nebylo vytvořit nějaký univerzální model, ale přispět ke snaze vytvořit takový model, který by toho jednou byl schopen. Je dokázáno, že i s modelem s chybovosti kolem 7 % lze pracovat tak, abychom psanému textu porozuměli. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Tvorba modelu automatického rozpoznávání bohemikálního rukopisného textu v platformě Transkribus Podmínky: • časové okno 18. – 20. století • žánrová diferenciace • různé rukopisné styly a autoři • regionální sounáležitost Při výběru vzorků jsem se snažil dodržet podmínky co největší univerzálnosti modelu. Proto je výběr autorů pestrý a dotýká se žánrově více oblasti. Důležité pro mě bylo, aby autoři byli příslušní do regionu ve které žiju a ke kterému mám určitou citovou vazbu. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Tvorba modelu automatického rozpoznávání bohemikálního rukopisného textu v platformě Transkribus Josef Heřman Agapit Gallaš: 1756 – 1840; Hranice, Přerov (přírodní vědy, mytologie, národopis) Otakar Jaroš: 1912 – 1943; Hranice (vojenství) František Polášek: 1757 – 1824; Příbor (náboženské texty) Což se mi myslím povedlo, protože výběr je multižánrový a zároveň místně příslušný našemu regionu. Posuďte sami: Josef Heřman Agapit Gallaš, původem z Hranic, byl přední moravský obrozenec, vojenský lékař, zakladatel hranické městské knihovny. Dále Otakar Jaroš, voják a válečný hrdina, byl studentem hranické vojenské akademie, a nakonec František Polášek, katolický kněz, který pro změnu působil ve městečku Příbor, které se nachází nedaleko mého bydliště. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Mýtické povídky o bozích a bohyních moravských Slovanů Výzvy: •Špatná čitelnost původního textu. •Množství pravopisných chyb. •Blednutí atramentu. •Různé písařské styly. Východisko: •Dílčí model s chybovostí 8,31 % •Agregovaný model s chybovostí 6,55 %, který odstranil řadu nejednoznačností. Začal jsem Gallašovým spisem Mytické povídky o bozích a bohyních moravských Slovanů. Digitalizát jsem získal z Moravského zemského archivu, kde jsme jej jeli s prof. Katuščákem někdy letos v dubnu nafotit pomocí ScanTentu. I když si myslím, že Manuskriptorium je výborný rezervoár materiálu pro vytvoření funkčního modelu, mým cílem bylo vytvořit model, jak se říká od a až po z, tzn. i s vytvořením digitalizátu, který poté uložíme do aplikace Transkribus Sites. Tento rukopis se vyznačuje špatnou čitelností a vyblednutím původního textu, tudíž bylo složitější naučit se číst dobový text. Ten byl navíc plný gramatických chyb, které jsou pro Gallašovy rukopisy typické. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Mýtické povídky o bozích a bohyních moravských Slovanů Obsah obrázku oblečení, muž, osoba, interiér Popis byl vytvořen automaticky Obsah obrázku osoba, oblečení, interiér, muž Popis byl vytvořen automaticky Obsah obrázku osoba, oblečení, budova, počítač Popis byl vytvořen automaticky Obsah obrázku osoba, oblečení, počítač, muž Popis byl vytvořen automaticky Zachraňujeme historické kulturní dědictví Zde je na ukázku pár záběrů na kterých můžete vidět v akci autora práce a zařízení ScanTent. Při pořizování digitalizátu vše fungovalo dokonale, zařízení byla hezky synchronizována a nebylo třeba žádného zásahu zvenčí. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Mýtické povídky o bozích a bohyních moravských Slovanů Obsah obrázku rukopis, dopis, skica, kaligrafie Popis byl vytvořen automaticky Obsah obrázku rukopis, skica, Dětské kresby, dopis Popis byl vytvořen automaticky Obsah obrázku rukopis, dopis, Dětské kresby, skica Popis byl vytvořen automaticky Obsah obrázku rukopis, dopis, kaligrafie, dokument Popis byl vytvořen automaticky Obsah obrázku rukopis, dopis, kaligrafie Popis byl vytvořen automaticky Obsah obrázku rukopis, dopis, kaligrafie, Podpis Popis byl vytvořen automaticky Obsah obrázku rukopis, dopis, text, kaligrafie Popis byl vytvořen automaticky Obsah obrázku rukopis, dopis, kaligrafie, Podpis Popis byl vytvořen automaticky a Řek, Kosmás Kozmás Nymfám s nimi s Řekami srownáwali , Strúhy Zde pouze pro ilustraci několik vzorků Gallašova rukopisu, kde jsou signifikantně vidět rozdíly v psaní grafémů a místní blednutí atramentu spolu s celkovou nevýraznosti textu. Myslím si, že tyto skutečnosti zásadně ovlivnily nemožnost dosáhnout v trénování modelu lepších výsledků. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Mýtické povídky o bozích a bohyních moravských Slovanů Model Mystic Absolut s chybovostí 8,31 % Agregovaný model s chybovostí 6,55 % Model jsem vytvořil na základě 120 stránek GT a dosáhl jsem chybovosti 8,3 % na ověřovací sadě. Bohužel lepší výsledek i přes maximální snahu nebyl možný z důvodů uvedených výše. Při použití agregovaného modelu Finale 2.0 se chybovost rozpoznaného textu ještě snížila, což bylo dle mého názoru způsobeno tím, že si celkově lépe poradil s méně frekventovanými grafémy, které mu „pomohly“ líp rozpoznat další dílčí modely, které byly jeho součásti. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Otakar Jaroš: Nauka o terénu (školní sešit) Výzvy: •Drobné písmo. •Špatně čitelné. •Degradace papíru. •Dílčí vybledlost psaného textu. •ČTVEREČKOVANÝ PAPÍR. U tohoto rukopisu je patrné drobné, hůře čitelné písmo, psané místy obyčejnou tužkou. V kombinaci s čtverečkovaným papírem představovalo skutečnou výzvu. První pokus o model byl učiněn na 51 stranách Ground Truth. Tento model s chybovosti 8,7 % jsem zamýšlel použít jako výchozí pomocný model při vytváření dalších Ground Truth stránek, kdy budu provádět jen dílčí korekci špatně detekovaných grafémů. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Otakar Jaroš: Nauka o terénu (školní sešit) Výzvy: •Drobné písmo. •Špatně čitelné. •Degradace papíru. •Dílčí vybledlost psaného textu. •Chybná segmentace textu •ČTVEREČKOVANÝ PAPÍR. Bohužel, model se při rekognici textu choval značně nepředvídatelně, viz. obrázek. Jednotlivé slova rozpoznával solidně ale problém představovala chybná segmentace, když každé slovo detekoval na každé jedné základní textové lince. Pokoušel jsem se upravit parametry opětovným trénováním, kdy jsem měnil výšku textu a ručně určoval stránky pro ověřovací sadu, avšak vše s nulovým výsledkem. Řešením bylo vytvořit pomocný model pro rozpoznávaní textových linek. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Otakar Jaroš: Nauka o terénu (školní sešit) Východisko: - Experiment s vytvořením modelu na segmentaci textových linek s uvedenými parametry. Ten jsme vyladili s prof. Katuščákem na odborném soustředění v Jazernici, kdy jsme experimentálně metodou pokus-omyl vytvořili model pro rozpoznávání textových linek s následujícími parametry. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Otakar Jaroš: Nauka o terénu (školní sešit) Odborné vědecké soustředění v Jazernici…víkendový pracovně oddechový pobyt účastníků projektu. Pár snímků z tvůrčího soustředění v Jazernici Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Otakar Jaroš: Nauka o terénu (školní sešit) •Ukázka experimentálního ověření naši hypotézy s potvrzením správnosti úsudku o nutnosti použití výchozího „pomocného“ modelu pro segmentaci textových linek v případě automatického rozpoznávání rukopisu na „čtverečkovaném“ podkladě. Model jsem aplikoval na zbývající stránky Jarošova rukopisu psaného na čtverečkovaném podkladě a přistoupil k vytváření dalších GT stránek s použitím „dočasného pracovního“ modelu s ruční korekci chybně rozpoznaných grafémů. Vytvořených 120 stran v kvalitě GT jsem použil pro tvorbu konečného dílčího modelu nazvaného Ota14, s chybovostí 7 %, což považuji po všech problémech za úspěch. I když materiálu psaného na čtverečkovaném papíře jistě není mnoho, myslím si, že by bylo dobré toto řešení zavnímat jako jedno z možných východisek při řešení obdobného problému, který může v budoucnu nastat. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Celkové parametry modelu Doba trénování: 11 hod. 26 min. Počet epoch: 164 (bylo nastaveno 250) Počet stran v kvalitě GT: 514 Počet slov trénovací sady/ ověřovací sady: 87.945 / 10.808 Počet řádků trénovací sady / ověřovací sady: 14.530 / 1.785 Celková chybovost modelu: 6,56 % Zde jsou uvedeny parametry vytvořeného agregovaného modelu „Finale 2.0“, který je současně dílčím modelem agregovaného modelu „CZECH supermodel_SGS“ s chybovostí 5,8 % na ověřovací sadě. Ten jsme vytvořili společně s kolegy ze Slezské univerzity v Opavě a myslím, že výsledky naši práce jsou znatelným přínosem do problematiky automatického rozpoznávání rukopisných textů východoslovanské provenience. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Otakar Jaroš: Nauka o terénu (školní sešit) Ukázka použití modelu Finale 2.0 Obsah obrázku text, dopis, snímek obrazovky, dokument Popis byl vytvořen automaticky Zde můžeme vidět aplikaci modelu Finale 2.0 na další stránky Jarošova rukopisu. Chybovost je opravdu nízká. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Josef Heřman Agapit Gallaš : Mystické povídky o bozích a bohyních Obsah obrázku text, rukopis, dopis, dokument Popis byl vytvořen automaticky Ukázka použití modelu Finale 2.0 Zde můžeme vidět aplikaci modelu Finale 2.0 na rukopis Josefa Gallaše. Opět s nízkou chybovostí a to i přes problematickou čitelnost textu. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Ukázky rukopisných vzorků: Obsah obrázku text, kniha, papír, rukopis Popis byl vytvořen automaticky Josef Heřman Agapit Gallaš Mythické povídky o bozích a bohyních moravských Slovanů Uloženo v: MZA Brno, G 11, sign. 838, čeština, papír, rukopisná kniha, originál, vázáno v tvrdých, polokožených deskách, šířka 195 mm, výška 250 mm, stopy po pův. pag., starší fol. 125; stará sign.: Schr. 224, pův. 287, červ. Zde už jen pro ilustraci ukázka rukopisných vzorků, z kterých je model Finale 2.0 složený. Zde rukopis Josefa Gallaše, Mytické povídky o bozích a bohyních: můžeme si všimnout vybledlého písma, počínající degradaci papíru a vypadávání atramentu. Na základě tohoto rukopisu byl vytvořen dílčí model Mystic Absolut (ID 210053), chybovost 8,3 %. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Ukázky rukopisných vzorků: Josef Heřman Agapit Gallaš Fyzické památky města Hranice a okolí. Uloženo v: MZA Brno, G 11 Sbírka rukopisů Františkova muzea Brno, sign. 658, čeština, latina, papír, rukopisná kniha, originál, vázáno v tvrdých deskách, šířka 215 mm, výška 270 mm, pův. pag. 236, nová fol. 128; stará sign.: Schr. 223, pův. 288, červ. Obsah obrázku text, rukopis, papír, kniha Popis byl vytvořen automaticky Opět Josef Gallaš, spis Fyzické památky města Hranic a okolí: vidíme prosvítání textu z protějších stránek a grafémy zasahující do spodních části textové osnovy. Tento nešvar jsem upravil drobnou změnou výšky základní linky. Na základě tohoto rukopisu byl vytvořen dílčí model Physical Absolut (ID 213213) s chybovostí 6 %. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Ukázky rukopisných vzorků: Josef Heřman Agapit Gallaš Walaši v kraji Přerovském Uloženo v: Knihovna Národního muzea, Praha, sign. II F 12, čeština, datace 1801-1840, codex, 228 stran, 12 obrazových příloh.; šířka 170 mm, výška 215 mm, digitalizovaný dokument, dostupný z: https://www.manuscriptorium.com/apps/index.php?direct=record&pid=KNM-NMP II_F_12 1PU4RI1-cs Obsah obrázku text, kniha, rukopis, papír Popis byl vytvořen automaticky A do třetice Josef Gallaš, spis Walaši v kraji přerovském: zajímavostí na tomto rukopisu je skutečnost, že i když je odlišný od předešlého, model vytvořený na jeho základě na tento typ písma velice dobře fungoval. Byly zde problémy s rozeznáváním diakritiky vyžadující ruční korekci, které však byly aplikací modelu Finale 2.0 eliminovány na minimum. Na základě tohoto rukopisu byl vytvořen dílčí model Walachian Absolut (ID 211773), chybovost 5,1%. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Ukázky rukopisných vzorků: František Polášek Pravé poznání boha… Uloženo v: Sbírková knihovna Vlastivědného muzea v Olomouci, Sign. K-24073, dostupný z: https://new.manuscriptorium.com/hub/catalog/default/detail/single/manuscriptorium%7CVMO-VMO K_24073 0U6ABL2-cs?lang=cs Obsah obrázku dopis, rukopis, text, papír Popis byl vytvořen automaticky Obsah obrázku text, dopis, rukopis, květina Popis byl vytvořen automaticky František Polášek: Pravé poznání boha: zde jsme se potýkali s třemi různými druhy písma, přičemž dva z nich byly v textu zastoupený v malé míře, což znamenalo místy špatnou detekci těchto grafémů při automatickém rozpoznávání textu. Problém byl vyřešen agregovaným modelem Finale 2.0, když podobný typ těchto neobvyklých grafémů obsahovaly jiné rukopisné vzorky v tomto modelu obsažené. Vytvořený dílčí model Franz II. (ID 204714) měl chybovost 7,6 %. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Ukázky rukopisných vzorků: Otakar Jaroš Nauka o terénu, školní sešit, čtverečkovaný papír Uloženo v: Historická expozice 71. mech. praporu „Sibiřského“ v Hranicich. Zapůjčeno z pozůstalostní sbírky rodiny. Digitalizát vytvořen s laskavým svolením kurátora muzea nrtm. Radima Cába. Obsah obrázku text, rukopis, papír, kniha Popis byl vytvořen automaticky Dvojice rukopisných vzorků Otakara Jaroše. Vytvořený dílčí model Ota 14 (ID 182965) měl chybovost 7,14 % na ověřovací sadě. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Ukázky rukopisných vzorků: Otakar Jaroš Nauka o terénu, školní sešit, linkovaný papír Uloženo v: Historická expozice 71. mech. praporu „Sibiřského“ v Hranicich. Zapůjčeno z pozůstalostní sbírky rodiny. Digitalizát vytvořen s laskavým svolením kurátora muzea nrtm. Radima Cába. Obsah obrázku text, silueta Popis byl vytvořen automaticky Obsah obrázku text, Písmo, logo, symbol Popis byl vytvořen automaticky Agregovaný model Finale 2.0 Ukázka použití modelu na textu, který nebyl trénován Obsah obrázku text, rukopis, dopis, dokument Popis byl vytvořen automaticky Zdroj: Rozličné písně starožitné Uloženo v: Moravská zemská knihovna v Brně RKP-0048.022; Rkp 59 A na závěr ukázka schopnosti modelu Finale 2.0 na úplně neznámém rukopise náhodně vybraném z rezervoáru Manuskriptoria. Je vidět, že model si s jemu neznámým rukopise poradil velice dobře. Děkuji za pozornost a předávám slovo. AUTOMATICKÁ TRANSKRIPCE POMOCÍ PLATFORMY TRANSKRIBUS VOJTĚCH ŘÍHA Obsah obrázku klipart, silueta, skica, kresba Popis byl vytvořen automaticky Také já přeji dobrý den, děkuji za předání slova. Přejdeme nyní k další části projektu, jímž je můj model Agreg-8. MODEL AGREG-8 Obsah obrázku text, rukopis, kniha, papír Popis byl vytvořen automaticky Obsah obrázku text, papír, kniha, Písmo Popis byl vytvořen automaticky Obsah obrázku text, rukopis, kniha Popis byl vytvořen automaticky Obsah obrázku text, rukopis, kniha, papír Popis byl vytvořen automaticky Zastavíme se nejprve u cílů, které byly stanoveny před tvorbou vlastního HTR modelu a představíme si jednotlivé sbírky v něm zahrnuté. Model Agreg-8 ■Společné rysy dokumentů –Století 18.-19. století –Tematika modliteb a katolických písní –Podobnost písma – cílem je postupně rozšiřovat data pro dosažení větší rozmanitosti znaků –Licence Creative Commons (BY-NC-SA) Obsah obrázku text, rukopis, papír, kniha Popis byl vytvořen automaticky Mým cílem bylo získat sadu podobných dokumentů, které by se v určitých rysech podobaly, jednak ve století, tj. 18-19. století, jednak v tematice: Všechny dokumenty, kterým se prozatím v transkripci věnuji, se týkají práce modliteb a písní z katolického prostředí té doby. Tím nejdůležitějším aspektem pro výběr dokumentů pro mne však byla podobnost písma. Vydal jsem se trochu odlišnou cestou než můj kolega a volil jsem dokumenty, které na sobě vzájemně stavěly pomocí oné podobnosti. Tzn. neměl jsem dva zcela odlišné dokumenty, avšak začal jsem jedním dokumentem, jádrem, na které jsem postupně nabaloval další a další data, tzn. další rukopisy jiných autorů, které tak činí model robustnějším v oblasti konkrétního rukopisného stylu, který následně uvidíme. Všechny dokumenty jsou dostupné pomocí projektu Manuskriptorium. Model Agreg-8 ■HTR model kombinující 5 rukopisných dokumentů –Česká modlitební kniha –Cesta Svatocellenská –Radostná cesta –Modlitby, písně a litanie –Modlitební knížka Obsah obrázku text, rukopis, papír, kniha Popis byl vytvořen automaticky Zde je všech pět použitých rukopisných sbírek, následně si je blíže představíme. 1 . Česká modlitební kniha ■Datace: 1733-1766 ■Instituce: Muzeum Jindřichohradecka ■Signatura : RK 071 ■Rozměry: 14 cm x 10,5 cm ■Problematika zasahování do sousedících řádků Česká modlitební kniha Máme zde některé základní údaje, ale zastavíme se především u poznatků ze samotné transkripce. 1 . Česká modlitební kniha ■Datace: 1733-1766 ■Instituce: Muzeum Jindřichohradecka ■Signatura : RK 071 ■Rozměry: 14 cm x 10,5 cm ■Problematika zasahování do sousedících řádků Obsah obrázku rukopis, text, kniha, kaligrafie Popis byl vytvořen automaticky Tento rukopis byl první i pro svou čitelnost. Avšak postupem času se rukopis ukázal být problematický hned z několika důvodů: 1)zasahování písmen do okolních řádků (dole - g, y, z, nahoře – s, b, l, apod.) 2)absence jasných mezer mezi slovy (což dělalo při automatické transkripci zprvu problém) 2 . Cesta Svatocellenská ■Datace: 1733-1766 ■Instituce: Muzeum Jindřichohradecka ■Signatura : RK 037 ■Rozměry : 18 cm x 11,5 cm ■Problematika podobnosti i/y ■Používání obrovských iniciál (segm.) Cesta Svatocellenská Stejně jako předchozí rukopis je tento uložen v Muzeu Jindřichohradecka Rukopis je také poměrně čitelný, problém byl především s grafémy i/y. 2 . Cesta Svatocellenská ■Datace: 1733-1766 ■Instituce: Muzeum Jindřichohradecka ■Signatura : RK 037 ■Rozměry : 18 cm x 11,5 cm ■Problematika podobnosti i/y ■Používání obrovských iniciál (segm.) Obsah obrázku text, rukopis, kaligrafie, látka Popis byl vytvořen automaticky 1)řádek varianty ypsilonu 2)Řádek pak varianty měkkého i 3)Poslední řádek ukazuje takové „hybridy“, se kterými měl nejprve nejen HTR model problém. (ale také já sám při přepisu  nakonec se podařilo model vytrénovat) 2 . Cesta Svatocellenská ■Datace: 1733-1766 ■Instituce: Muzeum Jindřichohradecka ■Signatura : RK 037 ■Rozměry : 18 cm x 11,5 cm ■Problematika podobnosti i/y ■Používání obrovských iniciál (segm.) Obsah obrázku text, rukopis, kaligrafie, látka Popis byl vytvořen automaticky Dále se v tomto rukopise často objevovaly iniciály, které byly na druhou stranu výzvou po segmentační stránce. 3. Radostná cesta ■Datace: 1829-1884 ■Instituce: Moravské zemské muzeum ■Signatura : ST 2272 ■Rozměry: 19,5 cm x 16,5 cm ■Různost při psaní diakritiky Radostná cesta Dokument je uložen v Moravském zemském muzeu. S přibývajícími rukopisy jsem se začal zabývat rozmanitostí psaní diakritiky. 3. Radostná cesta ■Datace: 1829-1884 ■Instituce: Moravské zemské muzeum ■Signatura : ST 2272 ■Rozměry: 19,5 cm x 16,5 cm ■Různost při psaní diakritiky Obsah obrázku text, Písmo, typografie, kaligrafie Popis byl vytvořen automaticky Obsah obrázku text, rukopis, typografie, Písmo Popis byl vytvořen automaticky Obsah obrázku text, rukopis, Písmo, skica Popis byl vytvořen automaticky Obsah obrázku text, Písmo, rukopis, skica Popis byl vytvořen automaticky Obsah obrázku text, Písmo, výšivka Popis byl vytvořen automaticky Obsah obrázku text, rukopis, typografie, látka Popis byl vytvořen automaticky Obsah obrázku text, červ, bezobratlý, kaligrafie Popis byl vytvořen automaticky Obsah obrázku text, typografie, rukopis, Písmo Popis byl vytvořen automaticky Obsah obrázku text, rukopis, typografie, Písmo Popis byl vytvořen automaticky Obsah obrázku text, snímek obrazovky Popis byl vytvořen automaticky Obsah obrázku text, skica, rukopis, typografie Popis byl vytvořen automaticky Zde vidíme různé způsoby zápisu písmene „u“ •Někde háček, kroužek, čárka, tečka, půlměsíc, vlnka, stříška •Někde chybí diakritika, ačkoli by dle dnešní gramatiky z hlediska kvantity slovo vyžadovalo kroužek 4 . Modlitby, písně a litanie ■Datace: okolo roku 1826 ■Instituce: Moravské zemské muzeum ■Signatura: ST 2193 ■Rozměry: 22 cm x 18 cm ■Různé druhy písma v jednom dokumentu (unclear tag) Modlitby, písně a litanie obsahovaly dva typy písma (což lze vidět obrázku). Jedno velice čitelné, druhé méně úhledné. Na určitých místech byl navíc papír poškozený a inkoust vyblednutý.  Některá slova bylo nutné pro lepší výsledky modelu označit tagem UNCLEAR 5 . Modlitební knížka ■Datace: 1700-1750 ■Instituce: Muzeum Jindřichohradecka ■Signatura: RK 087 ■Rozměry: 22 cm x 16 cm ■Průsvitnost textu protilehlých stran U posledního dokumentu, jak napovídá obrázek, byl problém průsvitností textu protilehlých stran -Tato strana je ještě poměrně čitelná -Jiné strany však nemohly být do modelu zahrnuté z důvodu znatelného prosáknutí inkoustu. Model Agreg-8 ■Počet trénovacích cyklů: 250 ■Délka trénování: 21h 37m ■Celkový počet slov: 45998 –Trénovací sada: 42842 –Validační sada: 3156 ■Počet stran GT: 454 ■Výška řádku: 140 px Obsah obrázku text, snímek obrazovky, displej, Písmo Popis byl vytvořen automaticky Nyní již k samotnému modelu AGREG-8 Zde vidíme základní údaje: -Byl vytrénován na 250 epochách -Délka tréningu necelý den -Počet slov bez dvou 46 tisíc -Počet stran v kvalitě GT (tedy základní pravda) je 454 (stran) -Výška řádku upravena na 140px (k tomu se ještě dále dostaneme) Model Agreg-8 ■Výsledek –CER na trénovací sadě: 0,38% –CER na validační sadě: 2,86% –nejlepší epocha CER: 2,60% –nejlepší epocha WER: 16,57% Nyní výsledky modelu: -Jsou více než uspokojivé -Chybovost znaků na trénovací sadě je méně než 0,4% -Chybovost znaků na validační sadě se podařilo snížit na pouhých 2,86%, přičemž nejlepší trénovací cyklus dosáhl 2,6% -Pro jistotu doplním vysvětlení pojmů: -CER znamená chybovost znaků (což znamená, že u tohoto bylo při tréningu více než 97 znaků ze 100 přepsáno správně. -WER je poté chybovost slov, nejlepší epocha zde dosáhla téměř 16,5% Model Agreg-8 Na tomto obrázku je okno modelu v softwaru Transkribus Můžeme zde vidět graf křivky učení… Dobrou zprávou bylo, že již v úvodních deseti epochách chybovost klesala pod 10% Korekce výšky řádku u modelu ČMK-70 Stručně se zastavím u korekce výšky řádku. Na dílčím modelu jsem zkoumal vliv nastavení výšky řádku na chybovost modelu při tréningu. •Nastavení na 140px lepší než defaultní nastavení 128px. •Další zvyšování (155px) však již chybovost zvyšovalo z důvodu začleňování písmen z jiných řádků •Optimalizace na 140px = zlepšení až o půl procentního bodu Augmentace obrazových dat 1.Geometrické transformace –Rotace, škálování 2.Fotometrické úpravy –Změna kontrastu (+40, -20), jasu (+10, -10) –ostrosti, šumu apod. 3.Deformace –Změna šířky či výšky obrazových dat (+- 10, 20%) –Práce s oříznutím obrázku –Přidávání stínů a rozmazávání – 4. Dostal jsem také k zajímavému experimentování s rozšiřováním obrazových dat. -Já jsem pracoval především se změnou kontrastu a jasu a také změnou šířky a výšky obrazových dat -Změna či deformace obrázků však nikdy nebyla nijak extrémní. Augmentace obrazových dat modelu u ČMK-20 Na tomto grafu můžeme vidět výsledek. Především v začátcích můžou augmentovaná data pomoci. Tento model obsahoval pouhých několik tisíc slov, rozšířením obrazových dat se podařilo snížit chybovost téměř o 2% Vývoj úspěšnosti a počtu slov modelu AGREG Závěrem bych ukázal vývoj úspěšnosti mého modelu AGREG-8. Jedná se o verze 1-8. Vidíme zde smíšený graf = stoupající vývoj počtu slov a s ním korelující klesající chybovost. Možná bych zmínil část uprostřed, kde nerostl počet slov, avšak klesala chybovost. V této chvíli právě probíhaly některé experimenty s výškou řádku, rozšiřováním obrazových dat, různé korekce, nastavování segmentačních parametrů apod. prof. PhDr. Dušan Katuščák, PhD. dusankatuscak@gmail.com Lukáš Němec luki.nemec@seznam.com Vojtěch Říha vojtech.riha149@gmail.com Obsah obrázku logo, symbol, Grafika, kruh Popis byl vytvořen automaticky To bude od nás vše. Děkuji za pozornost a pokud byste měli nějaký dotaz, pokusíme se jej zodpovědět. Hezký den.