Pre pokročilých používateľov 15th February 2024 Vaši sprievodcovia pre dnešnú cestu Mirjam User Success Team Sara User Success Team s.mansutti@readcoop.eu m.elattal@readcoop.eu (Dušan Katuščák, doplnky a preklad) Digitálna knižnica - Texty Sprístupnenie z digitálnych repozitárov: 1.Digitálna knižnica obrázková (len nasnímané obrázky) 2.Digitálna knižnica plnotextová (full texts) (obrázky + OCR/HTR) 3.Digitálne knižnica hybridná (čiastočne obrázky + čiastočne OCR/HTR) 1.Úvod 2. 2.Trénovanie & Značkovanie/Tagovanie 3. 3.Analýza rozloženia & Základné čiary 4. 4.Polia modelov (Beta) & Modely tabuliek 5. 5.Zverejňovanie – Stránky Transkribus Obsah Úvod Čo je Transkribus? Transkribus je váš partner, ktorý pomocou umelej inteligencie (AI) zjednodušuje časovo náročnú a namáhavú prácu s historickými dokumentmi. České dokumenty – práca študentov na Opavskej univerzite (Halfarová) České dokumenty – práca študentov na Opavskej univerzite (Taufrová) Veselé historky a rozprávky Čert a ppravda – Kramerius 1796 České dokumenty – práca študentov na Opavskej univerzite (Kocianová, Olomouc, Žerotín, aféra s čarodejnicami...) Nela Kociánová: Arabské pohádky, 1795 – pracuje na transkripcii Vpravo je ukážka strany nemeckého rukopisu – Olomouc. Nasnímané spolu so študentami - stovky strán... České dokumenty – práca študentov na Opavskej univerzite (Gajdošová) Kniha, tlač. Nábožné písne, 1787 České dokumenty – práca študentov na Opavskej univerzite (Málková ) Lenka Málková: Kniha – „kratochvilné čtení“... České dokumenty – práca študentov na Opavskej univerzite (Němec) Pokus študenta 4. roč. – Lukáš Němec – Zápisník hrdinu kapitána Jaroša zo štúdií na vojenskej akadémii. Problematický rukopis, papier, kontrast, ostrosť... Začíname: Prvé kroky v Transkribuse •1. Registrácia a prehľad používateľského rozhrania •2. Vytvorenie zbierky •3. Nahrávanie súborov •4. Použitie kreditu Spolupráca Manuálny a automatický prepis ručne písaných a tlačených dokumentov Trénovanie modelov umelej inteligencie Vyhľadávanie Čo Transkribus umožňuje? Tagovanie štruktúry a obsahu dokumentov Export dokumentov v rôznych formátoch Strojové učenie: Umožňuje strojom učiť sa z (označených alebo neoznačených) údajov, identifikovať vzorce a robiť predpovede s minimálnym zásahom človeka. Trénovanie modelov umelej inteligencie Modely umelej inteligencie: algoritmy vytvorené počas tréningového procesu systému strojového učenia predstavujú výstup tréningu/školenia ➞ získané vedomosti. https://help.transkribus.org/text-recognition Trénovanie modelov AI Tréningová sada (stránky, na ktorých je model vyškolený) Overovacia sada (stránky, na ktorých model testuje svoju presnosť) Ground Truth (Základná pravda) Trénovanie modelov AI ●Ground Truth (Training Data, Základná pravda): Označené údaje pre tréning, ktoré umožňujú modelu identifikovať vzory a robiť predpovede pre tieto označenia na základe nových údajov. = všetky strany, ktoré boli prepísané ručne Tréningová sada (Training set) Súbor príkladov, ktoré sa používajú na úpravu parametrov modelu = dáta, na ktorých sú postavené poznatky v neurónovej sieti ● ●Overovacia sada (Validation Set) Súbor príkladov, ktoré sa používajú na objektívne posúdenie výkonnosti modelu = údaje použité na doladenie parametrov modelu počas jeho trénovania Dobrá overovacia sada: to je 10% tréningovej sady + obsahuje všetky príklady (znaky, glyfy) Tréning modelov https://help.transkribus.org/text-recognition Trénovanie modelov AI Modely trénovateľné s Transkribusom: Text Riadky Bloky textu Analýza rozloženia (segmentácia) •1. Automatická analýza rozloženia (segmentácie) •2. Rozšírené nastavenia konfigurácie rozloženia (segmentácie) •3. Manuálna úprava rozloženia (segmentácie) •4. Základné modely •5. Modely polí •6. Tabuľky_Modely •7. Noviny Trénovanie textových modelov Modely textu Pred tréningom modelu: potrebujete 25 až 75 strán (5000-15000 slov) prepísaného materiálu (GT_Základná pravda), v závislosti od typu dokumentu (tlačený alebo písaný rukou) 2 možnosti: 1.Ručný prepis stránky https://help.transkribus.org/transcribing-manually 2.Použitie hotového modelu, ktorý bol trénovaný na podobnom skripte (ak je k dispozícii) a manuálna oprava prepisu 3. 1.možnosť: manuálny prepis dokumentov 1.Vyberte stránky, ktoré chcete zahrnúť do GT_Základnej pravdy 2.Spustite rozpoznávanie rozloženia textu – segmentácia (Layout Recognition) 3.Prepísať od začiatku: Označte slová, ktoré nemôžete prečítať ako nejasné alebo "medzera“ Riadky, ktoré zostali prázdne: sa v tréningu neberú do úvahy Skratky: udržiavané/riešené/označené: záleží na tom, čo očakávate ako konečný výstup Uložte stránku ako GT "Základnú pravdu“! Textové modely 2. možnosť: použitie modelu/supermodelu a následná oprava automatických prepisov 1.Vyberte stránky, ktoré chcete zahrnúť do Základnej pravdy (GT) 2.Spustenie rozpoznávania textu 3.Oprava automatických prepisov 4.Uložte stránku ako "Základnú pravdu„ (GT) Textové modely Po vytvorení prepisov (Základná pravda): ○prejdite do sekcie "Modely“ ○kliknite na "Train New Model - Text Recognition Model" ○vyberte zbierku s prepismi (Základná pravda) Ground Truth Textové modely ○Vyberte stránky na: ○ 1.Tréning/školenie (stránky, na ktorých je model školený) 2.Validáciu (strany, na ktorých model testuje svoju presnosť). Dobrá validačná sada: 10% tréningovej sady + obsahuje všetky príklady Textové modely Rozšírené možnosti: Textové modely Rozšírené možnosti: ○Základný model (Base model): pomocou základného modelu (Base model) tréning nezačína od nuly, ale od toho, čo sa už naučilo v tréningovom procese tohto modelu Textové modely Rozšírené možnosti: ○Tréningové cykly (Training cycles (epochs)): Maximálny počet prechodov modelu cez celú množinu tréningových údajov. Pri prvom tréningu ponechajte predvolený počet 100 tréningových cyklov ○ ○Predčasné zastavenie (Early stopping): Minimálny počet cyklov tréningu. Predvolená hodnota je 20: ak po 20 epochách CER validačnej sady neklesne, tréning sa zastaví Textové modely Rozšírené možnosti: ○Obrátený text (Reverse text (RTL)): Ak bol text na obrázku napísaný sprava doľava, ale v textovom editore bol prepísaný zľava doprava ○ ○Použitie existujúcich polygónov (Use existing line polygons): Pozn.: používať iba v prípade, že ste upravili mnohouholníky v Transkribus Expert ○ ○Tréning s rozpisom skratiek (Train Abbrevs with expansion): Trénuje model tak, aby automaticky označoval skratky a pridal ich rozpis ○ ○Vynechať riadky s tagmi nejasné/medzera (Omit lines by tag unclear/gap): Táto možnosť vynecháva riadky obsahujúce slová označené ako gap/uclear. Textové modely Po dokončení tréningu sa môžete pozrieť na podrobnosti modelu: 1.CER (Chybovosť znakov = Character Error Rate) 2.Krivka učenia Textové modely Textové modely CER (chybovosť znakov) Tréningová sada Tlačený text 0,5-2% ~ 5.000 words / 25 pages Jedna ruka - jednoduché písanie 2-4% 10.000+ words / 50+ pages Niekoľko rúk - zistené 4-6% 10.000+ words per hand / 150+ pages Veľa rúk - z toho istého obdobia a regiónu – nie všetky zistené počas tréningu 6-8% 100.000+ words / 500+ pages ○Ruky, ktoré nie sú nijako zistené, alebo načmárané poznámky ➞ oveľa horšie výsledky, tak potom: ○Zdvojnásobte počet tréningových dát ➞ 20-25% zníženie chybovosti ○ ○Existujúce modely sa môžu použiť ako východiskový krok (Base model - základný model) na zníženie požadovaného množstva nových údajov Textové modely Verejný holandský rukopisný vzor:Dutch Margaretha Turnor 17th Century Trained by The Utrecht Archives; Training set: 178 pages, Validation set: 20 pages Textové modely Verejný model írskej gaelčiny:Irish, Gaelic and Roman type (Seanchló agus Cló Rómhánach) Trained by Gerard Farrell; Training set: 243 pages, Validation set: 3 pages Textové modely Tagovanie/Značkovanie https://help.transkribus.org/tagging a. Štrukturálne tagy (Structural Tags): Slúžia na označenie prvkov štruktúry dokumentu Editor dokumentov: prejdite na Konfigurácia ➞ Rozloženie (Layout) ➞ Riadenie typov štruktúry(Manage Structure Types) ➞ Povoľte viditeľnosť značiek, ktoré chcete použiť/pridajte ďalšie značky Vyberte tvar ➞, kliknite pravým tlačidlom myši a pridajte štrukturálnu značku Tagging Tagovanie/značkovanie b. Textové tagy/značky: slúžia na označenie prepisu a pridanie atribútov vo vnútri textov Textový editor: v editore vyberte kurzorom slovo, kliknite na príslušnú značku a pridajte vlastnosť Správa textových značiek: Konfigurácia ➞ Upravujte značky v nastaveniach kolekcie: pridávajte / odstraňujte značky a upravujte atribúty Example According to your needs, you can decide to train the model to: 1. Ponechajte skrátenú formu v prepise: jednoducho prepíšte skratky ako sú v dokumente Nerozpisujeme 2. Rozpisovanie skratiek: Neurónové siete sú často schopné naučiť sa rozpoznávať a používať rozšírenia, najmä ak sa objavujú často ➞ napíšte rozšírenie skratky do prepisu, venujte dôslednú pozornosť Rozpisujeme skratky (pozorne, rovnako) Skratky output: Skratka v texte output: Skratky. + rozšírenia v texte 3. Tagujeme a trénujeme skratky vrátane rozpisu : označte skratku a pridajte zodpovedajúci rozpis do vlastnosti "Rozšírenie" ➞ Pri trénovaní modelu vyberte možnosť trénovať skratky Tagy vrátane rozšírení output: možnosť získať iba skratky, skratky. po ktorých nasledujú ich rozpis alebo náhrada Skratky V konfigurácii tréningu začiarknite políčko Train Abbrevs with expansion (Trénovať model s rozpisom skratiek) Skratky ●Verejný modelUCL–University of Toronto #7 trénovaný na riešenie skratiek v stredovekých rukopisoch ○Training set: 330 pages, Validation set: 30 Example Skratky ●Model trénovaný na stredovekých latinských dokumentoch (1520) na rozpoznávanie značky "skratka" vrátane vlastníctva "rozpisu skratiek"Training set: 177 pages, Validation set: 30 pages Example Tréningové modely pre RTL písmo 5 verejných modelov (public models) pre rôzne RTL skripty v Transkribus 2 verzie osmansko-tureckého tlačového modelu Vaybertaytsh typ písma (jidiš) Rukopis jidiš (model Dybbuk) Zmes historických hebrejských písiem a jazykov (DiJeSt 2.0) RTL skripty RTL skripty Ako v súčasnosti prepisovať a trénovať údaje RTL v Transkribuse: Manuálne spustenie segmentácie (rozpoznávania rozloženia) alebo označovanie rozloženia (oblasti textu + základné čiary) manuálne ●Prepis textu z left-to-right v textovom editore (zľava – doprava) ●V konfigurácii tréningu ➞ Rozšírené nastavenia ➞ vyberte Reverse Text (RTL) tak, aby bol výstupný text napísaný v smere sprava doľava Example DiJeSt 2.0 model Vízia: ●Podpora RTL pre webovú aplikáciu ●Prispôsobovanie konfigurácie tréningu Rozpoznávanie rozloženia (Segmentácia) Paris, BnF, Fr. MS 12584 (13th century) 1. krok Rozpoznávanie rozloženia (Základné čiary (Baselines)& Bloky textu (Text regions) Čo sa stane, keď sa stránka rozpozná? 2. krok Rozpoznávanie textu 1.krok Rozpoznávanie rozloženia ●Analýza rozloženia obrazu dokumentu Obrázok je potrebné rozdeliť na textové oblasti a základné čiary Základ pre rozpoznávanie a pre transkripciu (prepis) Rozpoznávanie rozloženia (segmentácia) 1) Základná čiara (Baseline): Členená čiara prebiehajúca pozdĺž spodnej časti riadka rukou písaného textu Tri piliere rozloženia (segmentácie) Baseline 1)Základné čiary (Baselines) 2) 2)Bloky textu (Text region): obdĺžnikový tvar obklopujúci text Tri piliere rozloženia (segmentácie) Pri predvolenej analýze rozloženia sú základné čiary zoskupené do blokov textu (textových oblastí na základe ich súradníc (prístup zdola nahor) 1)Baseline 2) 2)Text region 3) 3)Polygóny riadku (Line Polygons: mnohouholníky, obklopujúce všetok rukou písaný text v riadku Tri piliere rozloženia (segmentácie) Line polygons Pri spustení tréningu textu alebo rozpoznávania textu sa mnohouholníky čiar vypočítajú algoritmom, počnúc základnými čiarami Tréning a rozpoznávanie textu prebiehajú na úrovni základných čiar !!! Kvalitu konečného rozpoznania (segmentácie) môže ovplyvniť: 1)Nepresné základné čiary (baselines): ○Zistí sa príliš málo základných čiar (východiskových hodnôt) alebo príliš veľa základných čiar (východiskových hodnôt) Rozpoznávanie rozloženia (segmentácia) Kvalitu konečného rozpoznania (segmentácie) môže ovplyvniť: 2)Nepresné bloky textu: ○Nesprávne poradie čítania riadkov; ○Príliš málo blokov textu/príliš veľa blokov textu (text regións) Rozpoznávanie rozloženia (segmentácia) Kvalitu konečného rozpoznania (segmentácie) môže ovplyvniť: 3)Nepresné polygóny (Inaccurate polygons): ○Aj keď sú základné čiary správne, modely nedokážu správne prepísať text. ○Riadkové mnohouholníky nepokrývajú väčšinu tela písmen/ Polygóny čiar zahŕňajú aj ďalšie (neželané) prvky na strane Rozpoznávanie rozloženia (segmentácia) Nepresné základné čiary Nepresné základné čiary Example Riešenia: 1)Použitie iného verejného modelu základných čiar (Baseline model) 2)Zmeňte pokročilé nastavenia (advanced settings) 3)Vytrénujte model základnej čiary (Train a baseline model) Nepresné základné čiary – čo robiť? 1)Použitie iného verejného modelu základných čiar (Baseline model) : ○Zmiešaná orientácia riadkov (Mixed Line Orientation) ○Horizontálna orientácia riadkov (Horizontal Line Orientation) ○Univerzálne riadky (Universal Lines) Nepresné základné čiary 2) Zmeňte pokročilé nastavenia (advanced settings) Nepresné základné čiary Generate new: Generovať ďalšie textové oblasti / Keep existing: Zachovať existujúce oblasti textu (použite to s poľami a tabuľkami) Po zistení sú riadky zoskupené do textových oblastí. K dispozícii sú dve metódy zoskupovania: General (Všeobecné): zoskupí čiary zľava doprava Custom (Vlastné): aglomeračné zoskupovanie založené na bode úplne vľavo každej čiary Voľba General: Výber orientácie riadka textu na zlepšenie klastrovania (zoskupovania) 2) Zmeňte pokročilé nastavenia (advanced settings) Nepresné základné čiary Škálovanie obrázka: Upscale obrázky s nízkym rozlíšením alebo Downscale obrázky s vysokým rozlíšením (túto funkciu použite len v prípade, že rozpoznávanie rozloženia nezistí žiadne alebo len niekoľko riadkov) 2) Zmeňte pokročilé nastavenia (advanced settings) Nepresné základné čiary Minimálna dĺžka základnej čiary (Minimal baseline length): Minimálna dĺžka riadkov v pixeloch (pre tabuľky je lepšie nastaviť ho na hodnotu Nízka) Prah presnosti základnej čiary (Baseline Accuracy threshold): Stredné a nízke poskytujú lepšie výsledky Použitie trénovaných separátorov (Use treined separators) Ak zvýšite túto hodnotu, okolité čiary sa zvyčajne zlučujú Max vzdialenosť pre spojenie základných čiar (Distance for merging baselines): Low: Zlúčia sa iba najbližšie čiary Medium High: vzdialené základné čiary sa zlúčia 2) Zmeňte pokročilé nastavenia (advanced settings Nepresné základné čiary Rozdeliť čiary v rámci bloku (Split lines on region border) Iba ak zachováte existujúce bloky textu: Delené čiary na hranici regiónu: Aby čiary striktne dodržiavali hranicu regiónu. Dôležité pre tabuľky! 2) Zmeňte pokročilé nastavenia (advanced settings Nepresné základné čiary Nepresné základné čiary Example 1 Example 2 3) Ak vám verejné modely a rozšírené nastavenia neposkytnú dobrý výsledok, tak: Trénujte Model pre základné čiary (Baselines model) vášho špecifického dokumentu Všetky stránky musia mať podobné rozloženie! Nepresné základné čiary Tréning modelu základných čiar (Baseline Model) Pripravte si aspoň 50 strán GT so správnymi základnými čiarami: ●Nakreslite všetky základné čiary manuálne alebo opravte automatické rozpoznávanie rozloženia ●Nakreslite základné čiary iba pre časti, ktoré chcete prepísať ● Tréning modelu základných čiar (Baseline Model) ○Vyberte tréningové údaje (Training Data) ○Vyberte overovacie údaje (Validation Data) ○Nastavenie modelu (Model setup) ○Rozšírené nastavenia Tréning modelu základných čiar (Baseline Model) Po zaškolení môžete použiť svoj prispôsobený Model pre základné čiary (Baselines model) pre váš dokument! Zobrazí sa v zozname vašich súkromných Modelov rozloženia (Layout Models) Modely pre základné čiary (Baselines Models) Nepresné bloky textu Nepresné bloky textu Example 1 Example 2 Bloky textu: Prístup zdola nahor (s predvoleným rozpoznávaním textu a rozloženia): 1.Rozpoznanie základných čiar 2.Agregácia východiskových hodnôt v textových oblastiach na základe ich súradníc 3.Základné čiary a polygóny sa tvoria v v momente rozpoznávania textu (Text Recognition) Analýzy rozloženie/segmentácia (rozpoznanie textu) Bloky textu: Prístup zdola nahor V tomto prístupe môžete upraviť iba nastavenia: 1.Metóda oblasti textu Orientácia základnej čiary textu Analýzy rozloženie/segmentácia (rozpoznanie textu) Bloky textu: Prístup zhora nadol 1.Rozpoznávanie blokov textu pomocou Modelu poľa (Field Model): polia sú v blokoch stránky 2.Rozpoznanie základných čiar (Layout Recognition) 1.Základné čiary a polygóny sa tvoria v v momente rozpoznávania textu (Text Recognition) Analýzy rozloženie/segmentácia (rozpoznanie textu) Modely poľa Modely poľa (Beta) Modely poľa je možné trénovať na: automatické rozpoznávanie a označovanie určitých prvkov (dát) rozloženia dokumentu. •Bloky textu - Textové oblasti (polia) Priradenie značiek štruktúry pre tieto oblasti Modely poľa (Beta) Blogy textu (Text regions) Noviny: Segmentácia rozloženia Segmentácia formulára Viac stĺpcové rozloženie textu Pripravte si cca 50 strán tréningových dát: •Nakreslite textovú oblasť okolo relevantných informácií, ktoré chcete extrahovať Priraďujte štrukturálne značky (voliteľné) Modely poľa (Beta) Modely (Models) Transkribus je miesto, kde môžete trénovať a spravovať svoje modely. Modely poľa (Beta) Modely poľa (Beta) ●Tréningové údaje (Training Data) ●Výber značky (tagov) (Tag Selection) ●Overovacie údaje (Validation Data) ●Nastavenie modelu (Model Setup) ●Rozšírené nastavenia(Cykly tréningu a miera učenia) 1)Vytvorenie Ground Truth pre rozpoznávanie polí: -minimálne 50 strán Viac strán so zložitým rozložením Spracovanie dokumentov s poľami 1)Vytvorenie Ground Truth pre rozpoznávanie polí 2)Trénovanie modelu rozpoznávania polí Spracovanie dokumentov s poľami 1)Vytvorenie Ground Truth pre rozpoznávanie polí 2)Trénovanie modelu rozpoznávania polí 3)Použitie modelu rozpoznávania polí na zostávajúce strany Spracovanie dokumentov s poľami 1)Vytvorenie Ground Truth pre rozpoznávanie polí 2)Trénovanie modelu rozpoznávania polí 3)Použitie modelu rozpoznávania polí na zostávajúce strany 4)Spustenie rozpoznávania rozloženia na detekciu čiar: Nastavenia: -Model základnej čiary (Baseline model): Horizontal/Mixed Text Line Orientation/Model trained by you -Zachovanie existujúcich blokov - oblastí textu (môže pomôcť) Minimálna dĺžka základnej čiary: (low) nízka -Rozdelené čiary na hranici regiónu Spracovanie dokumentov s poľami 1)Vytvorenie Ground Truth pre rozpoznávanie polí 2)Trénovanie modelu rozpoznávania polí 3)Použitie modelu rozpoznávania polí na zostávajúce strany 4)Spustenie rozpoznávania rozloženia na detekciu čiar 5)Rozpoznávanie textu 6)Verejný model / Privátny model, ktorý ste vyškolili, → možnosť aplikovať rôzne modely v rôznych oblastiach Spracovanie dokumentov s poľami 1)Vytvorenie Ground Truth pre rozpoznávanie polí 2)Trénovanie modelu rozpoznávania polí 3)Použitie modelu rozpoznávania polí na zostávajúce strany 4)Spustenie rozpoznávania rozloženia na detekciu čiar 5)Rozpoznávanie textu Verejný model / Vami vytrénovaný model 6)Korekcie (optional) 7)Export Spracovanie dokumentov s poľami Spracovanie dokumentov s poľami Ground Truth: 30 strán 5 tagov Example Príklady Modelov polí Example Príklady Modelov polí Nepresné polygóny (mnohouholníky) Inaccurate Polygons Example 1 Example 2 Prepare about 50 pages of training data: ●Adjust the line polygons manually Field Model trained on Line Polygons ●Training data ●Tag selection: TRAIN ON LINE POLYGONS ●Validation data ●Model setting ●Advanced settings (Training Cycles and Learning Rate) Field Model trained on Line Polygons Field Model trained on Line Polygons Table Models Modely tabuliek automaticky rozpoznávajú riadky a stĺpce a tým zlepšujú extrakciu a analýzu tabuľkových údajov. Modely pre tabuľky(Beta) ●Modely sa učia rozpoznávať riadky, stĺpce alebo obe ●Zatiaľ žiadne všeobecné modely, ale školenia pre konkrétne zbierky/dokumenty ●Nie sú potrebné oddeľovače (separátory) ●S dostatkom tréningových údajov dokáže model spracovať viacero typov tabuliek Modely pre tabuľky(Beta) Riadky a stĺpce Riadky a stĺpce Skosené tabuľky Viacriadkové bunky Ground Truth tvorba v editore: Tabuľka ●Stĺpce ●Riadky Modely pre tabuľky Stránky GT: ○Jednoduché dabuľky: 20 strán GT ○Ťažké tabuľky: 50 strán GT ○mix rôznych tabuliek: 50 až 100 strán GT v závislosti od počtu tabuliek Modely pre tabuľky Tréning (beta.transkribus.eu): ●Training data ●Validation data ●Model setting ●Advanced settings: Training Cycles and Learning Rate Modely pre tabuľky Modely pre tabuľky Ground Truth: 20 strán Rozpoznávanie s tabuľkovými modelmi Processed pages Modely pre tabuľky 1) Vytvorenie GT „základnej pravdy“ pre rozpoznávanie tabuliek: Spracovanie dokumentov s tabuľkami 1)Vytvorenie GT „základnej pravdy“ pre rozpoznávanie tabuliek 2)Trénovanie modelu rozpoznávania tabuliek Spracovanie dokumentov s tabuľkami 1)Vytvorenie GT „základnej pravdy“ pre rozpoznávanie tabuliek 2)Trénovanie modelu rozpoznávania tabuliek 3)Použitie modelu rozpoznávania tabuľky na zostávajúce strany Spracovanie dokumentov s tabuľkami 1)Vytvorenie GT „základnej pravdy“ pre rozpoznávanie tabuliek 2)Trénovanie modelu rozpoznávania tabuliek 3)Použitie modelu rozpoznávania tabuľky na zostávajúce strany 4)Spustenie rozpoznávania rozloženia na detekciu riadkov: 5)Nastavenia: 6)Model Základnej čiary (Baseline model): Horizontal/Mixed Text Line Orientation/Model trained by you -Zachovanie existujúcich oblastí textu -Zmena mierky obrázka -Minimálna dĺžka základnej čiary:Low -Rozdelené čiary na hranici regiónu Processing documents with tables 1)Vytvorenie GT „základnej pravdy“ pre rozpoznávanie tabuliek 2)Trénovanie modelu rozpoznávania tabuliek 3)Použitie modelu rozpoznávania tabuľky na zostávajúce strany 4)Spustenie rozpoznávania rozloženia na detekciu riadkov: •Rozpoznávanie textu (Text Recognition) Verejný model / Súkromný model, ktorý ste trénovali Processing documents with tables 1.Vytvorenie GT „základnej pravdy“ pre rozpoznávanie tabuliek 2.Trénovanie modelu rozpoznávania tabuliek 3.Použitie modelu rozpoznávania tabuľky na zostávajúce strany 4.Spustenie rozpoznávania rozloženia na detekciu riadkov 5.Rozpoznávanie textu (Text Recognition) 6.Korekcie (Correction (voliteľné) 7.Export (Excel) Processing documents with tables začnite s približne 40-60 stranami GT 50 strán pre Modely polí ○jednoduché tabuľky: 10/20 strán Zložité tabuľky: 30-50 strán Mix rôznych tabuliek: minimálne 50 strán ✍ Príprava tréningových údajov pomocou editora rozloženia ○Oblasti kreslenia a tagovania pre modely polí (= priradiť tagy štruktúry) ○Kreslenie tabuliek pre tabuľkové modely Pracovný postup pre prácu s tabuľkami a poľami: 1.rozpoznať oblasti alebo tabuľky potom základné čiary potom text Modely polí a tabuliek: Súhrn Výpočty presnosti transkripcie Výpočty presnosti transkripcie Dve verzie tej istej stránky: 1.Reference (Ground Truth) 2.Hypothesis (HTR Automatic Transcription) 1) 1) ○Porovnajte textové verzie (pozrite si rozdiely medzi dvoma vybratými verziami) ○Porovnať...(Compare) (porovnáva tieto dva prepisy ○a vypočítava chybovosť slov ○a chybovosť znakov) Porovnať textové verzie Ground Truth - model "Transkribus English handwriting M3b" bez jazykového modelu: Ground Truth - “Transkribus anglický rukopis M3b" model s jazykovým modelom: Výpočty presnosti transkripcie Porovnať...Ground Truth - Model "Transkribus English handwriting M3b" bez jazykového modelu: Ground Truth - “Transkribus anglický rukopis M3b" model s jazykovým modelom: Výpočty presnosti transkripcie Compare → Advanced Compare → Baselines Predvolené rozloženie s rozpoznávaním textu Základný model orientácie zmiešanej čiary Základný model univerzálnych línií Výpočty presnosti transkripcie Kontrola kvality Q1 & Q2 Q3 & Q4 Publikačné modely v Transkribus Publikačné modely Používatelia sa rozhodnú publikovať svoje vlastné modely, pretože Sú hrdí na svoju prácu, a preto ju chcú sprístupniť aj ostatným používateľom, ktorí pracujú s podobnými skriptami a jazykmi Musia publikovať čo najviac Majú záujem o spoluprácu s inými vedcami na súvisiacich projektoch Môžu vedieť o iných kolegoch alebo výskumných projektoch, ktoré by chceli použiť model, ale nemôžu zdieľať tréningové údaje Zenodo Komunita pre publikovanie súborov údajov GT ➞ plánuje zahrnúť priame rozšírenie od spoločnosti Transkribus Ako publikovať model: Kontaktujte nás prostredníctvominfo@readcoop.eu alebo prostredníctvomcontact form/help center aby ste nás informovali, že chcete zverejniť svoj model v rámci spoločnosti Transkribus ○Požiadavky: veľkosť tréningovej sady ~ 50 000 slov, CER 7%-5% alebo nižšia ➞. Ak ide o model vyškolený na skript alebo jazyk, ktorý zatiaľ nemôžeme ponúknuť, tieto kritériá neplatia ○Poskytnúť stručný opis modelu, ktorý pomôže ostatným používateľom pochopiť použitý obsah školenia; Užitočné je aj pridanie reprezentatívneho obrázka alebo úryvku ○Povedzte nám, kto by mal byť uvedený ako tvorca modelu - môže to byť jedna alebo viac osôb alebo celý výskumný projekt ○Viditeľnosť tréningových údajov: môžu byť zachované v súkromí (z dôvodov ochrany údajov) alebo zdieľané, aby boli aj údaje o školeniach verejné Publikačné modely Plánované na rok 2024 Transkribus Connect je miesto, kde sa exchange stane. Transkribus stránky Transkribus Connect je miesto, kde sa exchange stane. Plány predplatného Transkribus stránky - vlastnosti Jednoduché zdieľanie materiálu Pohľad strana vedľa strany (obrázok-prepis) Vylepšené možnosti vyhľadávania Transkribus stránky Vaša prvá stránka Transkribus Vytvorenie novej stránky •Názov projektu •Vlastná webová adresa(app.transkribus.eu/sites/yourchosenname) •Prepojené zbierky Vaša prvá stránka Transkribus 3 editovateľné stránky: •Domov O Preskúmať ➞ upravovať stránky a zobrazovať aktualizácie súčasne, vedľa seba Vaša prvá stránka Transkribus Domov:( Home - Domovská stránka) ●Titul Stručný opis obsahu/stránky Obrázok pozadia domovskej stránky Vaša prvá stránka Transkribus O (About) (Vysvetlenie projektu, obsah, tím...): ●Toľko sekcií, koľko chcete Každá časť: nadpis - text - obrázok (voliteľné) Vaša prvá stránka Transkribus Preskúmať (Explore) (Ako chcete nakonfigurovať stránku vyhľadávania): ●Povolenie značiek prehľadávania Povolené značky (ak ste použili značky vo vašich dokumentoch Transkribus) Povoliť filtre a filter rokov (na základe metadát dokumentov Transkribus) Vaša prvá stránka Transkribus Read&Search - Demo (transkribus.eu) Ďalšie nastavenia (Other settings): ●Jazyky + možnosť úpravy prekladov Súkromie Motív (logo a farba) Používatelia (vlastník, redaktori) Čas na otázky Hands-on session Praktické sedenie Help Center https://help.transkribus.org/ Thank you! Website: https://transkribus.org/ Email addresses: s.mansutti@readcoop.eu m.elattal@readcoop.eu info@readcoop.eu Unlocking the past, together