2024
Katuščák, D., Nižníková, L., Mikušková, M., Halfarová, N., Gajdošová, T., Málková, L., Taufrová, N., Nagy, I., Kováčová-Pohlová, K., Šmida, M., & Kociánová, N. (2024). Slovak Supermodel P&T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets (First version (20240520)) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.11218527
KATUŠČÁK, DušanZákladní údaje
Originální název
Katuščák, D., Nižníková, L., Mikušková, M., Halfarová, N., Gajdošová, T., Málková, L., Taufrová, N., Nagy, I., Kováčová-Pohlová, K., Šmida, M., & Kociánová, N. (2024). Slovak Supermodel P&T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets (First version (20240520)) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.11218527
Název anglicky
Katuščák, D., Nižníková, L., Mikušková, M., Halfarová, N., Gajdošová, T., Málková, L., Taufrová, N., Nagy, I., Kováčová-Pohlová, K., Šmida, M., & Kociánová, N. (2024). Slovak Supermodel P&T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets (First version (20240520)) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.11218527
Autoři
Vydání
1 ver. 2024
Další údaje
Typ výsledku
Výzkumná zpráva
Obor
50804 Library science
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Organizační jednotka
Filozoficko-přírodovědecká fakulta v Opavě
Klíčová slova česky
transkripcia, umelá inteligencia, historické texty
Klíčová slova anglicky
transcription, artificial intelligence, historical texts
Změněno: 22. 5. 2024 11:33, prof. PhDr. Dušan Katuščák, PhD.
V originále
SLO: Dňa 17.05.2024 sme spustili vo webovej aplikácii Transkribus tvorbu nového agregovaného slovenského supermodelu. Základ pre tvorbu supermodelu pre určité slovenské tlačené historické dokumenty a strojom písané dokumenty tvorili parciálne modely riešiteľov úloh v projekte Skriptor (Univerzita Mateja Bela v Banskej Bystrici a Štátna vedecká knižnica v Banskej Bystrici), ako aj transkripcie, ktoré pripravili študenti Slezskej univerzity v Opave v rámci Študentskej grantovej súťaže a vzdelávacích aktivít. Michaela Mikušková a Lucia Nižníková v rámci projektu Skriptor kompletne spracovali náročnú segmentáciu a manuálnu transkripciu 92 s. GT historickej tlačenej knihy J.A. Komenského Orbis Pictus (vydanie z roku 1798). Dušan Katuščák v rámci projektu Skriptor, vzdelávacích aktivít a študentskej grantovej súťaže SGS na Slezskej univerzite a vedenia diplomovej práce v Opave spracoval celý do kvality GT celý rad historických novín, časopisov a kníh z 19. a začiatku 20 storočia Klára Kováčová-Pohlová (Diplomová práca, 2024, FPF SU Opava) a Matej Šmida (UMB Banská Bystrica) spracovali strojopisné dokumenty, pričom použili vzorky rôznych fontov v slovenskom, českom, nemeckom jazyku (ca 150 s.) Nikola Halfarová, Terezie Gajdošová, Lenka Málková, Nikol Taufrová, Nela Kociánová (4. roč, FPF SLU)v predmete prof. Dušana Katuščáka Digitalizace II. pripravili ca 80 s. prepisov GT z rôznych historických tlačí z 18. a 19. storočia písaných v češtine (švabach). Model má označenie ID78289 SLOVAK Supermodel print&typewriter (SSPT1) sme použili 542 strán v kvalite Ground Truth (GT 37897 riadkov a 200697 slov). 59 strán na overenie nového modelu (Validation set ). V modeli ID78289 SLOVAK Supermodel print&typewriter (SSPT1) boli dosiahnuté hodnoty Train set: 1,00% a Validation set: 1,00%. Znamená to teda „presnosť“ prepisu 99%. Tvorba modelu SSM1 na servri Transkribus trvala 21 hodín a 52 minút. Proces tvorby bol nastavený na 100 cyklov a skončený po 100 cykloch (epoch). Model SSPT1 je prvým pokusom na Slovensku av Česku o tvorbe agregovaného nástroja, prostredníctvom ktorého by bolo možné automaticky sprístupniť určité typy tlačených a strojopisných dokumentov, ktoré sú podobné písmam použitým v jeho tvorbe. ID78289 SLOVAK Supermodel print&typewriter (SSPT1) nepovažujeme za definitívny univerzálny model transkripcie historických tlačí a strojopisov slovenskej proveniencie všetkých typov a období. Varieta písiem a štýlov je rozmanitá a tvorba optimálneho agregovaného modelu predstavuje úlohu pre ďalších výskumníkov a entuziastov v nasledujúcich rokoch. Copyright: CC BY-NC-SA. Samozrejme, takáto automatická transkripcia neprinesie hneď uspokojivé výsledky. Môže však byť „hrubú“ postupnú automatickú transkripciu ďalších strán, ich manuálnu opravu do stavu GT a následné použitie väčších datasetov GT na zdokonalenie nového modelu na báze nášho SSPT1. Po vytvorení ďalších stoviek a tisícov strán GT bude možné pristúpiť k tvorbe ďalších generácií nových modelov na základe SSPT1 . Vývoj by mohol pokračovať pre tlač a strojopisy modelmi nových generácií SSPT2 , SSPT3 ap. Výzvu pre výskumníkov predstavuje aj vývoj a tvorbu nového agegovaného supermodelu, ktorý by zahrnul jednak rukopisy a jednak tlače a strojopisy. Tento slovenský supermodel by mohol byť zdieľaný v rámci komunity odborníkov Transkribus a zahrnutý do niektorého veľkého supermodelu Transkribus Community ap.
Anglicky
SLO: On May 17, 2024, we launched the creation of a new aggregated Slovak supermodel in the Transkribus web application. The basis for the creation of a supermodel for certain Slovak printed historical documents and typewritten documents was the partial models of task solvers in the Skriptor project (Matej Bela University in Banská Bystrica and the State Science Library in Banská Bystrica), as well as transcriptions prepared by students of the University of Silesia in Opava in within the Student Grant Competition and educational activities. As part of the Skriptor project, Michaela Mikušková and Lucia Nižníková completely processed the demanding segmentation and manual transcription of 92 s. GT of historical printed book J.A. Comenius' Orbis Pictus (1798 edition). Dušan Katuščák, as part of the Skriptor project, educational activities and the SGS student grant competition at the University of Silesia, and the management of the diploma thesis in Opava, processed a whole range of historical newspapers, magazines and books from the 19th and early 20th centuries to GT quality. Klára Kováčová-Pohlová (Diplomová práce, 2024, FPF SU Opava) and Matej Šmida (UMB Banská Bystrica) processed typewritten documents, using samples of various fonts in Slovak, Czech, German languages (ca. 150 pp.) Nikola Halfarová, Terezie Gajdošová, Lenka Málková, Nikol Taufrová, Nela Kociánová (4th year, FPF SLU) in the subject of prof. Dušan Katuščák Digitization II. they prepared ca. 80 s. of GT transcriptions from various historical prints from the 18th and 19th centuries written in Czech (Svabian). The model is marked ID78289 SLOVAK Supermodel print&typewriter (SSPT1) we used 542 pages in Ground Truth quality (GT 37897 lines and 200697 words). 59 pages for validation of the new model (Validation set). In the model ID78289 SLOVAK Supermodel print&typewriter (SSPT1) the values Train set: 1.00% and Validation set: 1.00% were achieved. So it means the "accuracy" of the transcription is 99%. The creation of the SSM1 model on the Transkribus server took 21 hours and 52 minutes. The creation process was set to 100 cycles and ended after 100 cycles (epochs). The SSPT1 model is the first attempt in Slovakia and the Czech Republic to create an aggregated tool through which it would be possible to automatically make available certain types of printed and typewritten documents that are similar to the fonts used in its creation. ID78289 SLOVAK We do not consider the Supermodel print&typewriter (SSPT1) to be a definitive universal model for the transcription of historical prints and typewriters of Slovak provenance of all types and periods. The variety of fonts and styles is diverse, and the creation of an optimal aggregate model is a task for other researchers and enthusiasts in the years to come. Copyright: CC BY-NC-SA. Of course, such automatic transcription will not immediately bring satisfactory results. However, it can be "rough" to gradually automatically transcribe additional pages, manually correct them to GT status, and then use larger GT datasets to refine a new model based on our SSPT1. After the creation of hundreds and thousands of pages of GT, it will be possible to proceed with the creation of further generations of new models based on SSPT1. Development could continue for printing and typewriting with models of new generations SSPT2, SSPT3 etc. The challenge for researchers is also the development and creation of a new aged supermodel, which would include both manuscripts and prints and typescripts. This Slovak supermodel could be shared within the Transkribus community of experts and included in some big Transkribus Community supermodel, etc.