Other formats:
BibTeX
LaTeX
RIS
@misc{79003, author = {Katuščák, Dušan}, doi = {http://dx.doi.org/10.5281/zenodo.11218527}, edition = {1 ver.}, keywords = {transcription, artificial intelligence, historical texts}, title = {Katuščák, D., Nižníková, L., Mikušková, M., Halfarová, N., Gajdošová, T., Málková, L., Taufrová, N., Nagy, I., Kováčová-Pohlová, K., Šmida, M., & Kociánová, N. (2024). Slovak Supermodel P&T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets (First version (20240520)) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.11218527}, url = {https://doi.org/10.5281/zenodo.11218527}, year = {2024} }
TY - GEN ID - 79003 AU - Katuščák, Dušan PY - 2024 TI - Katuščák, D., Nižníková, L., Mikušková, M., Halfarová, N., Gajdošová, T., Málková, L., Taufrová, N., Nagy, I., Kováčová-Pohlová, K., Šmida, M., & Kociánová, N. (2024). Slovak Supermodel P&T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets (First version (20240520)) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.11218527 KW - transcription, artificial intelligence, historical texts UR - https://doi.org/10.5281/zenodo.11218527 N2 - SLO: Dňa 17.05.2024 sme spustili vo webovej aplikácii Transkribus tvorbu nového agregovaného slovenského supermodelu. Základ pre tvorbu supermodelu pre určité slovenské tlačené historické dokumenty a strojom písané dokumenty tvorili parciálne modely riešiteľov úloh v projekte Skriptor (Univerzita Mateja Bela v Banskej Bystrici a Štátna vedecká knižnica v Banskej Bystrici), ako aj transkripcie, ktoré pripravili študenti Slezskej univerzity v Opave v rámci Študentskej grantovej súťaže a vzdelávacích aktivít. Michaela Mikušková a Lucia Nižníková v rámci projektu Skriptor kompletne spracovali náročnú segmentáciu a manuálnu transkripciu 92 s. GT historickej tlačenej knihy J.A. Komenského Orbis Pictus (vydanie z roku 1798). Dušan Katuščák v rámci projektu Skriptor, vzdelávacích aktivít a študentskej grantovej súťaže SGS na Slezskej univerzite a vedenia diplomovej práce v Opave spracoval celý do kvality GT celý rad historických novín, časopisov a kníh z 19. a začiatku 20 storočia Klára Kováčová-Pohlová (Diplomová práca, 2024, FPF SU Opava) a Matej Šmida (UMB Banská Bystrica) spracovali strojopisné dokumenty, pričom použili vzorky rôznych fontov v slovenskom, českom, nemeckom jazyku (ca 150 s.) Nikola Halfarová, Terezie Gajdošová, Lenka Málková, Nikol Taufrová, Nela Kociánová (4. roč, FPF SLU)v predmete prof. Dušana Katuščáka Digitalizace II. pripravili ca 80 s. prepisov GT z rôznych historických tlačí z 18. a 19. storočia písaných v češtine (švabach). Model má označenie ID78289 SLOVAK Supermodel print&typewriter (SSPT1) sme použili 542 strán v kvalite Ground Truth (GT 37897 riadkov a 200697 slov). 59 strán na overenie nového modelu (Validation set ). V modeli ID78289 SLOVAK Supermodel print&typewriter (SSPT1) boli dosiahnuté hodnoty Train set: 1,00% a Validation set: 1,00%. Znamená to teda „presnosť“ prepisu 99%. Tvorba modelu SSM1 na servri Transkribus trvala 21 hodín a 52 minút. Proces tvorby bol nastavený na 100 cyklov a skončený po 100 cykloch (epoch). Model SSPT1 je prvým pokusom na Slovensku av Česku o tvorbe agregovaného nástroja, prostredníctvom ktorého by bolo možné automaticky sprístupniť určité typy tlačených a strojopisných dokumentov, ktoré sú podobné písmam použitým v jeho tvorbe. ID78289 SLOVAK Supermodel print&typewriter (SSPT1) nepovažujeme za definitívny univerzálny model transkripcie historických tlačí a strojopisov slovenskej proveniencie všetkých typov a období. Varieta písiem a štýlov je rozmanitá a tvorba optimálneho agregovaného modelu predstavuje úlohu pre ďalších výskumníkov a entuziastov v nasledujúcich rokoch. Copyright: CC BY-NC-SA. Samozrejme, takáto automatická transkripcia neprinesie hneď uspokojivé výsledky. Môže však byť „hrubú“ postupnú automatickú transkripciu ďalších strán, ich manuálnu opravu do stavu GT a následné použitie väčších datasetov GT na zdokonalenie nového modelu na báze nášho SSPT1. Po vytvorení ďalších stoviek a tisícov strán GT bude možné pristúpiť k tvorbe ďalších generácií nových modelov na základe SSPT1 . Vývoj by mohol pokračovať pre tlač a strojopisy modelmi nových generácií SSPT2 , SSPT3 ap. Výzvu pre výskumníkov predstavuje aj vývoj a tvorbu nového agegovaného supermodelu, ktorý by zahrnul jednak rukopisy a jednak tlače a strojopisy. Tento slovenský supermodel by mohol byť zdieľaný v rámci komunity odborníkov Transkribus a zahrnutý do niektorého veľkého supermodelu Transkribus Community ap. ER -
KATUŠČÁK, Dušan. \textit{Katuščák, D., Nižníková, L., Mikušková, M., Halfarová, N., Gajdošová, T., Málková, L., Taufrová, N., Nagy, I., Kováčová-Pohlová, K., Šmida, M., \&{} Kociánová, N. (2024). Slovak Supermodel P\&{}T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets (First version (20240520)) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.11218527}. 1 ver. 2024. Available from: https://dx.doi.org/10.5281/zenodo.11218527.
|