Other formats:
BibTeX
LaTeX
RIS
@misc{78821, author = {Katuščák, Dušan and Nagy, Imrich}, address = {Banská Bystrica}, doi = {http://dx.doi.org/10.5281/zenodo.11109087}, edition = {1.}, keywords = {transcription, artificial intelligence, historical texts, datasets}, location = {Banská Bystrica}, publisher = {ZENODO}, title = {Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets. https://zenodo.org/records/11109087?preview=1}, url = {https://doi.org/10.5281/zenodo.11109087}, year = {2024} }
TY - GEN ID - 78821 AU - Katuščák, Dušan - Nagy, Imrich PY - 2024 TI - Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets. https://zenodo.org/records/11109087?preview=1 PB - ZENODO CY - Banská Bystrica KW - transcription, artificial intelligence, historical texts, datasets UR - https://doi.org/10.5281/zenodo.11109087 N2 - lovak Supermodel M1 (SSM1) Dňa 24.04.2024 o 9,09 hod sme spustili v platforme Transkribus Expert v. 1.27.0 tvorbu nového agregovaného slovenskéhon supermodelu. Základ pre tvorbu supermodelu pre určité slovacikálne rukopisy tvorili parciálne modely riešiteľov úloh v projekte Skriptor Model má označenie ID63569 Slovak Supermodel M1 (SSM1). Na tvorbu modelu sme použili 2583 strán v kvalite Ground Truth (GT); 56713 riadkov a 333 777 slov. Z toho 1224 strán na tréning (Train set ) a 135 strán na overenie nového modelu (Validation set). Dokumenty na tento model sú v slovenčine, latinčine, maďarčine a češtine, resp. slovakizovanej češtine. Vstupné rukopisy mali rôznu kvalitu, pokiaľ ide o digitalizáty. Niektoré digitalizáty boli použité z digitálnych repozitárov spravidla v dobrej kvalite 600 dpi a niektoré boli výsledkom snímania pomocou zariadenia ScanTent a softvéru DocScan v dostatočnej kvalite 300 dpi. Ukážky písma dokumentov sa nachádzajú v štúdii z výskumu Skriptor. Samotné ukážky považujeme pre ďalšie používanie a zdokonaľovanie modelu za veľmi dôležité, pretože ďalší výskumníci získajú predstavu o podobnom alebo odlišnom písme vlastných dokumentov, ktoré chcú transkribovať. Boli dosiahnuté hodnoty Train set: 4.90% a Validation set: 5.30%. Tvorba modelu SSM1 na servri Transkribus trvala dva dni, 5 hodín, 16 s, teda 53 hodín a 58 minút. Proces tvorby bol skončený po 174 cykloch (epoch). Model SSM1 je prvým pokusom na Slovensku a v Česku o tvorbu nástroja, prostredníctvom ktorého by bolo možné automaticky sprístupniť určité typy rukopisných dokumentov, ktoré sú podobné písmam použitým na jeho tvorbu. V žiadnom prípade nemožno ID63569 Slovak Supermodel M1 (SSM1) považovať za definitívny univerzálny model transkripcie historických rukopisov slovacikálnej proveniencie všetkých typov a období. Varieta písiem a rukopisných štýlov je nekonečná a tvorba optimálneho agregovaného modelu predstavuje výzvu pre ďalších výskumníkov a entuziastov v nasledujúcich rokoch. Domnievame sa však, že náš prvý agregovaný model SSM1 môže uľahčiť automatickú transkripciu ďalších analogických rukopisov. Výskumný tím plánuje sprístupniť datasety v rámci udržateľnosti projektu v roku 2024-2028 prednostne pre výskumné a vzdelávacie účely pre inštitúcie a výskumníkov, ktorí budú chcieť prispieť k tvorbe modelu historických rukopisov v západoslovanských jazykov, resp. jazykov slovacikálnej a bohemikálnej proveniencie. Copyright: CC BY-NC-SA. Samozrejme, takáto automatická transkripcia neprinesie hneď uspokojivé výsledky. Môže však uľahčiť „hrubú“ postupnú automatickú transkripciu ďalších strán, ich manuálnu opravu do stavu GT a následné použitie väčších datasetov GT na zdokonalenie nového modelu na báze nášho SSM1. Po vytvorení ďalších stoviek a tisícov strán GT bude možné pristupovať k tvorbe ďalších generácií nových modelov na základe SSM1. Vývoj by mohol pokračovať pre rukopisy modelmi nových generácií SSM2, SSM3 ap. Respektíve, pre tlače a strojopisy (P-Print) ako supermodely SSP1, SSP2, SSP3 ap. ER -
KATUŠČÁK, Dušan and Imrich NAGY. \textit{Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets. https://zenodo.org/records/11109087?preview=1}. 1st ed. Banská Bystrica: ZENODO, 2024, 2751 pp. Available from: https://dx.doi.org/10.5281/zenodo.11109087.
|