V 2024

Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets. https://zenodo.org/records/11109087?preview=1

KATUŠČÁK, Dušan and Imrich NAGY

Basic information

Original name

Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets. https://zenodo.org/records/11109087?preview=1

Name (in English)

Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets. https://zenodo.org/records/11109087?preview=1

Authors

KATUŠČÁK, Dušan and Imrich NAGY

Edition

1. vyd. Banská Bystrica, 2751 pp. 2024

Publisher

ZENODO

Other information

Type of outcome

Výzkumná zpráva

Field of Study

50804 Library science

Confidentiality degree

není předmětem státního či obchodního tajemství

Organization unit

Faculty of Philosophy and Science in Opava

Keywords (in Czech)

transkripcia, umelá inteligencia, historické texty, datasety

Keywords in English

transcription, artificial intelligence, historical texts, datasets

Tags

International impact

Links

APVV–19–NEWPROJECT–17816 (2020–2024)., research and development project.
Změněno: 4/5/2024 00:39, prof. PhDr. Dušan Katuščák, PhD.

Abstract

V originále

lovak Supermodel M1 (SSM1) Dňa 24.04.2024 o 9,09 hod sme spustili v platforme Transkribus Expert v. 1.27.0 tvorbu nového agregovaného slovenskéhon supermodelu. Základ pre tvorbu supermodelu pre určité slovacikálne rukopisy tvorili parciálne modely riešiteľov úloh v projekte Skriptor Model má označenie ID63569 Slovak Supermodel M1 (SSM1). Na tvorbu modelu sme použili 2583 strán v kvalite Ground Truth (GT); 56713 riadkov a 333 777 slov. Z toho 1224 strán na tréning (Train set ) a 135 strán na overenie nového modelu (Validation set). Dokumenty na tento model sú v slovenčine, latinčine, maďarčine a češtine, resp. slovakizovanej češtine. Vstupné rukopisy mali rôznu kvalitu, pokiaľ ide o digitalizáty. Niektoré digitalizáty boli použité z digitálnych repozitárov spravidla v dobrej kvalite 600 dpi a niektoré boli výsledkom snímania pomocou zariadenia ScanTent a softvéru DocScan v dostatočnej kvalite 300 dpi. Ukážky písma dokumentov sa nachádzajú v štúdii z výskumu Skriptor. Samotné ukážky považujeme pre ďalšie používanie a zdokonaľovanie modelu za veľmi dôležité, pretože ďalší výskumníci získajú predstavu o podobnom alebo odlišnom písme vlastných dokumentov, ktoré chcú transkribovať. Boli dosiahnuté hodnoty Train set: 4.90% a Validation set: 5.30%. Tvorba modelu SSM1 na servri Transkribus trvala dva dni, 5 hodín, 16 s, teda 53 hodín a 58 minút. Proces tvorby bol skončený po 174 cykloch (epoch). Model SSM1 je prvým pokusom na Slovensku a v Česku o tvorbu nástroja, prostredníctvom ktorého by bolo možné automaticky sprístupniť určité typy rukopisných dokumentov, ktoré sú podobné písmam použitým na jeho tvorbu. V žiadnom prípade nemožno ID63569 Slovak Supermodel M1 (SSM1) považovať za definitívny univerzálny model transkripcie historických rukopisov slovacikálnej proveniencie všetkých typov a období. Varieta písiem a rukopisných štýlov je nekonečná a tvorba optimálneho agregovaného modelu predstavuje výzvu pre ďalších výskumníkov a entuziastov v nasledujúcich rokoch. Domnievame sa však, že náš prvý agregovaný model SSM1 môže uľahčiť automatickú transkripciu ďalších analogických rukopisov. Výskumný tím plánuje sprístupniť datasety v rámci udržateľnosti projektu v roku 2024-2028 prednostne pre výskumné a vzdelávacie účely pre inštitúcie a výskumníkov, ktorí budú chcieť prispieť k tvorbe modelu historických rukopisov v západoslovanských jazykov, resp. jazykov slovacikálnej a bohemikálnej proveniencie. Copyright: CC BY-NC-SA. Samozrejme, takáto automatická transkripcia neprinesie hneď uspokojivé výsledky. Môže však uľahčiť „hrubú“ postupnú automatickú transkripciu ďalších strán, ich manuálnu opravu do stavu GT a následné použitie väčších datasetov GT na zdokonalenie nového modelu na báze nášho SSM1. Po vytvorení ďalších stoviek a tisícov strán GT bude možné pristupovať k tvorbe ďalších generácií nových modelov na základe SSM1. Vývoj by mohol pokračovať pre rukopisy modelmi nových generácií SSM2, SSM3 ap. Respektíve, pre tlače a strojopisy (P-Print) ako supermodely SSP1, SSP2, SSP3 ap.

In English

Slovak Supermodel M1 (SSM1) On April 24, 2024 at 9:09 a.m., we launched the Transkribus Expert v. 1.27.0 creation of a new aggregate Slovak supermodel. The basis for the creation of a supermodel for certain Slovak manuscripts was the partial models of problem solvers in the Skriptor project The model has the designation ID63569 Slovak Supermodel M1 (SSM1). We used 2583 pages in Ground Truth (GT) quality to create the model; 56713 lines and 333777 words. Of these, 1224 pages for training (Train set) and 135 pages for verification of the new model (Validation set). The documents for this model are in Slovak, Latin, Hungarian and Czech, respectively. Slovakized Czech. The input manuscripts were of varying quality in terms of the digitized ones. Some digitized images were used from digital repositories, usually at a good quality of 600 dpi, and some were the result of scanning with the ScanTent device and DocScan software at a sufficient quality of 300 dpi. Samples of document fonts can be found in the Skriptor research study. We consider the demos themselves to be very important for the further use and improvement of the model, as other researchers will get an idea of the similar or different writing of their own documents that they want to transcribe. The values of Train set: 4.90% and Validation set: 5.30% were achieved. The creation of the SSM1 model on the Transkribus server took two days, 5 hours, 16 seconds, i.e. 53 hours and 58 minutes. The creation process was finished after 174 cycles (epochs). The SSM1 model is the first attempt in Slovakia and the Czech Republic to create a tool through which it would be possible to automatically make available certain types of handwritten documents that are similar to the fonts used to create them. In no case can the ID63569 Slovak Supermodel M1 (SSM1) be considered a definitive universal model for the transcription of historical manuscripts of Slovak provenance of all types and periods. The variety of fonts and handwriting styles is endless, and the creation of an optimal aggregated model is a challenge for other researchers and enthusiasts in the years to come. However, we believe that our first aggregated SSM1 model may facilitate the automatic transcription of further analogous manuscripts. The research team plans to make the datasets available as part of the sustainability of the project in 2024-2028, preferably for research and educational purposes for institutions and researchers who want to contribute to the creation of a model of historical manuscripts in West Slavic languages, respectively languages of Slovak and Bohemian origin. Copyright: CC BY-NC-SA. Of course, such automatic transcription will not immediately bring satisfactory results. However, it can facilitate the "rough" step-by-step automatic transcription of additional pages, manually correcting them to GT status, and then using larger GT datasets to refine a new model based on our SSM1. After the creation of hundreds and thousands more pages of GT, it will be possible to approach the creation of next generations of new models based on SSM1. Development could continue for manuscripts with models of new generations SSM2, SSM3 etc. Respectively, for prints and typesets (P-Print) such as supermodels SSP1, SSP2, SSP3 etc. (Google translate)