Umelá inteligencia pomáha sprístupňovať písomné dedičstvo


Umelá inteligencia pomáha sprístupňovať písomné dedičstvo

Artificial intelligence helps make written heritage accessible


Knihovna - knihovnická revue, Praha, Národní knihovna, 2022, 1801-3252

Článek v odborném periodiku


Filozoficko-přírodovědecká fakulta v Opavě

Kľúčové slová: digital humanities, OCR, READ‑COOP, umelá inteligencia, platforma Transkribus, HTR+, projekt SKRIPTOR, Andrej Kmeť, švabach, fraktúra, antikva, read & search

Keywords: digital humanities, OCR, READ‑COOP, artificial intelligence, Transkribus platform, HTR+, SKRIPTOR project, Andrej Kmeť, Schwabacher, Fraktur, Antiqua, read & search


Resumé: Témou prípadovej štúdie je vedecký a metodologický kontext európskeho projektu základného výskumu READ a aplikácia výsledkov tohto výskumu na Slovensku a v Česku. Autor upozorňuje na pokračovanie projektu READ a pokrok vo výskumoch, aplikáciách a experimentoch, ktorým sa venuje medzinárodná komunita digital humanities v rámci združenia READ­‑COOP od roku 2019. Súčasťou týchto aktivít je aj slovenský projekt aplikovaného výskumu a grantu s akronymom SKRIPTOR, rozplánovaný na roky 2020–2024. Na základe informačného prieskumu a výberu najnovšej literatúry ukazuje pokrok vo výskume a aplikáciách v oblasti optického rozlišovania písma OCR. Jadro štúdie je zamerané na používateľský a nie informatický prístup k využitiu platformy Transkribus na automatické rozpoznávanie textov historických dokumentov. Popisuje skúsenosti a poznatky získané pri osvojovaní si platformy Transkribus, ktorá využíva umelú inteligenciu stroja OCR a metódu HTR+. V štúdii sú vysvetlené a ilustrované jednotlivé hlavné kroky experimentov, proces učenia stroja až po vytvorenie nových modelov transkripcie a výsledkov automatickej transkripcie tlačenej fraktúry a rukopisných listov Andreja Kmeťa. Štúdia predstavuje aj prvý nový efektívny model transkripcie historického tlačeného písma slovenskej fraktúry (švabachu). Najprv vysvetľuje unikátny experiment s transkripciou tlačených slovenských a českých textov fraktúry. Nasleduje popis pokročilej experimentálnej transkripcie rukopisných listov Andreja Kmeťa. Predstavuje možnosti sprístupnenia transkribovaných zbierok a dokumentov v lokálnych sieťach a na internete.


Summary: The topic of the study is the scientific and methodological context of the European project of basic research READ and application of the results of this research in Slovakia and the Czech Republic. The study is part of the ongoing applications of the READ project. It shows the progress of research, applications and experiments undertaken by the digital humanities international community involved in the READ­‑COOP association since 2019. Part of these activities is also a Slovak project of applied research with the acronym of SKRIPTOR, planned for 2020-2024. Based on information survey and selection of the latest information sources, there has been some progress in research and applications in the field of OCR. The core of the study is focused on the user­‑centred rather than IT‑based approach to the use of the Transkribus platform for automatic text recognition of historical documents. It describes the experience and knowledge gained in adopting the Transkribus platform that uses artificial intelligence of the OCR machine and the HTR+ method. The study explains and illustrates the main steps of the experiments, the process of training of the machine, the creation of new models of transcription, and the results of automatic transcription of printed Fraktura texts and manuscripts by Andrej Kmeť. The study also presents the first new efficient transcription model for printed historical type of Slovak Fraktur (Gothic) script in the Transkribus platform. First, it explains a unique experiment with the transcription of printed Slovak and Czech Fraktur texts. This is followed by a description of the advanced experimental transcription of Andrej Kmeť’s handwritten letters. It presents the possibilities of making transcribed collections and documents available on local networks and on the Internet.

