Vytvoření modelu pro automatický přepis českých historických
rukopisů: od digitální faksimile k editovanému textu
(Projektová žádost SGS)

V 2024

Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)

KATUŠČÁK, Dušan

Základní údaje

Originální název

Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)

Název anglicky

Creation of a model for automatic transcription of Czech historical manuscripts: from digital facsimile to edited text (SGS Internal grant)

Autoři

KATUŠČÁK, Dušan

Vydání

1. 2024. SU OPAVA, 3 s. 1. ver. 2024

Nakladatel

SU FPF

Další údaje

Jazyk

čeština

Typ výsledku

Výzkumná zpráva

Obor

50804 Library science

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Označené pro přenos do RIV

Ano

Kód RIV

RIV/47813059:19240/24:A0001385

Organizační jednotka

Filozoficko-přírodovědecká fakulta v Opavě

Klíčová slova česky

Digitalizace; Kultura; Model transkripce; Čeština; Rukopisy historické

Klíčová slova anglicky

Digitization; Culture; Model of transcription; Czech language; Historical manuscripts

Příznaky

Recenzováno

Změněno: 12. 12. 2024 13:18, prof. PhDr. Dušan Katuščák, PhD.

Anotace

ORIG EN

V originále

Předmětem zájmu je automatické optické rozlišování písma (OCR). Zatímco OCR běžných tištěných dokumentů je již dříve dostatečně zvládnuto pomocí kvalitních nástrojů OCR, tak náročnější problematice OCR historických rukopisů a tisků s využitím umělé inteligence se věnují desítky výzkumníků a experimentátorů teprve v posledních letech. Zatím pro český rukopis (kurent) existuje v platformě Transkribus jenom jeden model transkripcie historického písma, který je však založen na velice malé vzorce písma. To znamená, že v Česku zatím není k dispozici dostatečne efektívní agregovaný model automatické transkripce, ktorý by byl vytvořen na dostatečně velkém množství stran v kvalite Ground Truth, které by bylo možné použít pro tvorbu lepších modelů transkripce. Důsledkem absence nástrojů automatické transkripci je, že historické dokumenty knihoven, muzeí, archivů a pod. jsou sice digitalizována, avšak jsou obvyjkle dostupná jenom jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tento vědecký úkol je spíš úkolem pro národní instituce... nez pro SGS. Cílem daného malého projektu SGS je přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit tento důležitý úkol týkající se zpřístupnění historických dokumentů z českých archivů, knihoven, muzeí a pod. S ohledem na vlastní jazykové schopnosti řešitele Vojtěcha Říhy je nejrelevantnější možností použití českého jazyka, tudíž bychom se soustředili na tvorbu HTR modelu v českém jazyce. Dalším mnohem důležitějším důvodem je současná absence takové modelu na platformě Transkribus, kterou bychom pro výzkum použili, také proto by bylo přínosné pro další potenciální automatickou transkripci rukopisných dokumentů psaných v českém jazyce disponovat kvalitním HTR modelem. V českém jazyce zatím neexistuje ucelený návod pro tvorbu HTR modelu na platformě Transkribus, tudíž také tato otázka správného postupu by byla obsahem práce. Pracovní návrh názvu: • Aspekty a principy uplatňované při tvorbě HTR modelu určeného k automatické transkripci rukopisných dokumentů psaných v českém jazyce (Sedlnická kronika resp. další české rukopisní dokumenty). Lukáš Němec se bude věnovat tvorbě modelu transkripce na základě historických dokumentů a spolupráce řešitele se Slezským muzeem v Opavě. Bude se věnovat tématu digitalizace, zdigitalizaci a transkripci dokumentů z kapucínské klášterní knihovny nástrojem Transkribus, transkribovat text a popsat metodiku práce

Anglicky

The subject of interest is automatic optical character recognition (OCR). While the OCR of ordinary printed documents has already been sufficiently mastered using high-quality OCR tools, tens of researchers and experimenters only in recent years. So far, for the Czech manuscript (kurent), there is only one historical script transcription model in the Transkribus platform, but it is based on very small script patterns. This means that a sufficiently effective aggregated model is not yet available in the Czech Republic automatic transcription that would be built on a large enough number of Ground Truth quality pages that could be used to build better transcription models. The consequence of the absence of automatic transcription tools is that historical documents of libraries, museums, archives, etc. they are though digitized, but are usually only available as digital facsimiles, images (digitized) without transcription. This scientific task is more a task for national institutions... than for SGS. The aim of this small SGS project is to contribute to solving the problem of transcription and to prepare experts who will gradually become solve this important task regarding making available historical documents from Czech archives, libraries, museums, etc. Taking into account the language skills of the researcher Vojtěch Říha, the most relevant option is to use the Czech language, so we would focus on the creation of the HTR model in the Czech language. Another much more important reason is the current absence of such a model on the Transkribus platform, which we would use for research, which is also why it would be beneficial to have a high-quality HTR model available for further potential automatic transcription of handwritten documents written in the Czech language. In the Czech language, there is still no comprehensive guide for the creation of the HTR model on the Transkribus platform, so this question of the correct procedure would also be the content of the work. Working draft of the title: • Aspects and principles applied in the creation of the HTR model intended for the automatic transcription of handwritten documents written in the Czech language (Sedlnická chronicle or other Czech manuscript documents). Lukáš Němec will devote himself to the creation of a transcription model based on historical documents and the researcher's cooperation with the Silesian Museum in Opava. It will focus on the topic of digitization, digitization and transcription of documents from the Capucin monastery library with the Transkribus tool, to transcribe the text and describe - the methodology of the work.

Přiložené soubory

SGS__1_24_Zadost_o_udeleni_SGS_2024_V4_dakdobwm.pdf

Požádat o autorskou verzi souboru

SGS__1_24_Zadost_o_udeleni_SGS_2024_V4_lcaolzvx.pdf

Požádat o autorskou verzi souboru

SGS__1_24_Zadost_o_udeleni_SGS_2024_V4.pdf

Požádat o autorskou verzi souboru

SGS__1_24_Zadost_o_udeleni_SGS_2024_V4_nktvetnw.pdf

Požádat o autorskou verzi souboru

Přehled o publikaci