Tvorba korpusů mluvené komunikace

k 2023

Tvorba korpusů mluvené komunikace

VONDRÁČEK, Miloslav

Basic information

Original name

Tvorba korpusů mluvené komunikace

Authors

VONDRÁČEK, Miloslav

Edition

Infrastruktura za raziskave govora v humanistiki in jezikovnih tehnologijah, 2023

Other information

Language

Czech

Type of outcome

Prezentace na konferencích

Country of publisher

Slovenia

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

Konferenční stránky včetně programu

Organization unit

Faculty of Philosophy and Science in Opava

Keywords (in Czech)

korpus; gramatika

Keywords in English

corpora; grammer

Abstract

ORIG EN

V originále

Příspěvek shrnuje zkušenosti s obstaráváním zvukových záznamů neoficiálních komunikačních situací a s jejich přepisem pro účely Českého národního korpusu – pro tvorbu korpusů mluvené češtiny. Spolu se studenty jsme pořídili zvukový záznam více než 220 dialogických situací a jejich jednoúrovňový převod do písemné formy. Při té příležitosti jsme museli řešit řadu praktických problémů. Ty vedly k formulaci podstatných teoretických otázek. Za dobu naší práce na korpusových podkladech (od r. 2005 cca do r. 2012) jsme například dospěli k rezignaci na signalizaci začátku a konce věty a souvětí, jak jsou obvyklé v psané formě řeči. Bylo třeba vypořádat se se zápisem hezitačních zvuků komunikačně relevantních a s foneticko-fonologickými deformacemi slov procházejících slovnědruhovou transpozicí, zejm. útvarů směřujících mezi partikule a interjekce. Při tom všem měla být zajištěna uživatelská zpracovatelnost takto přepsaného jazykového materiálu, tj. jeho automatické strojové rozpoznání a opatření metajazykovými daty, stejně jako následná dohledatelnost možných výrazových forem. Další okruh poznatků se týká percepčních a kognitivních limitů zpracovatelů zvukového záznamu. Zjišťujeme, že editoři sond píší to, co předpokládají, že slyší, slyšeno být může nebo má, a že více či méně podléhají tendenci zdůrazňovat nepravidelnosti mluvené řeči proti jevům pravidelným, nebo naopak inovace přehlížejí a prosazují ustálené formy psaného jazyka. Totéž v podstatné míře platilo pro hranice výpovědí, dokud byly zaznamenávány. Idealizace mluvené řeči při převodu do psané formy (systemizace parole) spočívá v pravidelném členění komunikátu na relativně symetrické, nepříliš rozsáhlé výpovědi složené z relativně izolovaných jednotek roviny lexikální, ukončené koncovým interpunkčním znaménkem – bez ohledu na (obtížně identifikovatelný) koncový předěl vyjadřovaný prostředky prozodickými. Co však odkrýváme, je relativita jednotek mluveného jazyka. Editoři sond věnují, podle mé zkušenosti, zápisu mluvené řeči potřebnou pozornost. V kolísání grafických forem, které zvolí, se projevují vágní hranice jednotek řeči, komplikované limity vnímání reprodukovaného mluveného projevu. Každý uživatel korpusů mluvené komunikace bude s těmito omezeními muset počítat. Psané korpusy mohou být dobrým korektivem spektra volených výrazových variant. Pokud budou cílem korpusového výzkumu jednotky nižších rovin, přepis může být přinejmenším vodítkem pro zevrubné zkoumání zvukového záznamu. Tendence omezit variabilitu forem v první úrovni přepisu se prosazuje v nové metodologii. Naopak, ani variabilita užitých grafických forem není na závadu. Naznačuje intuitivní postřeh editora o variantní funkci jazykové jednotky. Pokud se stanou studenti jako editoři sond díky této práci vnímavější k jazyku, naplní se i původně nezamýšlený smysl existence korpusů. Výsledkem našich postřehů je metodologie tvorby korpusu, od té doby neustále zdokonalovaná. Příspěvek přináší přehled základních otázek a snaží se poskytnout teoretické odpovědi i metodiku řešení.

In English

The paper summarizes my experience with the acquisition of audio recordings of unofficial communication situations and with their transcription for the purposes of the Czech National Corpus: for the creation of corpora of spoken Czech. We made audio recordings of more than 220 dialogue situations together with the students and we processed their one-level conversion into written form. We had to solve a number of practical problems on that occasion. These difficulties led us to important theoretical questions. We have resigned ourselves to noting the beginning and end of sentences and clauses as they are usual in the written form of speech, for example. It was necessary to deal with the notation of communicatively relevant hesitant sounds (agreeable, indefinite, negative, etc. hmm, emm, eee...) and with phonetic-phonological deformations of words, which are the result of transposition, especially formations directed between particles and interjections (člověče, čoveče, čoeče, čéče). In all of this, the user processability of the transcribed language material was to be ensured, i.e. automatic machine recognition and provision of the material with meta-linguistic data, as well as the subsequent traceability of possible expression forms. Another area of knowledge concerns the perceptual and cognitive limits of audio recording processors. We find that editors write what they think they hear, what can or should be heard. They are more or less subject to the tendency to emphasize the irregularities of spoken language against regular phenomena. Or, on the contrary, they overlook innovations and promote established forms of written language. The same was essentially true of sentence boundaries as long as they were recorded. During the conversion of spoken language into written form, parole is systematized and idealized. But what we uncover, however, is the relativity of the units of spoken language. In my experience, the editors of the probes pay the necessary attention to the recording of the spoken speech. Vague boundaries of speech units, complicated limits of perception of reproduced speech are reflected in the fluctuations of the graphic forms he chooses. Each user of corpora of spoken communication will have to reckon with these limitations. Written corpora can be a good corrective to the spectrum of chosen expression variants. The transcript can at least be a guide to a thorough examination of the audio recording. The tendency to limit the variability of the forms in the first level of transcription is enforced in the new methodology. On the contrary, the variability of graphic forms is not a problem either. It indicates the intuitive perception of the editor about the variant function of the language unit. If students become more receptive to language as a result of this work as editors of probes, the originally unintended meaning of the existence of corpora will also be fulfilled. The result of our observations is the corpus creation methodology, which has been continuously improved since then. The contribution provides an overview of the basic questions and tries to provide theoretical answers as well as a solution methodology.

Detailed Information on Publication Record