Další formáty:
BibTeX
LaTeX
RIS
@proceedings{75301, author = {Vondráček, Miloslav}, booktitle = {Infrastruktura za raziskave govora v humanistiki in jezikovnih tehnologijah}, keywords = {corpora; grammer}, language = {cze}, title = {Tvorba korpusů mluvené komunikace}, url = {https://mezzanine.um.si/konference/6-mednarodna-znanstvena-konferenca-slavisticni-znanstveni-premisleki/}, year = {2023} }
TY - CONF ID - 75301 AU - Vondráček, Miloslav PY - 2023 TI - Tvorba korpusů mluvené komunikace KW - corpora KW - grammer UR - https://mezzanine.um.si/konference/6-mednarodna-znanstvena-konferenca-slavisticni-znanstveni-premisleki/ N2 - Příspěvek shrnuje zkušenosti s obstaráváním zvukových záznamů neoficiálních komunikačních situací a s jejich přepisem pro účely Českého národního korpusu – pro tvorbu korpusů mluvené češtiny. Spolu se studenty jsme pořídili zvukový záznam více než 220 dialogických situací a jejich jednoúrovňový převod do písemné formy. Při té příležitosti jsme museli řešit řadu praktických problémů. Ty vedly k formulaci podstatných teoretických otázek. Za dobu naší práce na korpusových podkladech (od r. 2005 cca do r. 2012) jsme například dospěli k rezignaci na signalizaci začátku a konce věty a souvětí, jak jsou obvyklé v psané formě řeči. Bylo třeba vypořádat se se zápisem hezitačních zvuků komunikačně relevantních a s foneticko-fonologickými deformacemi slov procházejících slovnědruhovou transpozicí, zejm. útvarů směřujících mezi partikule a interjekce. Při tom všem měla být zajištěna uživatelská zpracovatelnost takto přepsaného jazykového materiálu, tj. jeho automatické strojové rozpoznání a opatření metajazykovými daty, stejně jako následná dohledatelnost možných výrazových forem. Další okruh poznatků se týká percepčních a kognitivních limitů zpracovatelů zvukového záznamu. Zjišťujeme, že editoři sond píší to, co předpokládají, že slyší, slyšeno být může nebo má, a že více či méně podléhají tendenci zdůrazňovat nepravidelnosti mluvené řeči proti jevům pravidelným, nebo naopak inovace přehlížejí a prosazují ustálené formy psaného jazyka. Totéž v podstatné míře platilo pro hranice výpovědí, dokud byly zaznamenávány. Idealizace mluvené řeči při převodu do psané formy (systemizace parole) spočívá v pravidelném členění komunikátu na relativně symetrické, nepříliš rozsáhlé výpovědi složené z relativně izolovaných jednotek roviny lexikální, ukončené koncovým interpunkčním znaménkem – bez ohledu na (obtížně identifikovatelný) koncový předěl vyjadřovaný prostředky prozodickými. Co však odkrýváme, je relativita jednotek mluveného jazyka. Editoři sond věnují, podle mé zkušenosti, zápisu mluvené řeči potřebnou pozornost. V kolísání grafických forem, které zvolí, se projevují vágní hranice jednotek řeči, komplikované limity vnímání reprodukovaného mluveného projevu. Každý uživatel korpusů mluvené komunikace bude s těmito omezeními muset počítat. Psané korpusy mohou být dobrým korektivem spektra volených výrazových variant. Pokud budou cílem korpusového výzkumu jednotky nižších rovin, přepis může být přinejmenším vodítkem pro zevrubné zkoumání zvukového záznamu. Tendence omezit variabilitu forem v první úrovni přepisu se prosazuje v nové metodologii. Naopak, ani variabilita užitých grafických forem není na závadu. Naznačuje intuitivní postřeh editora o variantní funkci jazykové jednotky. Pokud se stanou studenti jako editoři sond díky této práci vnímavější k jazyku, naplní se i původně nezamýšlený smysl existence korpusů. Výsledkem našich postřehů je metodologie tvorby korpusu, od té doby neustále zdokonalovaná. Příspěvek přináší přehled základních otázek a snaží se poskytnout teoretické odpovědi i metodiku řešení. ER -
VONDRÁČEK, Miloslav. Tvorba korpusů mluvené komunikace. In \textit{Infrastruktura za raziskave govora v humanistiki in jezikovnih tehnologijah}. 2023.
|