Iniciatíva kódovania textu (TEI) Prof. PhDr. Dušan Katuščák, PhD. Slezská univerzita, FPF-ÚBK Opava Obrázok, na ktorom je text, list Automaticky generovaný popis TEI Kódovanie textu •Časť textu v kódovaní TEI Export •Časť kódovania textu, s. 11, časopis Lužica Iniciatíva kódovania textu (TEI) •skratka TEI = Text Encoding Initiative (TEI) •prekladáme ako Iniciatíva kódovania textu •TEI je medzinárodný projekt, ktorý bol založený v roku 1987 •zameraný na pravidlá prípravy a výmeny elektronických textov pre oblasť vedeckého výskumu •je určený aj pre širšie uplatnenie a usiluje sa uspokojovať aj široké potreby využívania v oblastiach, kde sa pracuje s jazykom •(v oblasti language industries). Podstata TEI •Metóda TEI potvrdzuje tézu o tom, že informatické aplikácie by mali •stavať na komplexnom texte a jeho štruktúre a nie len na jeho jednotlivých jazykových, napríklad morfologických alebo lexikálnych zložkách • Štruktúra textu •Z metodologického hľadiska ide v TEI o štrukturálny prístup k textu •Text sa rozkladá značkovaním na časti •Na rozklad služia v TEI špeciálne prostriedky •Kódovanie vychádza zo štandardu SGML •Teoreticky ide o podobnú stratégiu štruktúrovania textu, akú reprezentujú formáty MARC •Technika TEI je viazaná výhradne na texty v elektronickej forme •Softvéry môžu túto techniku do určitej miery vykonávať súbežne s tvorbou textu v elektronickej forme • TEI ako metatext •pri TEI sa vytvára metatextový (metadátový) obraz dokumentu avšak tento obraz je sémanticky a rozsahom v podstate identický (totožný) s originálnym textom •Metatext TEI je bohatší práve len o značky dodané v procese kódovania textu podľa pravidiel TEI •MARC záznam je výsledkom komprimácie, kondenzačnej deskripcie, v dôsledku ktorej je záznam o dokumenty rozsahom menší a sémanticky chudobnejší ako dokument •Zo sémantického hľadiska sa kondenzáciou v markovskom systéme pretvára text dokumentu z úrovne väčšej konkrétnosti na úroveň väčšej všeobecnosti. • Metaúdaje/metadáta •Z hľadiska informačnej práce je podstatné, že techniky rozličnej štrukturácie textov metadáta/metaúdaje ako •TEI, •HTML, •SGML, •MARC, •XML, •Rôzne hypertextové systémy a pod. •Umožňujú konverziu, výmenu a vzájomné využívanie produktov kódovania • Značka a značkovanie •Samotná myšlienka značkovania textu nie je nová. •Slovo značka, značkovanie (markup) sa používalo na pomenovanie poznámok, symbolov, značiek, ktoré boli umiestnené priamo v texte a slúžili ako inštrukcia pre sadzača alebo tlačiara, ako má vysádzať alebo upraviť jednotlivé časti textu. •Napríklad, ak bol text v predlohe podčiarknutý vlnovkou, bol to pre sadzača pokyn, aby túto časť vytlačil tučne (boldom). •Na označovanie odsadenia od okraja, vynechanie riadkov, použitie zvláštneho fontu sa používali rôzne špeciálne značky. •Príkladom takéhoto značkovania sú napríklad aj korektorské značky. •Postupne sa formátovanie a tlač textov automatizovala a termín značkovanie sa postupne rozšíril a pokrýva všetky druhy špeciálnych značiek, ktoré sa vkladajú do elektronických textov a slúžia na riadenie úpravy (formátovania), tlače alebo iného spracovania. Kódovanie = značkovanie •Termín kódovanie je v danom kontexte synonymom termínu značkovanie • SGML ISO 8879 •Zásady a odporúčania, ktoré sú rozpracované v rámci TEI a v Pravidlách TEI sú vypracované v súlade s normou ISO 8879 (1986), •ISO 8879:1986 : Information processing - Text and office systems - Standard Generalized Markup Language (SGML), [Geneva] : ISO, 1986. •Norma definuje Štandardný všeobecný značkovací jazyk. •TEI je aplikáciou normy SGML v oblasti spracovania textov, podobne ako je HTML aplikáciou SGML v prostredí WWW (domovské stránky). • SGML •SGML je medzinárodný štandard na popis a značkovanie elektronických textov. •Presnejšie, je to metajazyk, formálno-popisný jazyk, ktorý v danom prípade slúži ako jazyk na značkovanie. •Rozumie sa ním explicitná (jasná, jednoznačná, zreteľná, viditeľná) interpretácia textu. •Nejde teda o implicitnú vlastnosť textu, ale o elementy, ktoré sa do textu dostávajú dodatočne, zvonku v procese, ktorý nie je identický s procesom tvorby textu. Bežné kódovanie •V bežnom zmysle sú texty kódované napríklad tak, že obsahujú: 1.interpunkčné znaky (bodka, čiarka, bodkočiarka, výkričník ...), 2.veľké začiatočné písmená, 3.rozmiestnenie písmen na strane, 4.medzery medzi slovami, odsekmi atd. Význam bežného značkovania •Značkovanie pomáha čitateľovi určiť začiatky a konce slov, identifikovať väčšie štrukturálne celky textu, ako sú nadpisy, odstavce, vety a pod. •Keď sa text kóduje pre počítačové spracovanie, ide v podstate o transformáciu lineárneho textu pomocou značiek •V tejto transformácii sa do textu pridávajú explicitné značky a text sa formálne delinearizuje, rozkladá, štrukturuje. Značkovací jazyk •pri zápise textu sa používa značkovací jazyk, •je to súbor značkovacích konvencií (pravidiel), ktoré sa spolu používajú na kódovanie textov •značkovací jazyk (teda štandard SGML, napr. v aplikáciinTEI)musí špecifikovať, 1.ktoré značky sa majú používať, 2.ako sa majú používať, 3.ako sa oddeľujú od textu a 4.čo ktorá značka znamená • Princípy SGML •Všeobecné zásady pre značkovací jazyk poskytuje norma SGML. • Je založená na troch charakteristikách, ktorými sa koncepcia SGML odlišuje od iných značkovacích jazykov: • 1.kladie väčší dôraz na popisné značkovanie ako na spracovateľské značkovanie; (značky „pridáva“ počítač) 2.pracuje s koncepciou typu dokumentu (DTD); 3.je nezávislá na systéme reprezentácie písma, ktorým je text napísaný. SGML parsery •softvéry, ktoré sú schopné podporovať tvorbu, hodnotenie a spracovanie dokumentov SGML •ťažiskom týchto softvérov je analyzátor syntaxe (SGML parser). •je to časť softveru, ktorá dokáže definovať typ dokumentu (DTD) a generovať z neho softvérový systém, ktorý je schopný identifikovať typ dokumentu a vyvolať procedúry pre daný typ dokumentu Význam parserov •existujú softvéry, ktoré sú schopné na základe syntakticej analýzy zistiť novú kánonickú formu dokumentu a formátovať dokument podľa používateľských špecifikácií. •Takúto formu môžu použiť ďalšie časti softveru, ktoré sú viac alebo menej spojené s parserom a uskutočňovať ďalšie funkcie, ako je napríklad štruktúrované editovanie, formátovanie a manažment databázy • DTD •Document type definition – DTD •hlavným a prvým krokom textovej analýzy pomocou softvéru je určiť typ dokumentu •Predpokladá sa, že dokument patrí k nejakému typu dokumentov. •Typ dokumentu sa môže formálne identifikovať podľa toho, aké zložky, časti obsahuje, z čoho sa skladá. •Čiže, analýzou štruktúry textu je možné zistiť, o aký typ dokumentu sa jedná. •Napríklad dizertácia (diplomovka) má štandardne meno autora, názov, predhovor, abstrakt, obsah, kapitoly, ilustrácie, zoznam bibliografických odkazov a pod. Význam parserov •Ak ide o známy typ dokumentu, je možné použiť parser, čiže syntaktický analyzátor, ktorý dokáže zistiť, či dokument obsahuje všetky potrebné časti a či sú elementy správne usporiadané •Dôležité je, že rôzne dokumenty toho istého typu sa dajú spracúvať rovnakým spôsobom •Program môže byť schopný vyčleniť poznatky, ktoré sú ukryté v dokumente (knowledge encapsulated in the document structure information) a pomáhať tak používateľovi ako inteligentný pomocník Štruktúra SGML •Štruktúru SGML tvorí jednotný konzistentný mechanizmus na značkovanie alebo identifikáciu textových štrukturálnych jednotiek, ktoré sú definované v SGML. •V struktúre sa tiež definuje, ako kombinovať štrukturálne prvky, ktoré sa vyskytujú v texte. Štruktúra SGML •Štruktúru SGML tvoria: 1.elementy 2.Atribúty draft | revised | published) 3.konektory 4.entity Elementy •elementy - textové jednotky ako štrukturálne zložky; •napr.: , The SICK ROSE • Atribúty •draft | revised | published) Konektory •konektory - značky na spájanie viacerých komponentov, ako napríklad čiarka, zvislá čiara, ampersand; napr.: •(TITLE?, STANZA+), Entity •entity - označená časť dokumentu, ktorá predstavuje zámer štruktúrovania; je to určitý reťazec znakov alebo textový celok; napr.: • Príklad •Báseň The SICK ROSE od Williama Blakea z antológie Songs of innocence and experience (1794). •The SICK ROSEO Rose thou art sick.The invisible worm,That flies in the nightIn the howling storm:Has found out thy bedOf crimson joy:And his dark secret loveDoes thy life destroy. Báseň •Je to jednoduchý model štruktúry textu SGML/TEI •Identifikovaný je DTD - typ dokumentu (anthology), čo znamená, že v dokumente sú napr zbierka - básne. • začiatok označenia typu dokumentu • koniec označenia typu dokumentu • začiatok básne (poémy) • koniec básne (poémy) •Potom môže nasledovať ďalšia báseň (poem)… • •Každá báseň v antológii je jedným elementom báseň (poem), v ktorom je •názov (title), • začiatok titulu je koniec titulu •strofa (stanza), • začiatok strofy je koniec strofy •riadok (line), predstavujúci verš. • začiatok riadku/verša je koniec riadku verša •