UIINP30 Zpracování přirozeného jazyka I

Filozoficko-přírodovědecká fakulta v Opavě
zima 2022
Rozsah
2/1/0. 4 kr. Ukončení: z.
Vyučující
RNDr. Miroslav Langer, Ph.D. (přednášející)
Mgr. Daniel Valenta, Ph.D. (přednášející)
Garance
Mgr. Daniel Valenta, Ph.D.
Ústav informatiky – Filozoficko-přírodovědecká fakulta v Opavě
Rozvrh
Út 13:55–15:30 PED2
  • Rozvrh seminárních/paralelních skupin:
UIINP30/A: Út 15:35–16:20 PED2, D. Valenta
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
V úvodu se studenti seznámí se základními pojmy formalizovaného zpracování přirozeného jazyka, jako je gramatika, sémantika, pragmatika, slovník. Z aplikačních oblastí je kladen důraz na automatizaci indexování textů a lingvistické problémy, které to zahrnuje (rozpoznávání, lematizace a gramatická analýza slov i víceslovných termínů, vyhodnocení sémantických vztahů mezi nimi).
Výstupy z učení
Student bude po absolvování předmětu schopen:
- orientovat se v základní terminologii a formalismech
- definovat a popsat základní pojmy jako gramatika, sémantika, pragmatika, slovník
- popsat základní nástroje z aplikačních oblastí
- popsat a řešit problémy tvarosloví, homonymie, homofonie, homografie a další lingvistické problémy
Osnova
  • 1. Obecné základy a souvislosti. Slovník, gramatika, sémantika (vymezení a vzájemné souvislosti pojmů).
  • 2. Přehled hlavních aplikačních oblastí (automatické indexování, generování tezaurů, automatické referování, komunikace s databází / s robotem / s expertním systémem ap., strojový a počítačem podporovaný překlad, naplňování bází dat / znalostí z textů, automatizovaná korektura textů). Spojitost s jinými informatickými obory.
  • 3. Lingvistické problémy automatického indexování textů. Rozpoznávání a určení míry relevance termínů.
  • 4. Řešení problému tvarosloví. Sémantické vztahy mezi termíny a možnosti jejich využití. Problémy homonymie.
  • 5. Automatizace tvorby a údržby tezaurů. Tezaurus jako datová struktura (realizace vhodným typem databázového systému).
  • 6. Automatizace získání relevantní slovní zásoby. Automatizace nalezení sémantických vztahů mezi termíny.
Literatura
    povinná literatura
  • Strossa. Počítačové zpracování přirozeného jazyka. Praha, 2011. ISBN 978-80-245-1777-3. info
    doporučená literatura
  • UHRÍN, Tibor. Přirozený jazyk a umělý jazyk. Inflow: information journal [online]. 2008, roč. 1, č. 11 [cit. 2013-04-28]. Dostupný z: http://www.inflow.cz/prirozeny-jazyk-umely-jazyk. ISSN 1802-9736
  • Laboratoř zpracování přirozeného jazyka. Stručný terminologický slovník počítačové lingvistiky [online]. [cit. 2014-04-29]. Dostupné z: http://nlp.fi.muni.cz/cs/terminologie
Výukové metody
Interaktivní přednáška, cvičení
Metody hodnocení
Zápočet:
Aktivní účast na a cvičeních min. 75 %, absolvování písemného testu
Další komentáře
Předmět je dovoleno ukončit i mimo zkouškové období.
Předmět je zařazen také v obdobích zima 2019, zima 2020, zima 2021, zima 2023, zima 2024.