UBKKBP2022 Zpracování přirozeného jazyka I

Filozoficko-přírodovědecká fakulta v Opavě
zima 2023
Rozsah
2/1/0. 4 kr. Ukončení: z.
Vyučující
Mgr. Daniel Valenta, Ph.D. (přednášející)
Mgr. Daniel Valenta, Ph.D. (cvičící)
Garance
Mgr. Daniel Valenta, Ph.D.
Ústav bohemistiky a knihovnictví – Filozoficko-přírodovědecká fakulta v Opavě
Rozvrh
Po 9:45–11:20 B3b
  • Rozvrh seminárních/paralelních skupin:
UBKKBP2022/A: Po 11:25–12:10 B3b, D. Valenta
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
V úvodu se studenti seznámí se základními pojmy formalizovaného zpracování přirozeného jazyka, jako je gramatika, sémantika, pragmatika, slovník. Z aplikačních oblastí je kladen důraz na automatizaci indexování textů a lingvistické problémy, které to zahrnuje (rozpoznávání, lematizace a gramatická analýza slov i víceslovných termínů, vyhodnocení sémantických vztahů mezi nimi).
Výstupy z učení
Student bude po absolvování předmětu schopen:
- orientovat se v základní terminologii a formalismech
- definovat a popsat základní pojmy jako gramatika, sémantika, pragmatika, slovník
- popsat základní nástroje z aplikačních oblastí
- popsat a řešit problémy tvarosloví, homonymie, homofonie, homografie a další lingvistické problémy
Osnova
  • 1. Obecné základy a souvislosti. Slovník, gramatika, sémantika (vymezení a vzájemné souvislosti pojmů).
  • 2. Přehled hlavních aplikačních oblastí (automatické indexování, generování tezaurů, automatické referování, komunikace s databází/s robotem/s expertním systémem ap., strojový a počítačem podporovaný překlad, naplňování bází dat/znalostí z textů, automatizovaná korektura textů). Spojitost s jinými informatickými obory.
  • 3. Lingvistické problémy automatického indexování textů. Rozpoznávání a určení míry relevance termínů.
  • 4. Řešení problému tvarosloví. Sémantické vztahy mezi termíny a možnosti jejich využití. Problémy homonymie.
  • 5. Automatizace tvorby a údržby tezaurů. Tezaurus jako datová struktura (realizace vhodným typem databázového systému).
  • 6. Automatizace získání relevantní slovní zásoby. Automatizace nalezení sémantických vztahů mezi termíny.
Výukové metody
Interaktivní přednáška, cvičení
Metody hodnocení
Zápočet:
Aktivní účast na a cvičeních min. 75 %, absolvování písemného testu.
Další komentáře
Studijní materiály
Předmět je zařazen také v obdobích zima 2020, zima 2021, zima 2022, zima 2024.