Vědecká práce v lexikologii i lexikografii s ohledem na statistické metody:
In: Klimeš, Lumír: Úvod do vědecké práce v jazykovědné bohemistice (se zvláštním zřetelem
k pracím seminárním a diplomovým). Západočeská univerzita v Plzni. Plzeň 2001 (výběr)
Bibliografie:
- definice: srov. SSČ, Akademický slovník cizích slov, Encyklopedický slovník aj. (Klimeš
2001, s. 17n.)
Bibliografická informace: sekundární informace, která slouží k identifikaci dokumentu, jeho
obsahu a času... (Klimeš 2001, s. 17-18)
Bibliografická citace: souhrn údajů o citované publikaci nebo její část, umožňující její
identifikaci... (dále: ČSN 01 0197, ISO 690; Klimeš 2001, s. 18)
Bibliografický soupis (bibliografie, bibliografický seznam): sekundární dokument obsahující
soubor bibliografických záznamů o existujících dokumentech (resp. jejich částech), sestavený
podle předem stanovených zásad... (ČSN 01 191; Klimeš 2001, s. 18)
Výklad k české a slovenské bibliografii (Klimeš 2001, s. 18-21); nutná aktualizace textu
K problematice výpisků... (Klimeš 2001, s. 30-33)
Kartotéka a klasifikační systém oborů (Klimeš 2001, s. 33-39):
1. různé typy klasifikace:
1.1 podle Bibliografie české lingvistiky: (s. 33-36): lexikální soubory (slovní zásobu,
lexikon, jeho původ/ etymologie a vývoj), problematika lexikologie i lexikografie,
terminologie, onomastických slovníků apod.
1.2 podle V. Šmilauera (s. 36-38: jazykové vrstvy v širším smyslu, problematika slova,
etymologie, slovník)
1.3 metodické přístupy (jazykové vyučování s slovní zásoba; s. 39)
1.4 knihovnický katalog
Základní statistické metody (s. 39n.):
1. lexikologie a obecné pojetí lingvistiky (39-40):
1.1 kvantitativní lingvistika a frekvenční slovníky
1.2 algebraické
2. extenze analyzovaného textu (typ vzorku) při lexikální analýze:
2.1 náhodný (aleatorní) výběr položek, stránek apod.:
- počítačově: v nedávné době generátory náhodných čísel, dnes systémové programy
- dříve „ručně“: tabulky náhodných čísel
2.2 počet položek:
a) běžný rozsah: vyšší počet slov než 3000
b) u spec.zaměření (zvl. typy souborů, autorský slovník, tematika aj.): více než 4000 slov
(Těšitelová, M.: Otázky lexikální statistiky. Praha 1974, s. 18, 21... dále: TOLS)
c) pokud jde o syntaktický rozbor odborného textu, potom se vychází cca z 1000 vět za
sebou následujících; větou zde je míněna predikační jednotka nebo i jednočlenná
struktura; bez ohledu na to, zda stojí samostatně – jako tzv. věta jednoduchá – nebo
v souvětí: TOLS 29; dále též: Uhlířová, L.: O délce věty. SaS 32/1971, s. 232-240)
2.3 konkrétní typy vzorků (Klimeš, s. 40n.):
2.31 reprezentativní: je-li základní soubor vzorkem dokonale zastoupen
(reprezentován; reprezentace ...z lat. re-praesentatio, znázornění, zpřítomnění:
a) znázornění, zobrazení, průmět:
o grafická
o vektoru
b) v matematických popisech lexikologických struktur:
- zobrazení nějaké matematické struktury do algebry matic; např. reprezentace
grup
c) zastupování, představování určité společenské skupiny; platí i v rovině
komunikace)
2.311 U vzorku získaného metodou náhodného výběru:každý prvek (jednotka) základního
souboru se vyznačuje stejnou pravděpodobností, že se stane prvkem (jednotkou)
reprezentativního vzorku (prvky musí být vzájemně srovnatelné)
2.32 standardní: pokud je vzorek upraven tak, aby byl srovnatelný s jiným vzorkem
– vzhledem k témuž ukazateli (sledujeme stejný problém či typ problému na větším
množství vzorků)
3. některé pojmy z matematické statistiky (41n.):
3.1 aritmetický průměr = součet hodnot vydělený počtem členů souboru (x, μ):
a) sčítají se i hodnoty stejné velikosti, nula apod. (nelze vynechávat při stanovení
hodnoty dělitele)
b) hodnoty průměru a procentuální vyjádření mají menší význam pro poznání struktury
souboru, než se obvykle soudí
Problémy:
nebezpečí rozložení četnosti výskytu jednotlivých hodnot v asymetrickém
modelu:
- dochází k posunu k pravostranné či k levostranné pozici
- lepší je volit průměr harmonický nebo geometrický, popř. vycházet z tzv.
mediánu (tj. z prostřední hodnoty souboru; srov. dále sub 3.2)
nesnáze s určením prvků aritmetického souboru (nelze systematicky určovat):
- podle extrémních (krajních), maximálních či minimálních hodnot
- míru stejnorodosti (homogenity:jak „daleko“ jsou jednotlivé hodnoty od
aritmetického průměru)
- formální hodnotu (tvar) souboru (hodnoty větší či menší než aritmetický
průměr)
- frekvenci (nejčastější opakování) hodnot, popř. skupin hodnot... Pokud jsou
rozdíly v počtu členů souborů velké, procentuální vyjádření vede
k nesprávným závěrům. Potom je nutné údaje ověřit statistickým testem
významnosti (srov. např. Fabián, V.: Základní statistické metody. Praha 1963...
an.)
nelze jednoduše sčítat procentuelní zastoupení jednotlivých položek a poté
dělit počtem prvků (počítáme mnohdy procenta z různých základů!)
pokud se aritmetické průměry dvou hodnotových škál shodují, nelze z toho
odvodit blízkost sledovaných postupů ani v případě, že mají obě škály stejný
počet členů (položek)!
jestliže je rozložení četností dvou- a vícevrcholové, není třeba počítat
aritmetické průměry. Stačí porovnat mediány...
porovnávání průměrů 2 a více souborů je statisticky průkazné (významné),
není-li mezi počtem jejich členů statisticky významný rozdíl (mezi hodnotami
jejich „rozptylů“)
nelze jednoduše počítat „průměry z průměrů“ (pokud neobsahují všechny
započítané průměry stejný počet položek)
3.2 medián:
3.21 určení:
- prostřední hodnota v souboru seřazeném podle velikosti (vzestupně, někdy sestupně)
- prostřední hodnotou se míní prostřední položka, nikoliv průměr nejnižší a nejvyšší
hodnoty souboru
- jestliže má soubor sudý počet položek, vybereme po jedné položce umístěné nalevo a
napravo od středu a vypočítáme jejich aritmetický průměr. To je v tomto případě
medián.
3.22 význam:
- umožňuje získat představu o tom, jak daleko je aritmetický průměr od středu
souboru
- odhadneme tak směr asymetrie souboru (zejména při extrémním vybočení některých
hodnot souboru z běžné normy)
- podklad pro využití mediánového testu
3.3 modus:
3.31určení:
- hodnota, popř. více hodnot, která/ které se v souboru vyskytuje/-í nejčastěji
- některé soubory nemají žádný modus
3.32 význam:
- důležitý je vztah hodnoty modu a aritmetického průměru
- určení polohy modu ve vztahu k mediánu (totožnost, poloha vlevo – vpravo od
mediánu...)
- určení nejčastější hodnoty vzorku (k pochopení struktury souboru)
3.33 modus uvádíme, obsahuje-li min. ¼ až ⅓ všech členů souboru
3.4 variační rozpětí:
- také variační šíře (R): rozdíl mezi největší a nejmenší hodnotou
- význam:
- umožňuje uvážit rozdíl hodnot, lépe popsat míru nahromadění hodnot kolem
průměru (ale pouze z hlediska hodnot extrémních!)
3.5 variance, statistický rozptyl
3.51 podává informace o (způsobu) rozložení hodnot kolem aritmetického
průměru
3.52 dvojí způsob výpočtu:
a) pro malé soubory (od 3 do 31 prvků): ‫ݏ‬ଶ
ൌ
∑௫೔
మ
௡ିଵ
െ ‫ݔ‬ҧଶ
b) pro velké soubory (od 32 prvků): ‫ݏ‬ଶ
ൌ
∑௫೔
మ
௡
െ ‫ݔ‬ҧଶ
3.6 směrodatná odchylka:
- kladně pojímaná druhá odmocnina ze statistického rozptylu: ‫ݏ‬ ൌ ൅√‫ݏ‬ଶ
- orientace i v rámci extrémních (krajních) hodnot souborů
- je nutné, aby rozložení četnosti (srov. sub 3.0) jednotlivých souborů bylo normální
3.61 výpočet základního rozmezí hodnot v intervalu:
a) ‫ݔ‬ േ ‫ݏ‬ (obvykle 68 %všech hodnot souboru): hodnoty blížící se průměru
b) ‫ݔ‬ േ 2‫ݏ‬ (obvykle 95 %všech hodnot souboru): ani tento interval nezahrnuje extrémní
hodnoty
3.62 míra stejnorodosti, homogenity souboru:
- velikost intervalu závisí na velikosti vypočtené směrodatné odchylky s: čím větší, tím
větší rozpětí – tím větší rozptýlení hodnot kolem aritmetického průměru
- dva soubory mohou mít stejný aritmetický průměr i variační rozpětí – a přesto se od
sebe mohou značně lišit strukturou
- směrodatnou odchylku vyjadřujeme ve stejných jednotkách jako aritmetický průměr i
jako jednotlivé členy souboru (jinak by ji ani nebylo možné vypočítat!)
3.7 variační koeficient (ܸ௞):
- při porovnání dvou souborů můžeme zjistit značný rozdíl v aritmetickém průměru i ve
směrodatné odchylce...
- ke zjištění rozdílů mezi homogenností souborů“procentuální výpočet poměru
směrodatné odchylky vůči aritmetickému průměru... (kolik procent tvoří odchylka
v každém souboru z průměru): ܸ௞ ൌ
௦
௫ҧ
100 ൌ
ଵ଴଴௦
௫ҧ
3.8 střední chyba (‫ݏ‬ா):
- ukazuje, jaké chyby se dopustíme, jestliže budeme statistický soubor charakterizovat
aritmetickým průměrem
- vzorec k výpočtu: ‫ݏ‬ா ൌ
௦
√௡
- velmi malá (většinou zanedbatelná), pokud nepřesáhne 5 % aritmetického průměru
3.9 rozložení četnosti:
- při porovnání hodnot aritmetického průměru, variačního koeficientu, statistického
rozptylu, směrodatné odchylky a střední chyby (přihlížíme přitom k hodnotě modu a
mediánu)
- na základě výpočtu lze zjistit, zda se rozložení četnosti zkoumaného souboru
odchyluje od rozdělení normálního do té míry, že zkoumané rozdělení již za normální
považovat nelze...
- podrobněji: Klimeš 2001, s. 46 – 51 (včetně grafického vyjádření)
3.0 hladina významnosti:
- sledujeme míru pravděpodobnosti (např. při potvrzení či vyvrácení nějaké hypotézy\)
- pokud hladina významnosti dostoupí 95 % (a více), je rozdíl velice významný!
- jedná se tu o stanovení statisticky významného (signifikantního) rozdílu