Přednáška 1:
ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY DAT


Informace o předmětu
•Přednáška: středa 8:05 – 9:40 A318
•Seminář: středa 9:45– 10:30 A318
•

Informace o předmětu
•Cíle předmětu:
•Poskytnout hlubší pohled na statistické metody vhodné ke zpracování vícerozměrných dat, ovládnout
teoretický aparát vybraných metod a naučit se je aplikovat pomocí statistických programů na
počítači.
•Materiály – IS SU
•Opora – IS SU
•

Zkouška
•Písemná, částečně za pomoci počítače.
Pro úspěšné zvládnutí předmětu musíte mít alespoň 60 bodů ze 100.
•Ke zkoušce si můžete přinést jakékoliv studijní materiály v papírové formě.

Hodnocení
•Celkem 100 bodů
•0 až 59: nedostatečně (F), 4
•60 až 64: dostatečně (E), 3
•65 až 69: uspokojivě (D), 2,5
•70 až 79: dobře (C), 2
•80 až 89: velmi dobře (B), 1,5
•90 až 100: výborně (A), 1
•

Alternativa zkoušky
•V průběhu semestru se píšou 3 průběžné testy.
Studenti, kteří za každý z testů získají alespoň 50 % bodů
a současně součet bodů z průběžných testů budou mít alespoň 60, nemusí psát zkouškový test, známka
bude záviset na počtu získaných bodů.
•Průběžný test 1 – max. 30 b
•Průběžný test 2 – max. 30 b
•Průběžný test 3 – max. 40 b
•Na každý z průběžných testů si můžete připravit jeden „tahák“ – pomocný papír velikosti A5 popsaný
ručně z obou stran.
•

Kontakt
•nenickova@opf.slu.cz
•A409

Základní statistické pojmy, charakteristiky dat
•Hlavním cílem statistiky je analyzovat jisté datové soubory.
•Daný soubor dat je obvykle vytvořen za jistým účelem – za účelem analýzy podoby či chování nějaké
veličiny, které se říká statistický znak.

Populace versus výběr
•Množina všech hodnot, kterých znak může nabýt, se ve statistice nazývá základní soubor nebo také
populace. Populace se vztahuje k danému statistickému pojmu a je to tedy v tomto smyslu relativní
pojem.
•Statistici se nicméně častěji setkávají se situací, kdy základní soubor k dispozici není. V
takovém případě jim nezbývá nic jiného než provést výběr z této populace a získat tzv. výběrový
soubor.
•Ve statistice se nejčastěji požaduje náhodný výběr, což je datový soubor vznikající tak, že každý
jeho prvek má stejnou pravděpodobnost, že bude vybrán.

Deskriptivní statistika
•Je-li k dispozici základní soubor, může být jedinou ambicí statistika tuto populaci popsat. Metody
sloužící k tomuto účelu utvářejí deskriptivní/popisnou statistiku.
•Charakteristika je obecně údajem, který jistým způsobem shrnuje informaci o sledovaném datovém
souboru.
•Charakteristiky využívané k popisu populace se logicky nazývají populační charakteristiky.
•V případě, že je k dispozici pouze výběrový soubor, užívají se k popisu tohoto výběru výběrové
charakteristiky.
•Zvyklostí je užívat ke značení populačních charakteristik písmena řecké abecedy, zatímco pro
výběrové charakteristiky se užívá obvykle latinka.

STATISTICKÝ SOUBOR
S JEDNÍM ZNAKEM


Četnosti výskytu


Typy četností


CHARAKTERISTIKY POLOHY


CHARAKTERISTIKY VARIABILITY
•Populační rozptyl
•Výběrový rozptyl
•
•Populační směrodatná odchylka
•Výběrová směrodatná odchylka
•Variační rozpětí
•Populační variační koeficient
•Výběrový variační koeficient

CHARAKTERISTIKY KONCENTRACE DAT
•Ukazatele, které v jistém slova smyslu odrážejí míru seskupení hodnot tvořících analyzovaný datový
soubor
•Charakteristika šikmosti Sk (anglicky skewness)
•
•
•Charakteristika špičatosti Ku (z anglického kurtosis)
•

Šikmost
•Jak vyplývá z definičních vzorců, šikmost může nabývat libovolné reálné hodnoty.
•V případě, že ukazatel vychází nula, poukazuje tento výsledek na symetrické rozdělení četností
hodnot v daném datovém souboru. Koncentrace malých hodnot je stejná jako koncentrace velkých hodnot
v daném souboru.
•Pokud vychází šikmost kladně, má rozdělení četností hodnot z daného souboru kladné sešikmení
(sešikmení doprava) a koncentrace malých hodnot je v takovém souboru vyšší než koncentrace velkých
hodnot.
•Pokud vychází šikmost záporně, má rozdělení četností hodnot z daného souboru kladné sešikmení
(sešikmení doleva) a koncentrace malých hodnot je v takovém souboru naopak menší než koncentrace
velkých hodnot.
•V případě nenulové šikmosti hovoříme také o asymetrickém rozdělení četností.

Špičatost
•Špičatost nabývá pouze nezáporných hodnot
•Vyšší hodnota tohoto ukazatele vyjadřuje vyšší špičatost, tj. vyšší koncentraci hodnot blízkých
prostřední hodnotě ve srovnání s ostatními hodnotami daného statistického znaku.
•Někdy bývají vzorce pro špičatost pozměněny tak, že se od nich navíc odečítá číslo 3, čímž dochází
ke srovnání špičatosti daného souboru dat se špičatostí normálního rozdělení.
•Normální rozdělení má špičatost 3 bez ohledu na své parametry. To znamená, že pokud vyjde tato
modifikovaná šikmost kladně, má analyzovaný datový soubor vyšší šikmost než normální rozdělení.
•Existují ještě i další modifikace této charakteristiky.

OBECNÉ MOMENTY
•Obecné momenty jsou charakteristiky, které nahlížejí na strukturu dat z trochu jiného úhlu
pohledu.
•Existuje několik důvodů, proč se s nimi pracuje.
•Jedním z těchto důvodů je skutečnost, že za jistých podmínek si rozdělení četností a momenty
vzájemně jednoznačně odpovídají: datové soubory se stejnými momenty budou mít stejné rozdělení
četností a naopak.
•Nás nicméně zajímá zejména druhý důvod práce s momenty, a tím je jejich vhodnost pro
systematičtější výpočet některých charakteristik

Obecný moment
•Pro základní soubor dat definujeme k-tý obecný moment Mk předpisem
•
•
•
•Jde tedy o průměr k-tých mocnin původních hodnot.

Užitečné vztahy


STATISTICKÝ SOUBOR SE DVĚMA ZNAKY


Kontingenční tabulka
•Rozdělení sdružených četností se zapisuje do dvourozměrné tabulky, která se nazývá kontingenční
tabulka
•Do záhlaví tabulky se zapisují různé možné obměny obou sledovaných znaků, vnitřek tabulky obsahuje
sdružené četnosti výskytu různých kombinací těchto znaků.

Populační charakteristiky
•Předpokládáme-li, že uvedená tabulka představuje celou populaci, můžeme při zavedené symbolice
vypočítat základní dvě charakteristiky znaků X a Y – populační průměr, respektive střední hodnotu,
a populační rozptyl, a to podle následujících vzorců

Výběrové charakteristiky
•Pokud by tabulka reprezentovala výsledek náhodného výběru, počítali bychom výběrové průměry a
výběrové rozptyly podle vzorců

Kovariance
•Pracujeme-li se dvěma znaky jako v našem případě daném výše uvedenou kontingenční tabulkou,
definujeme také další důležitou charakteristiku zvanou kovariance. Populační kovarianci znaků X a Y
definujeme vzorcem :
•
•
•
•Pokud budeme pracovat s výběrovými daty o rozsahu větším než 2, definujeme výběrovou kovarianci
vztahem

Příklad


Kovariance – poznámky
•Kovariance se využívá k vyjádření závislosti mezi znaky X a Y ve tvaru přímky, tj. k vyjádření
jejich lineární závislosti.
•Lze říci, že pokud vychází kovariance kladně, existuje mezi oběma znaky do jisté míry závislost ve
tvaru přímé úměry. Přímá úměra značí, že s růstem hodnoty jednoho znaku úměrně roste i hodnota
druhého znaku.
•Vychází-li kovariance naopak záporná, signalizuje to existenci jisté míry nepřímé úměry:
stoupne-li hodnota jednoho znaku, úměrně tomu klesne hodnota druhého znaku.
•Nulová kovariance naznačuje, že lineární závislost mezi oběma znaky neexistuje. Jak je vidět, u
kovariance nás zajímá především její znaménko.
•Aby však tato charakteristika mohla posloužit lépe jako ukazatel lineární závislosti, převádí se
její hodnota na škálu, resp. interval [-1,1], který je vhodnější referencí pro měření intenzity
lineární závislosti. Výsledkem tohoto převodu je koeficient párové korelace, a to buď populační,
pracujeme-li s populací, nebo výběrový, je-li k dispozici pouze výběrový soubor.

Korelační koeficient
•Populační koeficient párové korelace
•
•Výběrový koeficient párové korelace
•
•Populační i výběrový koeficient korelace mohou nabývat pouze hodnot z intervalu  [-1,1].
•Vyjde-li populační párová korelace jedna, znamená to, že mezi oběma znaky existuje přesná funkční
závislost v podobě přímé úměry (rostoucí přímky).
•Vyjde-li populační korelace naopak minus jedna, existuje mezi oběma znaky přesná funkční závislost
v podobě nepřímé úměry (klesající přímky).
•Pokud je populační korelace nulová, říkáme, že znaky X a Y jsou nezkorelované (nikoliv
nezávislé!!).

Děkuji za pozornost