© 2022 ACREA CR, spol. s r.o. Základy statistiky pro analýzu dat © 2022 ACREA CR, spol. s r.o. Obsah kurzu •1. Den •Dopoledne: Základní pojmy, kategorizovaná data, testování hypotéz •Odpoledne: T-testy, neparametrické testy • •2. Den •Dopoledne: ANOVA, třídění druhého stupně, kontingenční tabulka •Odpoledne: Korelační analýza • •3. Den •Dopoledne: Regresní analýza •Odpoledne: Regresní analýza a opakování • 2 © 2022 ACREA CR, spol. s r.o. Harmonogram kurzu •1. hodina 9:00-10:30 • Pauza 10:30 – 10:45 • •2. hodina 10:45-12:15 • Pauza 12:15-13:15 • •3. hodina 13:15-14:45 • Pauza 14:45 – 15:00 • •4. hodina 15:00-16:30 • • • • 3 © 2022 ACREA CR, spol. s r.o. Typy proměnných • •typy proměnných: –číselné –kategorizované (nominální, ordinální) –textové –datum a čas • 4 © 2022 ACREA CR, spol. s r.o. Popis nominálních proměnných 5 © 2022 ACREA CR, spol. s r.o. Popis ordinálních proměnných 6 © 2022 ACREA CR, spol. s r.o. Grafy •Pro znázornění rozložení četností se využívají i grafy znázorňující četnosti hodnot proměnných. Nejznámějšími variantami jsou koláčový a sloupcový graf. • • 7 © 2022 ACREA CR, spol. s r.o. Popis kardinálních proměnných 8 © 2022 ACREA CR, spol. s r.o. Charakteristiky polohy 9 © 2022 ACREA CR, spol. s r.o. Charakteristiky polohy 10 © 2022 ACREA CR, spol. s r.o. Charakteristiky polohy •Závěr •Modus snadno se najde, má ale minimální vypovídací hodnotu. •Medián určuje střed souboru a je méně citlivý na chyby. •Průměr zohledňuje všechny hodnoty, ale je citlivý na chyby. 11 © 2022 ACREA CR, spol. s r.o. Charakteristiky rozptýlenosti 12 © 2022 ACREA CR, spol. s r.o. Jiné charakteristiky 13 © 2022 ACREA CR, spol. s r.o. Šikmost a špičatosť 14 © 2022 ACREA CR, spol. s r.o. Grafická znázornění •Krabicový graf (boxplot) • 15 © 2022 ACREA CR, spol. s r.o. Grafické znázornění •Histogram • 16 © 2022 ACREA CR, spol. s r.o. Statistické tabelace a přehledy •Procedury –Descriptive Statistics – Descriptives •Základní popisné statistiky • –Descriptive Statistics – Frequencies •Tabulky četností pro kategorizované proměnné • –Compare Means – Means •Tabulky statistik ve skupinách 17 © 2022 ACREA CR, spol. s r.o. Výběrová šetření: populace •Populace = základní soubor •Příklady: osoby nad 18 let žijící v ČR / ženy po porodu / pacienti, kteří se v posledním roce léčili v dané nemocnici / osoby trpící astmatem / děti do 10 let trpící atopickým ekzémem … •určení populace •výčtem prvků •zadáním jejich vlastností •rozsah populace: konečný x nekonečný •parametr: zvolená číselná charakteristika populace •Příklad: průměrný věk, podíl mužů, průměrné hodnocení spokojenosti s léčbou … © 2022 ACREA CR, spol. s r.o. Výběrová šetření: základní pojmy •úplné šetření – sledujeme znaky u všech jednotek populace •(vyskytuje se pouze výjimečně, například sčítání lidu) •výběrové šetření – znaky sledujeme pouze u vybraných jednotek • Þ výběr • ekonomicky a časově přijatelnější •Příklad: •výzkum zdravotního stavu a životního stylu obyvatel ČR •zjišťování spokojenosti pacientů v nemocnici … •rozsah výběru – počet vybraných jednotek •reprezentativní výběr – odráží strukturu celého zkoumaného souboru • © 2022 ACREA CR, spol. s r.o. Výběrová šetření: princip •Princip výběrových šetření •u části populace (výběru) zjišťujeme zvolené charakteristiky •za určitých předpokladů můžeme výsledky zobecnit na celou populaci •závěry jsou vždy provázeny určitou nejistotou • Þ snaha o vyjádření míry nejistoty pomocí statistických metod •Pozn.: Můžeme charakterizovat pouze míru nejistoty, která vyplývá ze způsobu realizace výběru (velikost a metoda výběru). Nezahrnuje nejistoty typu: nekvalitní data, přesnost měření… © 2022 ACREA CR, spol. s r.o. Výběrová šetření: schéma Reprezentativní výběrový soubor Populace Výběrový soubor Inference/ predikce © 2022 ACREA CR, spol. s r.o. Výběrová šetření: zajištění reprezentativnosti •Snaha o zajištění reprezentativnosti výběru: •kvótní výběr •určení kvót: expertní odhady nebo na základě jiného výzkumu •vždy pouze pro několik základních znaků •problém s vyjádřením přesnosti odhadů a odvozením intervalů spolehlivosti •náhodný výběr •výběr by měl s velkou pravděpodobností odrážet vlastnosti celé populace •nezávislost na subjektivním odhadu •míru nejistoty lze vyhodnotit pomocí zákonů statistiky •v mezinárodních srovnáních obvykle vyžadovaný standard •problém odmítání účasti ve výzkumu (nonresponse) •optimální metoda výběru: prostý náhodný výběr (v praxi ale může být obtížně realizovatelný) • • © 2022 ACREA CR, spol. s r.o. Statistická indukce (statistické usuzování) •souhrn metod pro zkoumání výběrového souboru s využitím aparátu teorie pravděpodobnosti •Na základě těchto metod můžeme usuzovat (formulovat závěry) o základním souboru. – –1. Teorie odhadu – odhadování parametrů rozdělení –2. Testování statistických hypotéz – testujeme hypotézy o shodě parametrů rozdělení či shodě rozdělení • •pravděpodobnost = míra očekávání výskytu náhodného jevu • © 2022 ACREA CR, spol. s r.o. Statistická hypotéza •formální výrok •tvrzení o parametrech rozdělení nebo jeho tvaru •je rozhodovací postup na základě kterého odmítáme nebo neodmítáme statistickou hypotézu •jeho výsledkem je zamítnutí nebo nezamítnutí zvoleného matematického modelu (statistické hypotézy) •statistická hypotéza je výrok, který musí splňovat tři podmínky, aby závěry mohly být korektně použity: 1.je relevantní vzhledem k analýze dat a interpretaci 2.je prověřitelný – existují data a statistické postupy o určení jeho platnosti 3.je formulován nezávisle na datech Statistické testování hypotéz © 2022 ACREA CR, spol. s r.o. Formulace statistických hypotéz •formulujeme 2 hypotézy, které jsou ve vzájemné opozici •nulová hypotéza H0 –je pevně daný formální výrok specifický pro každý test –vyjadřuje náš předpoklad, který chceme otestovat, konkrétní hodnota testovaného populačního parametru m0 –často znamená hodnotu populačního parametru rovnou 0 •alternativní hypotéza HA nebo H1 –obecně jakákoliv jiná hodnota populačního parametru m0, než je v H0 –prakticky volíme interval, který neobsahuje m0 –3 varianty podle věcné smysluplnosti •oboustranný test m ≠ m0 •pravostranný test m > m0 •levostranný test m < m0 © 2022 ACREA CR, spol. s r.o. Rozhodovací chyby •rozhodnutí H0 vs HA •situace rozhodování: • • • • • •princip: • a) stanovíme maximální přípustnou pravděpodobnost chyby I.druhu = a • b) volíme testovou statistiku (a případně design sběru dat) tak, aby minimalizovala pravděpodobnost chyby II.druhu = b • přijímáme H0 přijímáme HA platí H0 OK chyba I. druhu platí HA chyba II. druhu OK © 2022 ACREA CR, spol. s r.o. Testové kritérium (testová statistika) •shrnutí informace z náhodného výběru pomocí vhodné funkce výběrových hodnot •testové kritérium je funkce specifická pro každý test •samotný odhad parametru nestačí – vliv na testování mají i jiné vlastnosti dat než jen testovaný parametr • •princip: • Statistická funkce dat (tzv. testová statistika) T je konstruována tak, aby vyjadřovala míru neshody dat s nulovou hypotézou, neshody odhadu a zvolené testované hodnoty. Čím vyšší je hodnota testové statistiky, tím je platnost nulové hypotézy méně pravděpodobná, data hypotézu nepotvrzují, ale vyvracejí ji. © 2022 ACREA CR, spol. s r.o. Testování •stanovili jsme statistickou hypotézu •vybrali test •určili nulovou hypotézu konkrétnímu test •určili jsme testovou statistiku •vypočítali jsme testovou statistiku • •A co teď? •porovnáme hodnotu testové statistiky s kritickou hodnotou •kritická hodnota odděluje kritický obor W (obor zamítnutí nulové hypotézy) od oboru „přijetí“ (obor nezamítnutí nulové hypotézy) •pokud testová statistika patří do kritického oboru = zamítáme H0 •pokud testová statistika patři do oboru přijetí = nezamítáme H0 Jak stanovit kritickou hodnotu? © 2022 ACREA CR, spol. s r.o. Kritická hodnota a kritický obor •při platnosti známe rozdělení testové statistiky T –víme, jakých hodnot s jakou pravděpodobností T nabývá •lze spočítat kritickou hodnotu Ta v závislosti na zvoleném a •volí se taková , aby pravděpodobnost, že T bude v kritickém oboru byla rovna a –lze splnit nekonečně mnoho způsoby –jen jeden ale má nejmenší pravděpodobnost chyby druhého druhu b, tzv. stejnoměrně nejsilnější kritický obor –zvolený kritický obor má charakter intervalu definovaný Ta •oboustranný kritický obor P(|T|> Ta) = a •pravostranný kritický obor P(T > Ta) = a •levostranný kritický obor P(T < -Ta) = a Ta -Ta Obor nezamítutí Kritický obor Kritický obor 0 © 2022 ACREA CR, spol. s r.o. Konečné rozhodnutí •zbývá stanovit a a tím je stanovena kritická hodnota Ta –v praxi se nejčastěji volí hodnota 0,05, řidčeji 0,01 –pouze zvyk, není vhodné brát hodnotu jako nepřekročitelné pravidlo –zavedl R. A. Fisher (1 z 20) •dva ekvivalentní způsoby rozhodování a)porovnání vypočtené testové statistiky s kritickou hodnotou, která odpovídá hodnotě , je-li statistika T vyšší než kritická hodnota Ta, zamítáme nulovou hypotézu H0 b)k vypočtené T zjistíme dosaženou signifikanci (P-value) a porovnáme ji s kritickou hladinou a, je-li signifikance ≤ a zamítáme hypotézu H0 §signifikance je takové a, pro které T = Ta §signifikance se dá interpretovat jako pravděpodobnost, že T >= Ta při platnosti H0 , tedy., že odchylka dat od H0 je způsobena pouze náhodou. •zamítnutí H0 a přijetí HA, znamená, že data neodpovídají H0 © 2022 ACREA CR, spol. s r.o. Interpretace rozhodnutí •zamítáme H0 – přijímáme HA –říkáme pouze, že data neodpovídají H0 –hodnota testového kritéria závisí na velikosti rozdílu mezi odhadem a testovanou hodnotu, ale také na velikosti výběru –čím větší výběr tím menší rozdíl je statisticky významný –Vždy interpretujeme i věcný význam statisticky významného rozdílu. •nezamítáme H0 – NEPŘÍJÍMÁME HA –testové kritérium nepadne do kritického oboru, respektive signifikance je větší než zvolená mez a –říkáme pouze, že data neodporují H0 –nemůžeme přijmout H0, protože neznáme pravděpodobnost chyby II. druhu b –HA může ve skutečnosti platit, ale nemáme dost dat, abychom to prokázali –používaný termín obor přijetí je zavádějící – © 2022 ACREA CR, spol. s r.o. Síla testu •síla testu je 1-b, kde b je pravděpodobnost chyby II. druhu –vyjadžuje spolehlivost, se kterou správně zamítneme H0, tedy, když platí HA •síla závisí na skutečné hodnotě parametru v oboru HA a poetu případů –hodnotu parametru neznáme •kdybychom znali, bylo by celé testování zbytečné •závislot síly na parametru popisuje silofunkce –teoreticky lze zkonstruovat –kritérium kvality testu, upřednosňujeme testy s větší silou, pro stejné velikosti souboru –lze použít pro odhad potřebné velikosti výběrového souboru •musíme si určit skutečnou hodnotu parametru, který chcene testem potvrdit, musíme znát i další součásti testového kritéria. • © 2022 ACREA CR, spol. s r.o. Praktické použití • ROZHODOVACÍ PRAVIDLO: • signifikance ≤ a zamítáme nulovou hypotézu • signifikance > a není důvod zamítat nulovou hypotézu • (a je typicky = .05 nebo .01) © 2022 ACREA CR, spol. s r.o. Postup statistického testování hypotéz •obecný postup: 1.formulujeme statistickou hypotézu 2.pro její ověření vybereme příslušný statistický test 3.určíme jeho nulovou hypotézu H0 a k ní alternativní hypotézu HA 4.určíme kritickou hladinu a pro rozhodování 5.určíme testovou statistiku (testové kritérium) T(X) 6.dosadíme data X do T(X) 7.vyhodnotíme testové kritérium a)k a zjistíme Ta ; T(X) ≥ Ta => zamítneme H0, b)vypočteme signifikanci; signifikanci ≤ a => zamítneme H0 • oba postupy a) a b) jsou ekvivalentní, není-li splněna podmínka, nezamítáme H0 •