Neparametrické testy Mgr. Jiří Mazurek, PhD. 2 Co přináší neparametrické testování hypotéz •V případě ordinálních (pořadových) nebo nominálních dat odpovídá na specifické otázky: • 1. Existuje významný soulad dané charakteristiky vzorku se zadanou charakteristikou? • 2. Existuje významný rozdíl dané charakteristiky mezi 2 (nebo více) vzorky? •Charakteristika - např. medián, zadané pořadí, rozdělení pravděpodobnosti (četnosti) aj. Neparametrické hypotézy •Neparametrické hypotézy se netýkají parametrů rozdělení náhodné veličiny, nýbrž jiných statistických vlastností, např. tvaru rozdělení, nezávislosti náhodných veličin a podobně. •O neparametrických testech se také hovoří obecněji v případech, kdy nejsou splněny některé standardně vyžadované předpoklady pro provedení daného testu. (např. u t-testů jsme požadovali splnění jistých podmínek, aby mohl být daný statistických test realizován – požadovali jsme, aby výběr pocházel z normálního rozdělení.) • Jsou situace, kdy takový předpoklad splněn není, a pak je otázkou jak postupovat. Možnost testů •Existují testy „robustnějšího“ charakteru, kterými lze testovat vlastnosti populace, ze které náhodný výběr pochází, a přitom je třeba splnit pouze podmínky velmi obecného charakteru pro využití těchto testů. •V takových případech hovoříme rovněž o neparametrických testech, byť jimi můžeme testovat konkrétní podobu parametrů daného rozdělení. •Pod pojmem neparametrický test budeme zahrnovat statistický test, jenž zkoumá jiné vlastnosti neznámé populace či základního souboru než ty vlastnosti, které se týkají přímo parametrů této populace. 5 Neparametrické testy hypotéz •Ad 1) Jednovýběrové testy: • - Má medián populace s neznámým rozdělením stanovenou hodnoru? (mediánový test) • - Pochází výběr z populace se zadaným (známým) rozdělením pravděpodobnosti? (Chi-kvadrát test, Kolmogorov-Smirnovův test) •Ad 2) Dvouvýběrové testy: • - Mají výběry stejný medián? (mediánový test) • - Pochází výběry ze stejné populace? (Chi-kvadrát test, Mann-Whitneyův test, Wilcoxonův párový test) Mediánový test •hodnoty mediánu (prostřední hodnoty v populaci). •Pokud jde o populaci, která má tu vlastnost, že její populační průměr se shoduje s mediánem, lze mediánový test využít také jako jednovýběrový t-test. •Jedinou podmínkou pro použití mediánového testu je předpoklad, že rozdělení četností v populaci je možno popsat distribuční funkcí spojitého typu. Nepožaduje se tedy v tomto případě normální rozdělení jako v případě jednovýběrového t-testu. Mediánový test - předpoklady Mediánový test Mediánový test - poznámky •z1-α/2 je kritická hodnota normovaného normálního rozdělení pro zadanou hladinu významnosti α. •Je to tedy reálné číslo z1-α/2 takové, že pravděpodobnost jeho překročení (nebo dorovnání) je rovna hodnotě 1-α/2. •Tuto hodnotu nalezneme buď ve statistických tabulkách normovaného normálního rozdělení N(0,1) nebo pomocí Excelu použitím funkce NORMSINV (1-α/2) • Příklad 1 Testy dobré shody •Další kategorií testů, které probereme, jsou tzv. testy dobré shody. •Do této skupiny statistických metod patří řada testů, my se budeme zabývat dvěma z nich, které lze považovat za základní a často využívané při marketingových či sociologických výzkumech. •První test je zaměřen na testování podoby pravděpodobnostního rozdělení, z něhož pochází náhodný výběr, který je k dispozici. •Druhý test zkoumá statistickou nezávislost dvou znaků. Protože se v obou případech pracuje s rozdělením chí-kvadrát, pokud jde o rozdělení testového kritéria, hovoří se také o chí-kvadrát testech. 12 Chi-kvadrát test (C2 - test pro 1 výběr) •Data mohou být nominální (nejslabší požadavek)! •Testuje se (nulová) hypotéza: výběr pochází z populace se zadaným rozdělením •Zadané rozdělení je obvykle: • - diskrétní rozdělení s rozdílnými pravdě- podobnostmi (tzv. test dobré shody) • - diskrétní rozdělení se stejnými pravdě- podobnostmi (tzv. test nezávislosti) Test dobré shody Postup testu Excel Příklad 2 •Dodavatel slíbil, že dodávka bude obsahovat 70% výrobků 1. jakosti, 20% druhé jakosti a 10% jakosti třetí. •Při kontrole dodávky kontroloři náhodně vybrali 100 výrobků a zjistili, že 75 kusů je 1. jakosti, 10 kusů je 2. jakosti a 15 kusů je jakosti třetí. •Na hladině významnosti 0,05 zjistěte, zda dodavatel dodržel smlouvu. Příklad 2 – řešení •V následující tabulce je přehled zadání a výpočet teoretických hodnot. Celkový počet pozorování je n = 100. P (pozorovaná četnost) O (očekávaná četnost) P-O (P-O)^2 (P-O)^2/O 75 70 5 25 0.35 10 20 -10 100 5 15 10 5 25 2.5 suma (G) 7.85 Příklad 2 – dosazení do vzorce Příklad 2 – výpočet pomocí aplikace EXCEL •Použijete-li k testování funkci CHITEST, naleznete po dosazení naměřených a teoretických hodnot výsledek p = 0,01967 . •Toto číslo je menší než zadaná hladina významnosti α=0,05, a tedy zamítáme nulovou hypotézu, dodavatel nedodržel smlouvu. •Testové kritérium získáte z pravděpodobnosti p pomocí funkce CHIINV, jejíž argumenty budou pravděpodobnost a počet stupňů volnosti. •Zkontrolujte si, že CHIINV(0,019671;2)=7,857. Příklad 2b •Zaměstnavatel se rozhodl zjistit, zda existuje souvislost mezi počtem nemocných zaměstnanců a ročním obdobím. •V zimě bylo nemocných 8 osob, na jaře 14, v létě 6 a v zimě 12. •Na hladině významnosti 0,05 testujte nulovou hypotézu, že ve všech ročních obdobích byl počet nemocných zaměstnanců stejný. P O (P-O)^2 (P-O)^2/O Zima 8 10 Jaro 14 10 Léto 6 10 Podzim 12 10 Test nezávislosti kvalitativních znaků •Jednou z aplikací testu dobré shody je testování nezávislosti kvalitativních znaků v kontingenční tabulce. •Jedná se o n náhodných pokusů, které nemají přesné výsledky, ale výsledky určují rozdělení do kategorií. •Příkladem může být kvalitativní znak úspěch s kategoriemi uspěl/neuspěl nebo znak barva s kategoriemi červená/modrá/zelená. •Sleduje se více znaků, pro dva znaky A a B by výsledná tabulka četností (kontingenční tabulka) vypadala takto: Příklad kontingenční tabulky •Počet kategorií znaku A označme r a toto číslo současně označuje počet řádků tabulky. •Počet kategorií znaku B označme s a tento počet je v tabulce vyjádřen počtem sloupců. •Celkový počet pozorování je n. •Test nezávislosti se může provádět, jen když je každá z četností ni,j větší než 4. Teoretické hodnoty •Chceme-li použít k testování nezávislosti znaků A a B test dobré shody, potřebujeme mít k dispozici teoretické hodnoty, které pak následně porovnáme s hodnotami naměřenými. •Teoretické četnosti jsou hodnoty, které by byly v tabulce, kdyby oba znaky byly nezávislé a současně by marginální četnosti zůstaly stejné jak u empirických hodnot. •Teoretické hodnoty lze vypočítat ze vztahu: Tabulka teoretických četností Postup testování Příklad 3 •Bylo zkoumáno nákupní chování mužů a žen, které se týkalo návštěv obchodního domu Karolína Ostrava. V Tabulce níže je uveden počet žen a mužů, kteří v Karolíně pravidelně nakupují. • • • • • •Zjistěte na hladině významnosti alfa = 0,05, zda se nákupní zvyklosti mužů a žen liší. ANO NE Muži 12 34 46 Ženy 25 16 41 37 50 87 Příklad 3 - pokračovaní Kat. 1 Kat. 2 Kat. 1 A B Kat. 2 C D Příklad 3 - pokračování ANO NE Muži 12 34 46 Ženy 25 16 41 37 50 87 Příklad 4 •Vysoká škola zjišťovala, jestli existuje závislost mezi známkami z matematiky a mikroekonomie. •Do výzkumu zahrnula 100 studentů druhých ročníků, kteří měli obě zkoušky za sebou. Výsledky jsou uspořádány v následující kontingenční tabulce. •Na hladině významnosti 0,05 určete, zda lze pozorovat závislost mezi těmito dvěma předměty. Mikroekonomie Známka 1 2 3 Matematika 1 7 5 8 20 2 5 11 12 28 3 14 19 19 52 26 35 39 100 Příklad 4 - řešení Mikroekonomie Známka 1 2 3 Matematika 1 7 5 8 20 2 5 11 12 28 3 14 19 19 52 26 35 39 100 Děkuji za pozornost