Statistika 1 X. Testování hypotéz: neparametrické testy Statistika 2 Co přináší neparametrické testování hypotéz lV případě ordinálních (pořadových) nebo nominálních dat odpovídá na specifické otázky: l 1. Existuje významný soulad dané charakteristiky rozdělení četnosti vzorku se zadanou charakteristikou populace? l 2. Existuje významný rozdíl dané charakteristiky mezi 2 (nebo více) vzorky? lCharakteristika - např. medián, zadané pořadí, typ rozdělení pr-sti (četnosti) aj. Statistika 3 Neparametrické testy hypotéz l- Má medián populace s neznámým rozdělením stanovenou hodnotu? (mediánový test) l- Pochází výběr z populace se zadaným (známým) rozdělením pravděpodobnosti? l (Chi-kvadrát test) Statistika 4 Mediánový test (pro 1 výběr) lNevíme-li, zda má populace normální rozdělení, předpokládáme, že má medián rozsah vzorku n lH0: , H1: - oboustranný test l lTestové kritérium: l l m je počet počet pozorování ve vzorku < lJestliže u > z1-a/2 potom H0 zamítáme! l z1-a/2 je kvantil norm. normál. rozd. (viz tabulky) Statistika 5 Příklad 1: Mzdy lNáhodně vybraný vzorek 19 pracovníků jisté (dělnické) profese ve městě Karviná poskytl následující údaje o jejich měsíčních mzdách (v tis.Kč): l l l l lNa hladině významnosti a = 0,05 testujte hypotézu, že průměrná (mediánová) měsíční mzda pracovníků této profese v Karviné je 15 tis. Kč. 15,0 0,5 0,5 Lognormální rozdělení Statistika 6 Příklad 1: Řešení … lPopulace - měsíční mzdy všech pracovníků dané profese v Karviné lJe známo, že mzdy nemají normální rozdělení pr-sti! lProto namísto střední hodnoty je lepší lcharakteristikou medián, jemu pak odpovídá lneparametrický dvoustranný mediánový test hypotézy l H0: Med(X) = 15 lproti alternativní hypotéze l H1: Med(X) ¹ 15 Statistika 7 Příklad 1: … Řešení lZ dat: n = 19, m = 13, vypočteme: l lNORMSINV(0,975) = 1,96 lProtože 1,61 < 1,96, nulovou hypotézu H0 nezamítáme (přijímáme) lJinými slovy: na zvolené hladině významnosti 0,05 vzorek neodporuje hypotéze o výši mediánové měsíční mzdy prac. dané profese v Karviné (tj. 15 tis. Kč) lTaké: vybraný vzorek je v souladu s karvinskou populací v této profesi! Statistika 8 Chi-kvadrát test (C2 - test pro 1 výběr) lData mohou být nominální l (nejslabší požadavek)! lTestuje se (nulová) hypotéza H0: výběr pochází z populace s daným rozdělením lZadané rozdělení je obvykle: l- diskrétní rozdělení se stejnými pr- stmi (tzv. test nezávislosti) l- diskrétní rozdělení s rozdílnými pr- stmi (tzv. test dobré shody) Statistika 9 Příklad 2: Limonády lNová limonáda se prodávala za stejnou cenu jeden týden ve 3 různých typech obalu: A, B, C, počet prodaných limonád viz tabulka: l l l l l l lOvlivňuje styl designu obalu počet prodaných limonád? lJinak: Závisí prodej na obalu? Statistika 10 Příklad 2: Algoritmus a řešení 1: Test nezávislosti lKrok 1. Nulová hypotéza H0: l Počet prodaných kusů nezávisí na typu obalu (rozdíly v prodeji u vzorku jsou pouze dílem náhody). lOčekávané četnosti (Expected): l E1= E2 = E3 = 420/3 = 140 lPozorované četnosti (Observed): l O1= 135, O2 = 130, O3 = 155 l lKrok 2. Testové kritérium: l l k - počet kategorií (k = 3) l Statistika 11 Příklad 2: Algoritmus a řešení 2 l lKrok 3. Porovnání hodnoty vypočítaného kritéria l l CHIINV(0,05;2) = 6,0 ls tabulkovou kritickou hodnotou rozdělení lkde a ( = 0,05) je zadaná hladina významnosti l V každé kategorii: Oi alespoň 5 ! lJestliže l lpotom H0 nezamítáme! (jinak zamítáme) lp-hodnota (signifikance) = 0,287 > 0,05 (Nezamítáme) l Statistika 12 Statistika 13 Řešení příkladu 2 pomocí Excelu: Tabulka®Funkce: SUMA, CHIIV, CHIDIST… Signifikance = CHIDIST = 0,287 > 0,05 Þ H0 nezamítáme! Statistika 14 Příklad 2: Limonády (nová verze)… lNová limonáda se prodávala za stejnou cenu jeden týden ve fakultním bufetu ve 3 různých typech obalu: A, B, C, počet prodaných limonád viz tabulka: NOVÉ ZADÁNÍ: l l l l lOvlivňuje styl designu obalu počet prodaných limonád? Statistika 15 Řešení příkladu 2… pomocí Excelu: Tabulka®Funkce: SUMA, CHIIV, CHIDIST… Signifikance = CHIDIST = 0,0067 < 0,05 Þ H0 zamítáme! X2 = 10,0 > = CHINV = 5,991Þ H0 zamítáme! Statistika 16 Příklad 3: Barvy automobilů 1 lAutomobil Škoda - Felicia se prodává ve čtyřech barvách: l40% zákazníků požaduje zelenou barvu automobilu l25% červenou barvu, l25% modrou barvu a l10% bílou barvu. lK ověření správnosti předpokladu l o struktuře poptávky podle barev použijte záznamy o nákupech v dané prodejně v jistém měsíci Statistika 17 Příklad 3: Barvy automobilů 2 lVstupní údaje obsahuje následující tabulka: l l l l l l l l lNa hladině významnosti a = 0,05 testujte lhypotézu, že uvedené pravděpodobnostní odhady lodpovídají zjištěným hodnotám prodejů Statistika 18 Příklad 3: Algoritmus a řešení 1: Test dobré shody lKrok 1. Nulová hypotéza H0: l l lOčekávané četnosti: l E1= 192, E2 = 120, E3 = 120, E4= 48 lPozorované četnosti: l O1= 201, O2 = 105, O3 = 144, O4 = 30 l lKrok 2. Testové kritérium: l l k - počet kategorií (k = 4) l Statistika 19 Očekávané četnosti: lOčekáv_čet_i = Pravděp_i ´ celk_čet l lPříklad: li = zelená, Pravděp_i = 0,40 , celk_čet = 480 lE1 = Očekáv_čet_i = 0,4*480 = 192 latd. Statistika 20 Příklad 3: Algoritmus a řešení 2: Test dobré shody l lKrok 3. Porovnání hodnoty vypočítaného kritéria l l ls tabulkovou kritickou hodnotou rozdělení l l V každé kategorii: Oi je alespoň 5 ( >30) lPlatí l lproto H0 zamítáme! Alternativně: l Sig = CHIDIST(13,85; 3) = 0,003 < 0,05 Statistika 21 Testování nezávislosti kvalitativních znaků 1 lV jednom vzorku (výběru) můžeme současně lsledovat dva nebo i více (kvalitativních) znaků l lPříklad: lPři kontrole jakosti výrobku sledujeme přítomnost lnebo nepřítomnost vady A (znak A), nebo lpřítomnost nebo nepřítomnost vady B (znak B). lA i B nabývají pouze dvě alternativní hodnoty – lkategorie: Ano, Ne l(Přítomnost, Nepřítomnost, apod.). Statistika 22 Testování nezávislosti kvalitativních znaků 2 lUvažujte soubor se dvěma kvalitativními znaky A a B lZnak A má r možných kategorií hodnot loznačených: lznak B má s možných kategorií hodnot: l lVýsledek celého složeného experimentu lze shrnout do kontingenční tabulky: Statistika 23 Kontingenční tabulka: Kategorie znaku A / B B1 B2 B3 ................. Bs Součet A1 n11 n12 n13 .................. n1s n1. A2 n21 n22 n23 .................. n2s n2. A3 n31 n32 n33 .................. n3s n3. ............ ..... .... .... .................. ....... ................ Ar nr1 nr2 nr3 .................. nrs nr. Součet n.1 n.2 n.3 .................. n.s n Statistika 24 Kontingenční tabulka (čtyřpolní) Příklad: vzhled vers. hmotnost výrobku Vzhled / Hmotnost výrobků Vyhovující hmotnost Nevyhovujícíhmotnost Součet- Marg. četnost Vyhovující vzhled 239 60 299 Nevyhovující vzhled 14 7 21 Součet - Marg. četnost 253 67 320 Statistika 25 Chi-kvadrát test nezávislosti: Algoritmus 1 lKrok 1. Nulová hypotéza H0: l Vzhled výrobku nezávisí na hmotnosti l (rozdíly u vzorku jsou pouze dílem náhody). l lOčekávané četnosti: E11= 253*299/320 = 236,4 l E21= 253*21/320 = 16,6 l E12= 67*299/320 = 62,6 l E22= 67*21/320 = 4,4 lPozorované četnosti: O11= 239, O12 = 14, O21 = 60, O22 = 7 l lKrok 2. Testové kritérium X2: l ldf =(r-1)(s-1) počet stupňů volnosti ( k = (2-1)(2-1)=1) Statistika 26 Očekávané četnosti: l lOčekáv_č_i,j = Marg_č_i ´ Marg_č_j / celk_č l lPříklad: li = 1: Hmotnost-Nevyhovující lj = 2 : Vzhled-Vyhovující lcelk_č = 320 lE12 = Očekáv_č_1,2 = 299*67/320 = 62,6 latd. Statistika 27 Chi-kvadrát test nezávislosti: Algoritmus 2 l lKrok 3. Porovnání hodnoty vypočítaného kritéria s tabulkovou kritickou hodnotou rozdělení l kde a = 0,10 je zadaná hladina významnosti. l l V každé kategorii má být alespoň 5 hodnot! l Jestliže potom H0 nezamítáme! l Alternativně: l Pro hodnotu X2 zjistíme p-hodnotu (tj. signifikanci - - má být menší než 0,1) l p = CHIDIST(2,1;1) = 0,147 - tedy H0 nezamítáme! Statistika 28 Čtyřpolní tabulka – kontingenční tabulka 2 x 2: l l l l lKritérium: l l lJestliže l lpak H0 zamítáme, jinak ji nezámítáme! Znak2 Součet Znak1 h1 h2 h1 A B A+B h2 C D C+D Součet A+C B+D n Statistika 29 Příklad: Vzhled vers. Hmotnost A = 239, B = 60, C = 14, D = 7 = 2,1 Statistika 30 Příklad 4 – Vliv kouření na úmrtnost v Karviné lKontingenční tabulka pro 2917 zemřelých v Karviné v roce 1998 lKouření versus Počet zemřelých na rakovinu plic l l l l lAnalyzujte, zda kouření respondentů ovlivnilo úmrtnost na rakovinu plic (RP) lPoužijte Chi-kvadrát test Statistika 31 Řešení příkladu 4 pomocí Excelu: l l l l součet l l lNulovou hypotézu o nezávislosti znaků zamítáme! l(Úmrtnost na rakovinu plic závisí na kouření respondentů) = 11,54