© 2022 ACREA CR, spol. s r.o. Základní parametrické testy středních hodnot © 2022 ACREA CR, spol. s r.o. ‹#› Testování středních hodnot •Nulové hypotézy se týkají středních hodnot distribucí, z nichž pochází pozorovaná data –Rovnost střední hodnoty zadané konstantě –Shoda středních hodnot dvou nebo více náhodných veličin •Cílem je prokázat odchylky reprezentované alternativní hypotézou –Střední hodnota je jiná než zadaná konstanta –Alespoň jedna veličina má jinou střední hodnotu než ostatní – 2 © 2022 ACREA CR, spol. s r.o. ‹#› Klasifikace testů o středních hodnotách •jednovýběrové testy –zkoumáme jednu náhodnou veličinu –data v jednom sloupci datové matice •testy pro závislé výběry –párové pro dva výběry, vícevýběrové –data ve dvou nebo více sloupcích datové matice •testy pro nezávislé výběry –dvouvýběrové, vícevýběrové –data v jednom sloupci, datová matice rozdělená na bloky různé délky určené jinou nominální proměnnou 3 © 2022 ACREA CR, spol. s r.o. ‹#› Parametrické testy o středních hodnotách •Předpoklady: •Nezávislost pozorování •Nezávislost skutečných hodnot a chyb •data pocházejí z normálního (Gaussova) rozdělení –parametry normálního rozdělení •Střední hodnota μ –Neznámý parametr, jeho hodnotu testujeme •Rozptyl σ2 –Je-li rozptyl známý, používáme z-testy –Je-li rozptyl neznámý a odhadujeme ho z dat, používáme Studentovy t-testy •Skupiny se nepřekrývají •Shoda rozptylů ve skupinách 4 Johann Carl Friedrich Gauss (1777-1855) Německo William Sealy Gosset (1876-1937) GB, Irsko © 2022 ACREA CR, spol. s r.o. ‹#› Jednovýběrový t-test •H0: střední hodnota je rovna zadané konstantě –μ = μ0 •HA: střední hodnota se liší od zadané konstanty –μ ≠ μ0 •data pochází z normálního rozdělení –před započetím testování ověř normalitu dat •platí pro malé soubory (n < 30) •zákon velkých čísel •rozptyl σ2 neznáme –v testové statistice použijeme jeho odhad na základě dat •střední hodnotu μ neznáme –střední hodnota je předmětem testování –v testové statistice se vyskytuje její odhad na základě dat 5 © 2022 ACREA CR, spol. s r.o. ‹#› Příklad na jednovýběrový t-test 6 běžec čas 11,1 12,0 11,7 11,6 10,1 © 2022 ACREA CR, spol. s r.o. ‹#› Párový t-test •dva závislé výběry •H0: obě pozorované veličiny pochází z rozdělení se stejnou střední hodnotou –μ1 = μ2 •HA: střední hodnoty rozdělení pozorovaných veličin se liší –μ1 ≠ μ2 •obě pozorované veličiny pochází z normálního rozdělení –před započetím testování ověř normalitu dat –stačí ověřit normalitu rozdílu pozorovaných veličin •platí pro malé soubory (n < 30) •zákon velkých čísel •rozptyly σ12 a σ22 neznáme –ani nepředpokládáme, že jsou stejné nebo se liší –v testové statistice použijeme jeho odhad rozptylu rozdílu obou veličin na základě dat •střední hodnoty μ1 a μ2 neznáme –střední hodnoty jsou předmětem testování –netestujeme velikost středních hodnot, nýbrž jejich shodu –v testové statistice se vyskytuje odhad střední hodnoty rozdílu obou veličin na základě dat •párový t-test se převádí na jednovýběrový t-test rozdílu pozorování –yi = x1i – x2i –μ0 = 0 7 © 2022 ACREA CR, spol. s r.o. ‹#› Příklad na párový t-test 8 běžec čas A čas B rozdíl 10,2 12,1 -1,9 11,7 11,1 0,6 13,6 14,2 -0,6 11,8 11,5 0,3 11,7 12,0 -0,3 © 2022 ACREA CR, spol. s r.o. ‹#› Dvouvýběrový t-test •dva nezávislé výběry •H0: obě pozorované veličiny pochází z rozdělení se stejnou střední hodnotou –μ1 = μ2 •HA: střední hodnoty rozdělení pozorovaných veličin se liší –μ1 ≠ μ2 •obě pozorované veličiny pochází z normálního rozdělení –před započetím testování ověř normalitu obou veličin –platí pro malé soubory (n < 30) –zákon velkých čísel •rozptyly σ12 a σ22 neznáme –musíme však ověřit, zda jsou stejné nebo se liší –podle výsledku ověření shody rozptylů zvolíme variantu dvouvýběrového t-testu •střední hodnoty μ1 a μ2 neznáme –střední hodnoty jsou předmětem testování –netestujeme velikost středních hodnot, nýbrž jejich shodu – 9 Bernard Lewis Welch (1911-1989) GB © 2022 ACREA CR, spol. s r.o. ‹#› Příklad na dvouvýběrový t-test 10 běžec čas 13,5 11,7 11,9 13,3 11,7 11,6 12,7 © 2022 ACREA CR, spol. s r.o. ‹#› Jednoduchá analýza rozptylu •dva a více nezávislých výběrů –výběry se v ANOVA nazývají skupiny •H0: Všechny pozorované veličiny pochází z rozdělení se stejnou střední hodnotou –μ1 = μ2 = μ3 … = μk •HA: Alespoň jedna střední hodnota se od ostatních liší –μj ≠ μk •všechny pozorované veličiny pochází z normálního rozdělení –před započetím testování ověř normalitu všech veličin –platí pro malé soubory (n < 30) –zákon velkých čísel •rozptyly σj2 neznáme –musíme však ověřit, zda jsou stejné nebo se liší –je-li alespoň jeden rozdíl odlišný, použijeme některý ze speciálních testů •střední hodnoty μj neznáme –střední hodnoty jsou předmětem testování –netestujeme velikost středních hodnot, nýbrž jejich shodu •pokud prokážeme neshodu středních hodnot, můžeme pokračovat vyšetřováním, které střední hodnoty se od sebe liší –simultánní testování shody středních hodnot ve dvojicích nezávislých výběrů 11 Ronald Aylmer Fisher (1890-1962) GB © 2022 ACREA CR, spol. s r.o. ‹#› Příklad na jednoduchou analýzu rozptylu běžec čas 13,5 11,7 11,9 13,3 11,7 11,6 12,7 11,1 12,3 © 2022 ACREA CR, spol. s r.o. ‹#› Analýza rozptylu opakovaných měření •Dva a více závislých výběrů •H0: všechny pozorované veličiny pochází z rozdělení se stejnou střední hodnotou –μ1 = μ2 = μ3 … = μk •HA: alespoň jedna střední hodnota se od ostatních liší –μj ≠ μk •všechny pozorované veličiny pochází z normálního rozdělení –před započetím testování ověř normalitu všech veličin –platí pro malé soubory (n < 30) – •rozptyly σj2 neznáme –rozptyly nemusí být shodné –rozptyly všech párových rozdílů však shodné být musí, sféricita •střední hodnoty μj neznáme –střední hodnoty jsou předmětem testování –netestujeme velikost středních hodnot, nýbrž jejich shodu •pokud prokážeme neshodu středních hodnot, můžeme pokračovat vyšetřováním, které střední hodnoty se od sebe liší –simultánní testování shody středních hodnot ve dvojicích závislých výběrů 13 © 2022 ACREA CR, spol. s r.o. ‹#› Příklad na analýzu rozptylu opak. měření 14 běžec čas A čas B čas C 10,2 12,1 11,2 11,7 11,1 12,2 13,6 14,2 13,3 11,8 11,5 10,8 11,7 12,0 11,9 © 2022 ACREA CR, spol. s r.o. ‹#› Kuchařka základních parametrických testů o středních hodnotách •jeden výběr = jeden sloupec dat •jednovýběrový t-test •nezávislé výběry = jeden sloupec dat + identifikátor bloků datové matice –dva bloky •dvouvýběrový t-test pro shodné rozptyly ve skupinách •dvouvýběrový Welchův t-test pro neshodné rozptyly ve skupinách –více než dva bloky •jednoduchá ANOVA •závislé výběry = několik sloupců dat –dva sloupce •párový t-test –více než dva sloupce •ANOVA pro opakovaná měření 15