Statistické zpracování dat 7.přednáška Mgr. Radmila Krkošková, Ph.D. • •Vícenásobná lineární •regresní analýza (2) • Téma přednášky: 2 Obsah přednášky 3 • Heteroskedasticita (H-S) • Testy H-S a její odstraňování • Autokorelace • Nominální proměnné Heteroskedasticita 4 Rozptyl náhodné chyby u je konstantní, tj. Var(u) = σ2 Graficky: Hodnoty jsou rozptýleny ve stejně širokém pásu kolem regresní funkce (regresní nadroviny) Otázky: 1.Co je podstatou heteroskedasticity (H-S)? 2.Jaké jsou důsledky H-S? 3.Jak zjišťovat H-S v dané situaci? 4.Jak odstraňovat H-S? 5 Jak vypadá H-S? •Grafická analýza reziduí: ANO ANO ANO NE NE Co je podstatou H-S? 6 Jedná se o rozptyl náhodné chyby ui v regresním (populačním) modelu, např. • • • • Co je podstatou H-S? 7 Některé důvody nekonstantnosti rozptylu: 1.Učení se z chyb: rozptyl počtu chyb se s rostoucím časem zmenšuje 2. 2.S rostoucím věkem roste rozptyl příjmů zaměstnanců 3. 3.S lepšími technikami sběru dat klesá rozptyl chyb v datech 4. 4.S přítomností odlehlých hodnot roste rozptyl Co je podstatou H-S? 8 5.U špatně specifikovaného modelu dochází k proměnlivosti rozptylu 6.Šikmost rozdělení vysvětlujících proměnných zvětšuje rozptyl 7. Panelová (průřezová) data mívají proměnlivý rozptyl • • Jaké jsou důsledky H-S? 10 •Odhady regresních koeficientů již nejsou nevychýlené a nemusí mít nejmenší rozptyl •Testy regresních koeficientů jsou nespolehlivé (nepravdivé) ® nebezpečí špatných (zavádějících) závěrů •Nesplnění předpokladu homoskedasticity činí obvyklé závěry o regresním modelu nepoužitelnými !!! • • Testy H-S 11 Bartletův test H-S: (zjednodušený G-Q test) Vychází z rozdělení dat podle velikosti proměnné X do dvou částí (vzorků): Xi ≤ D a Xi > D … data uspořádána podle X, D @ Testuje se hypotéza o rovnosti rozptylů ui v obou vzorcích (v Excelu: Analýza dat, Dvouvýběrový F-test pro rozptyl,…) Pokud se hypotéza o rovnosti rozptylu zamítá, potom se hypotéza o H-S přijímá (a obráceně) Příklad – postup při testování H-S 12 Testujte H-S v datech Příjmů (X) a Spotřebních výdajů (Y) (viz soubor B_test_H-S_novy.xls) Krok 1: Sestavte lin. regresní model: Y = 9,29 + 0,64*X + e (v Excelu: Nástroje ® Analýza dat… ® Regrese…) Krok 2: Uspořádejte sloupce X a e podle rostoucího X Příklad – postup při testování H-S 13 Krok 3: Rozdělte soubor na dva stejně veliké (event. prostřední prvek vypusťte):oba výběry mají po 15 údajích Krok 4: Proveďte Dvouvýběrový F test pro rozptyl reziduí e (v Excelu: Nástroje ® Analýza dat ® Dvouvýběrový F-test pro rozptyl) Příklad - výsledek 14 Výsledek: p-hodnota = 0,01 < 0,05 Þ oba výběry mají různý rozptyl, tzn. nulovou hypotézu zamítáme (na hladině 5%). Je přítomna H-S ! 15 Metody odstranění H-S •Myšlenku transformace H-S dat na data bez H-S ukážeme na jednoduchém regresním modelu • •Regresní model: Yi = B0 + B1Xi + ui (*) • •Transformujeme vhodně H-S data na data bez H-S • • Řešíme nový homoskedastický regr. model (tj. bez H-S) !!! Rozptyl náhodné chyby závisí na regresoru 16 Případ 1: Předpokládáme E(ui2) = σi2 = σ2Xi (σ2 je neznámá konstanta!) Provedeme transformaci (substituci) do (*): (**) Transformovaný model (**) je model bez H-S, neboť 17 Případ 1: σi2 = σ2Xi Úprava dat 18 •Úprava vstupních dat, např.: Yi = Obrati , Xi = VaVi • • •V programu (Excel, SPSS) se zaklikne volba: „konstanta je nula“, neboť model má tvar •Odhady koeficientů modelu (+) jsou již v pořádku, v (+) lze pak pro X predikovat Y´ a zpětnou transformací též: (+) • • • Rozptyl náhodné chyby závisí na kvadrátu regresoru 19 Případ 2: Předpokládáme E(ui2) = σi2 = σ2Xi2 Provedeme transformaci (substituci) do (*): (***) Transformovaný model (***) je opět model bez H-S, neboť 20 Případ 2: σi2 = σ2Xi2 Log-lineární model 21 •Namísto spekulací o tvaru závislostí σi2 je někdy výhodnější provést reformulaci modelu •Osvědčená reformulace na log-lineární model: • • •Důvod reformulace: Logaritmická funkce zmenšuje měřítko variability modelu! • • • • Postup při identifikaci a odstraňování H-S 22 1.Zobrazit data X (Xi) vers. Y (bodový graf) 2. 2.Vybrat vhodný regresní model VLR (resp. JLRM) 3. 3.Řešit JLRM + vypočíst rezidua • • • • • • Postup při identifikaci a odstraňování H-S 23 4. Provést Bartletův test HS: •Seřadit data podle X, rozdělit na 2 stejné části (horní-dolní, ev, vynechat prostřední hodnotu) •Provést Dvouvýběrový F-test pro rozptyl •Přijmout/zamítnout Ho o rovnosti rozptylů •V případě zamítnutí Ho přijmout hypotézu o přítomnosti HS v modelu. • • Postup při identifikaci a odstraňování H-S 24 5. Zvolit model pro odstranění HS (lineární, kvadratický, log.) 6. Transformovat data podle zvoleného modelu 7. Provést JLR analýzu pro zvolený model, vypočítat 8. Provést Bartletův test HS pro zvolený model • • • Postup při identifikaci a odstraňování H-S 25 9. V případě výsledku Bartlet. testu: „Nepřítomnost HS“ ukončit analýzu s výsledkem: Ve zvoleném modelu není HS přítomna. Model lze pak použít pro analytické účely, např. pro predikci apod. Po zpětné transformaci výsledků též pro původní model. 10. V případě výsledku Bartlet. testu: „Přítomnost HS“ zvolit nový model pro odstranění HS. • • • • Autokorelace 26 AC = korelace mezi pozorováními uspořádanými v čase (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu) • 27 Autokorelace X Y Správná specifikace modelu Špatná specifikace modelu Test nulovosti autokorelací reziduí 28 •Autokorelační funkce rk: rk = Cor(et ,et-k) Má platit: rk = 0 pro k ¹ 0 •Odhady autokorelační funkce rk: • Nulová hypotéza H0: rk = 0 Testové kritérium: Obor přijetí: A =(-u1-a/2 , u1-a/2) Má platit: TkÎA pro k > 0 29 Příklad Příklad – testy autokorelačních koeficientů 30 Příklad – testy autokorelačních koeficientů 31 Závěr přednášky 32 Děkuji Vám za pozornost!!! •