Statistické zpracování dat
7.přednáška
Mgr. Radmila Krkošková, Ph.D.

•
•Vícenásobná lineární
•regresní analýza (2)
•
Téma přednášky:
2

Obsah přednášky
3
• Heteroskedasticita (H-S)
• Testy H-S a její odstraňování
• Autokorelace
• Nominální proměnné

Heteroskedasticita
4
Rozptyl náhodné chyby u je konstantní, tj.
Var(u) = σ2
Graficky: Hodnoty jsou rozptýleny ve stejně širokém pásu kolem regresní funkce (regresní nadroviny)
Otázky:
1.Co je podstatou heteroskedasticity (H-S)?
2.Jaké jsou důsledky H-S?
3.Jak zjišťovat H-S v dané situaci?
4.Jak odstraňovat H-S?

5
Jak vypadá H-S?
•Grafická analýza reziduí:
ANO
ANO
ANO
NE
NE

Co je podstatou H-S?
6
Jedná se o rozptyl náhodné chyby ui v regresním (populačním)
 modelu, např.
•
•
•
•

Co je podstatou H-S?
7
Některé důvody nekonstantnosti rozptylu:
1.Učení se z chyb: rozptyl počtu chyb se s rostoucím časem zmenšuje
2.
2.S rostoucím věkem roste rozptyl příjmů zaměstnanců
3.
3.S lepšími technikami sběru dat klesá rozptyl chyb v datech
4.
4.S přítomností odlehlých hodnot roste rozptyl

Co je podstatou H-S?
8
5.U špatně specifikovaného modelu dochází k proměnlivosti rozptylu
6.Šikmost rozdělení vysvětlujících proměnných zvětšuje rozptyl
7.   Panelová (průřezová) data mívají proměnlivý rozptyl


•
•
Jaké jsou důsledky H-S?
10
•Odhady regresních koeficientů již nejsou nevychýlené a nemusí mít nejmenší rozptyl
•Testy regresních koeficientů jsou nespolehlivé (nepravdivé) ® nebezpečí špatných (zavádějících)
závěrů
•Nesplnění předpokladu homoskedasticity činí obvyklé závěry o regresním modelu nepoužitelnými !!!

•
•
Testy H-S
11
Bartletův test H-S: (zjednodušený G-Q test)
Vychází z rozdělení dat podle velikosti proměnné X do
dvou částí (vzorků): Xi ≤ D a Xi > D … data uspořádána
podle X, D @
Testuje  se hypotéza o rovnosti rozptylů ui v obou vzorcích
(v Excelu: Analýza dat, Dvouvýběrový F-test pro rozptyl,…)
Pokud se hypotéza o rovnosti rozptylu zamítá, potom se
hypotéza o H-S přijímá (a obráceně)

Příklad – postup při testování H-S
12
Testujte H-S v datech Příjmů (X) a Spotřebních výdajů (Y)
(viz soubor B_test_H-S_novy.xls)
Krok 1: Sestavte lin. regresní model: Y = 9,29 + 0,64*X + e
(v Excelu: Nástroje ® Analýza dat… ® Regrese…)
Krok 2: Uspořádejte sloupce X a e podle rostoucího X

Příklad – postup při testování H-S
13
Krok 3: Rozdělte soubor na dva stejně veliké (event. prostřední prvek vypusťte):oba výběry mají po
15 údajích
Krok 4: Proveďte Dvouvýběrový F test pro rozptyl reziduí e
(v Excelu: Nástroje ® Analýza dat ® Dvouvýběrový F-test pro rozptyl)

Příklad - výsledek
14
Výsledek: p-hodnota = 0,01 < 0,05   Þ
oba výběry mají různý rozptyl,
tzn. nulovou hypotézu zamítáme (na hladině 5%).

Je přítomna H-S !

15
Metody odstranění H-S
•Myšlenku transformace H-S dat  na data bez H-S ukážeme na jednoduchém regresním modelu
•
•Regresní model:   Yi = B0 + B1Xi + ui           (*)
•
•Transformujeme vhodně H-S data  na data bez H-S
•
•   Řešíme nový homoskedastický regr. model (tj. bez H-S) !!!

Rozptyl náhodné chyby závisí na regresoru
16
Případ 1: Předpokládáme  E(ui2) = σi2 = σ2Xi
(σ2 je neznámá konstanta!)
Provedeme transformaci (substituci) do (*):
(**)
Transformovaný model (**) je model bez H-S, neboť

17
Případ 1: σi2 = σ2Xi


Úprava dat
18
•Úprava vstupních dat, např.: Yi = Obrati , Xi = VaVi
•
•
•V programu (Excel, SPSS) se zaklikne volba:
 „konstanta je nula“, neboť model má tvar
•Odhady koeficientů modelu (+) jsou již v pořádku, v (+) lze pak pro X predikovat Y´ a zpětnou
transformací též:
(+)

•
•
•
Rozptyl náhodné chyby závisí na kvadrátu regresoru
19
Případ 2: Předpokládáme  E(ui2) = σi2 = σ2Xi2
Provedeme transformaci (substituci) do (*):
(***)
Transformovaný model (***) je opět model bez H-S, neboť

20
Případ 2: σi2 = σ2Xi2


Log-lineární model
21
•Namísto spekulací o tvaru závislostí σi2 je někdy výhodnější provést reformulaci modelu
•Osvědčená reformulace na log-lineární model:
•
•
•Důvod reformulace: Logaritmická funkce zmenšuje měřítko variability modelu!

•
•
•
•
Postup při identifikaci a odstraňování H-S
22
1.Zobrazit data X (Xi) vers. Y (bodový graf)
2.
2.Vybrat vhodný regresní model VLR (resp. JLRM)
3.
3.Řešit JLRM + vypočíst rezidua
•
•

•
•
•
•
Postup při identifikaci a odstraňování H-S
23
4.  Provést Bartletův test HS:
•Seřadit data podle X, rozdělit na 2 stejné části
      (horní-dolní, ev, vynechat prostřední hodnotu)
•Provést Dvouvýběrový F-test pro rozptyl
•Přijmout/zamítnout Ho o rovnosti rozptylů
•V případě zamítnutí Ho přijmout hypotézu o přítomnosti HS v modelu.
•
•

Postup při identifikaci a odstraňování H-S
24
5. Zvolit model pro odstranění HS
    (lineární, kvadratický, log.)
6. Transformovat data podle zvoleného modelu
7. Provést JLR analýzu pro zvolený model, vypočítat

8. Provést Bartletův test HS pro zvolený model
•
•
•

Postup při identifikaci a odstraňování H-S
25
9. V případě výsledku Bartlet. testu:
„Nepřítomnost HS“ ukončit analýzu s výsledkem:
Ve zvoleném modelu není HS přítomna.
Model lze pak použít pro analytické účely, např. pro predikci apod. Po zpětné transformaci výsledků
též pro původní model.
10. V případě výsledku Bartlet. testu: „Přítomnost HS“  zvolit nový model pro odstranění HS.
•
•
•
•

Autokorelace
26
AC = korelace mezi pozorováními uspořádanými v čase  (data jsou časové řady) nebo v prostoru (data
jsou průřezová, tj. v jednom časovém okamžiku/intervalu)
•

27
Autokorelace
X
Y
Správná specifikace modelu
Špatná specifikace modelu

Test nulovosti autokorelací reziduí
28
•Autokorelační funkce rk:   rk = Cor(et ,et-k)
     Má platit:        rk = 0 pro k ¹ 0
•Odhady autokorelační funkce rk:
•
Nulová hypotéza H0: rk = 0
Testové kritérium:
Obor přijetí: A =(-u1-a/2 , u1-a/2)
Má platit: TkÎA pro k > 0

29
Příklad


Příklad – testy autokorelačních koeficientů
30


Příklad – testy autokorelačních koeficientů
31


Závěr přednášky
32
Děkuji Vám za pozornost!!!
•