Statistické zpracování dat 4. prezentace Vícenásobná regresní analýza I Mgr. Radmila Krkošková, Ph.D. Obsah přednášky 2 • Vícerozměrná (vícenásobná, mnohorozměrná, mnohonásobná, n-rozměrná, n-násobná) lineární regresní analýza • Populační a výběrová regresní funkce • Přiléhavost regresní nadroviny k datům • Koeficient determinace R2 • Klasický vícerozměrný lineární regresní model Obsah přednášky 3 • Multikolinearita • Heteroskedasticita (H-S) • Testy H-S a její odstraňování • Autokorelace Příklad 1. 4 Zajímají nás: Y - tržby prodejny (např. spotřební elektroniky OK) v závislosti na: X1 - výdaje na reklamu X2 - počet kolemjdoucích X3 - průměrný plat prodavačů X4 – počet konkurenčních prodejen v místě Příklad 2. 5 Zajímá nás: Y – dětská úmrtnost /v promile/ v závislosti na: X1 – gramotnost žen /v procentech/ X2 – HDP na hlavu /v USD/ X3 – porodnost /v procentech/ • • Vícenásobná regresní analýzy 6 •Grafické znázornění v dimenzích m> 2 - obtížné(?) •Jediné kritérium = závislá proměnná: Y •Více prediktorů = nez. prom.: X1, X2,…,Xm ( m =2,3,…) regresní nadrovina: regresní model: Cíl: nalezení nejlepších odhadů regresních koeficientů (Excel) • • • • Příklad 1 – řešení v Excelu 7 Příklad 1 – řešení – interpretace výsledků 8 Kritérium: Y - tržby z prodeje (v tis.Kč/rok) Prediktory: X1 - poč. kolemjdoucích X2 - velikost prodejny v m2 X3 - průměrný plat prodavačů v tis.Kč/měs. X4 - přítomnost konkurence (binární) Regresní rovnice: Příklad 1 – řešení – interpretace výsledků 9 Hypotézy o statistické významnosti regres. koeficientů a R2: H0: koeficient = 0 b0 = 1642,6 (p-hodnota = 0,093 Þ H0 zamítáme) b1 = 81,9 (p-hodnota = 0,038 Þ H0 zamítáme) b2 = 19,9 (p-hodnota = 0,030 Þ H0 zamítáme) b3 = 241,0 (p-hodnota = 0,003 Þ H0 zamítáme) b4 = -171,8 (p-hodnota = 0,672 Þ H0 nezamítáme) Koeficient determinace (přiléhavost): R2 = 0,940 (p-hodnota = 0,005 Þ H0 zamítáme) Závěr: Přítomnost konkurence nemá na tržby prodejny vliv. Tržby nové prodejny jsou na základě modelu prognózovány ve výši 10700 tis. Kč. • 10 Předpoklady lineárního regresního modelu 1.Střední hodnota náhodné poruchy u je 0, tj. E(u) = 0 2. Náhodná chyba má normální rozdělení, tj. u ~N(0, σ2) 3. Vysvětlující proměnné X1, X2,…, Xm nejsou kolineární (JINAK: MULTIKOLINEARITA) 4. Rozptyl náhodné chyby u je konstantní - homoskedasticita tj. Var(u) = σ2 (JINAK: HETEROSKEDASTICITA) 5. Náhodné chyby u jsou nekorelované, tj. Cov(ui,uj) = 0 pro i ¹ j (JINAK: AUTOKORELACE) Co se může stát, když některý z předpokladů není splněn? Poznámky: 11 1.Předpoklady kromě 3. jsou stejné jako v jednoduchém lineárním regresním modelu. 2. 2.Kolinearita znamená, že vysvětlující proměnná je přesnou lineární kombinací některých ostatních vysvětlujících proměnných. Příklad: X1i = 2X2i+ X3i pro všechna i=1,2,…,n 3. Problém tzv. multikolinearity spočívá v tom, že některé vysvětlující proměnné jsou téměř kolineární (lin. kombinacemi jiných proměnných). Závěr přednášky 12 Děkuji Vám za pozornost!!!