Statistické zpracování dat 6.přednáška Mgr. Radmila Krkošková, Ph.D. • •Vícenásobná lineární •regresní analýza (1) • Téma přednášky: 2 Obsah přednášky 3 • Vícerozměrná (vícenásobná, mnohorozměrná, mnohonásobná, n-rozměrná, n-násobná) lineární regresní analýza • Populační a výběrová regresní funkce • Přiléhavost regresní nadroviny k datům • Koeficient determinace R2 • Klasický vícerozměrný lineární regresní model Obsah přednášky 4 • Multikolinearita • Heteroskedasticita (H-S) • Testy H-S a její odstraňování • Autokorelace • Nominální proměnné Příklad 1. 5 Zajímají nás: Y - tržby prodejny (např. spotřební elektroniky OK) v závislosti na: X1 - výdaje na reklamu X2 - počet kolemjdoucích X3 - průměrný plat prodavačů X4 – počet konkurenčních prodejen v místě Příklad 2. 6 Zajímá nás: Y – dětská úmrtnost /v promile/ v závislosti na: X1 – gramotnost žen /v procentech/ X2 – HDP na hlavu /v USD/ X3 – porodnost /v procentech/ • • Vícenásobná regresní analýzy 7 •Grafické znázornění v dimenzích m> 2 - obtížné(?) •Jediné kritérium = závislá proměnná: Y •Více prediktorů = nez. prom.: X1, X2,…,Xm ( m =2,3,…) regresní nadrovina: regresní model: Cíl: nalezení nejlepších odhadů regresních koeficientů (Excel) • • Aplikace regresní analýzy 8 •Prognózování (tržeb, nákladů, poptávky aj.) •Rozhodování o umístění provozoven •Analýza marketingového mixu (vztahy mezi prvky 5P) •Stanovení vztahů mezi kritérii a prediktory v případě konstantních efektů jiných prediktorů •Odhady chybějících dat Populační regresní funkce 9 Týká se regresní závislosti v celé populaci. Příklad: Stanovte závislost Tržeb prodejny na Počtu kolemjdoucích, Velikosti prodejny, Průměrného platu prodavačů, Přítomnost konkurence v jistém prodejním řetězci v ČR – data za všech 25 prodejen (n = 25, m = 2 event. 4) 10 Příklad – Data – všechny prodejny řetězce Ř Populační regresní funkce 11 poskytuje (podmíněnou) průměrnou hodnotu Y^ závisle proměnné Y v závislosti na hodnotě nezávisle proměnných X1, X2, X3, X4 : Y^ = B0 + B1 X1 + B2 X2 + B3 X3 + B4 X4 Populační regresní funkce + stochastický model 12 poskytuje hodnotu závisle proměnné Y v závislosti na hodnotě nezávisle proměnných X1, X2 , X3, X4 až na náhodnou (stochastickou) chybu (poruchu): Y = B0 + B1 X1 + B2 X2 + B3 X3 + B4 X4 + u Náhodná chyba: E(u) = 0 Výběrová regresní funkce + stochastický model 13 V praxi nejsou k dispozici data z celé populace, ale jen ze vzorku ® výběrová regresní funkce : Ŷ = b0 + b1X1 + b2X2+… Y = b0 + b1X1 + b2X2 +…+ e Odhad E(Y|X1,X2,…) Odhad chyby - reziduum • • • Výběrová regresní funkce – otázky? 14 1.Jak získat odhady regresních koeficientů B0, B1 a B2,…, tj. b0, b1 a b2,… ? Odpověď: Známá metoda nejmenších čtverců (MNČ) 2. 2.Jak dobré (přesné) odhady to jsou? Odpověď: Testy hypotéz za standardních předpokladů (5 předpokladů standardního modelu – viz dále). Y = b0 + b1X1 + b2X2 + e Koeficient determinace 15 •Teoretický součet čtverců: - teoretické hodnoty („na regr. nadrovině“) Yi – hodnoty z dat •Reziduální součet čtverců: • •Celkový součet čtverců: • •Platí vztah: Sy = ST + SR •Koeficient determinace - míra variability: •Pozor! R2 má platnost pro libovolný typ regresní funkce! • • • • Příklad 1 – řešení v Excelu 16 Příklad 1 – řešení – interpretace výsledků 17 Kritérium: Y - tržby z prodeje (v tis.Kč/rok) Prediktory: X1 - poč. kolemjdoucích X2 - velikost prodejny v m2 X3 - průměrný plat prodavačů v tis.Kč/měs. X4 - přítomnost konkurence (binární) Regresní rovnice: Příklad 1 – řešení – interpretace výsledků 18 Hypotézy o statistické významnosti regres. koeficientů a R2: H0: koeficient = 0 b0 = 1642,6 (p-hodnota = 0,093 Þ H0 zamítáme) b1 = 81,9 (p-hodnota = 0,038 Þ H0 zamítáme) b2 = 19,9 (p-hodnota = 0,030 Þ H0 zamítáme) b3 = 241,0 (p-hodnota = 0,003 Þ H0 zamítáme) b4 = -171,8 (p-hodnota = 0,672 Þ H0 nezamítáme) Koeficient determinace (přiléhavost): R2 = 0,940 (p-hodnota = 0,005 Þ H0 zamítáme) Závěr: Přítomnost konkurence nemá na tržby prodejny vliv. Tržby nové prodejny jsou na základě modelu prognózovány ve výši 10700 tis. Kč. • 19 Předpoklady lineárního regresního modelu 1.Střední hodnota náhodné poruchy u je 0, tj. E(u) = 0 2. Náhodná chyba má normální rozdělení, tj. u ~N(0, σ2) 3. Vysvětlující proměnné X1, X2,…, Xm nejsou kolineární (JINAK: MULTIKOLINEARITA) 4. Rozptyl náhodné chyby u je konstantní - homoskedasticita tj. Var(u) = σ2 (JINAK: HETEROSKEDASTICITA) 5. Náhodné chyby u jsou nekorelované, tj. Cov(ui,uj) = 0 pro i ¹ j (JINAK: AUTOKORELACE) Co se může stát, když některý z předpokladů není splněn? Poznámky: 20 1.Předpoklady kromě 3. jsou stejné jako v jednoduchém lineárním regresním modelu. 2. 2.Kolinearita znamená, že žádná vysvětlující proměnná není přesnou lineární kombinací některých ostatních vysvětlujících proměnných. Příklad: X1i = 2X2i+ X3i pro všechna i=1,2,…,n 3. Problém tzv. multikolinearity spočívá v tom, že některé vysvětlující proměnné jsou téměř kolineární (lin. kombinacemi jiných proměnných). Multikolinearita (MK) 21 Co je to multikolinearita? Mezi vysvětlujícími proměnnými existuje (téměř) dokonalý lineární vztah (potvrzený daty), tzv. vysoká multikolinearita (high multicollinearity). Otázky: Jaké jsou příčiny MK? Je MK skutečný problém? Jaké jsou teoretické důsledky MK? Jaké jsou praktické důsledky MK? Jak MK v praxi zjišťovat (měřit)? Pokud je zjištěna MK, je ji nezbytné odstranit a když, tak jak? Jaké jsou příčiny multikolinearity? 22 Příklad 1*: Roční tržby závisí na velikosti prodejny a počtu kolemjdoucích: R2 = 0,84 Statistická významnost regresních koeficientů: katastrofa!!! Důvod: téměř perfektní kolinearita X1 a X2 X2 = 4.X1+ 60 Je multikolinearita skutečný problém? 23 •Případ perfektní MK je patologický extrém! •MK může být v praxi vysoká, nikoliv však perfektní! •V Příkladu 1* však z ANOVA vyplývá, že Počet kolemjdoucích a Velikost prodejny mají společný vliv na Tržby! (Celý model je statistický významný – F-test v Regrese) •Jak měřit vysokou MK? – v případě 2 korelovaných proměnných je mírou korelační koeficient, v případě MK více proměnných to však neplatí!!! (viz dále) Jaké jsou teoretické a praktické důsledky MK? 24 •MK není problémem populace, nýbrž je problémem vzorku (data ve vzorku jsou „špatně“ vybrána) •Jinak řečeno: vzorek nepotvrzuje teorii závislosti vysvětlované proměnné na vysvětlujících proměnných •Hypotéza o nulovosti regresních koeficientů se přijímá, i když ve skutečnosti (tj. v populaci) neplatí •Intervaly spolehlivosti regres. koeficientů jsou velmi široké •Veškeré odhady regresních koeficientů jsou citlivé na jakékoliv změny dat •Regresní koeficienty mohou mít špatná znaménka •Regresní funkce je nevhodná pro predikci • Jak MK v praxi zjišťovat (měřit)? 25 •Na detekci MK se nepoužívají statistické testy! •MK je problém „stupně“, nikoliv „existence“ jako takové •K určování stupně MK se používají (heuristická!) pravidla: 1.Vysoký koeficient determinace R2, přitom vysoká p-hodnota regresních koeficientů (tj. Sig.- blízká k 1) 2. Vysoké hodnoty párových korelací mezi vysvětlujícími proměnnými (např. > 0,8) 3. Významné regrese některých vysvětlujících proměnných na jiných vysvětlujících proměnných (viz Příklad 1*: závislost X2 na X1) Jak odstranit multikolinearitu? 26 Neexistuje zaručená metoda, protože MK je problémem vzorku, nikoliv nutně populace, z níž vzorek pochází Možné (doporučené) metody: 1.Vypustit některou vysvětlující proměnnou – pozor: nevylít s vodou z vaničky i dítě! (Ekonomický model) 2.Pořídit nový vzorek, eventuálně doplnit starý 3.Promyslet znovu ekonomický a matematický model (nebylo něco opomenuto?, zjednodušeno?,…) 4.Transformace proměnných, např. namísto celkové spotřeby použít spotřebu na hlavu apod. Heteroskedasticita 27 Rozptyl náhodné chyby u je konstantní, tj. Var(u) = σ2 Graficky: Hodnoty jsou rozptýleny ve stejně širokém pásu kolem regresní funkce (regresní nadroviny) Otázky: 1.Co je podstatou heteroskedasticity (H-S)? 2.Jaké jsou důsledky H-S? 3.Jak zjišťovat H-S v dané situaci? 4.Jak odstraňovat H-S? 28 Jak vypadá H-S? •Grafická analýza reziduí: ANO ANO ANO NE NE Co je podstatou H-S? 29 Jedná se o rozptyl náhodné chyby ui v regresním (populačním) modelu, např. • • • • Co je podstatou H-S? 30 Některé důvody nekonstantnosti rozptylu: 1.Učení se z chyb: rozptyl počtu chyb se s rostoucím časem zmenšuje 2.S rostoucím věkem roste rozptyl příjmů zaměstnanců 3.S lepšími technikami sběru dat klesá rozptyl chyb v datech Co je podstatou H-S? 31 4.S přítomností odlehlých hodnot roste rozptyl 5. 5.U špatně specifikovaného modelu dochází k proměnlivosti rozptylu 6. 6.Šikmost rozdělení vysvětlujících proměnných zvětšuje rozptyl 7. 7.Panelová (průřezová) data mívají proměnlivý rozptyl Závěr přednášky 32 Děkuji Vám za pozornost!!!