Statistické zpracování dat 4.přednáška Mgr. Radmila Krkošková, Ph.D. • •Jednoduchá regresní •analýza • Téma přednášky: 2 •Co je regresní analýza (RA - jednoduchá, vícenásobná, lineární, nelineární) • •Rozdíl mezi RA a ANOVA • •Co je podstatou jednoduché lineární RA (bodový diagram, regresní přímka, regresní koeficienty, přiléhavost - koeficient determinace, testy hypotéz) • Obsah přednášky 3 •Co je podstatou jednoduché nelineární RA (základní typy nelinearity, Törnquistovy křivky) • •Kdy RA nemá smysl? • •Aplikace na příkladech z ekonomické oblasti (marketingový výzkum, průměrné fixní náklady, Phillipsaova křivka aj.) • Obsah přednášky 4 •Problém závislosti 2 znaků řeší • jednoduchá regresní analýza (lineární a nelineární) •Příklad: Závislost zisku z prodeje výrobku na výdajích za reklamu •Východiskem je vždy grafické znázornění •Mírami závislosti jsou regresní koeficienty, resp. koeficienty determinace (a korelace) •Někdy je výhodné využít z kvantitativních dat pouze ordinální informaci (tj. uspořádání) a aplikovat ANOVA •Míry asociace mezi více znaky řeší vícenásobné regresní a korelační metody • Závislosti mezi kvantitativními statistickými znaky 5 • • Příklad – výdaje na reklamu 6 ANOVA JRA • • Příklad – grafické znázornění 7 •Východiskem je vždy grafické znázornění •Uspořádání bodů má tvar přímky, viz (B) nebo (C): • regresní přímka: • kritérium prediktor • regresní koeficienty: posunutí směrnice • • náhodná složka • regresní model: • •Cíl: nalezení nejlepších odhadů regresních koeficientů • • Jednoduchá (jednorozměrná) lineární RA 8 9 Bodový diagram (Scatter diagram) •(K. F. Gauss, 1777 – 1855) •Data – body: (x1,y1), (x2,y2),…,(xn,yn) •Odhady regresních koeficientů B0, B1: Metoda nejmenších čtverců 10 •Interpretace regresních koeficientů: • •b0 - úroveň kritéria y při nulové úrovni prediktoru x • •b1 - přírůstek kritéria y při jednotkovém přírůstku prediktoru x • Metoda nejmenších čtverců 11 Regresní přímka 12 • • • Přiléhavost dat k regresní křivce 13 • • • • Přiléhavost dat k regresní přímce 14 • Teoretický součet čtverců: • • Yi - teoretické hodnoty („na regresní přímce“) • •Reziduální součet čtverců: • •Celkový součet čtverců: • •Platí vztah: Sy = ST + SR • • • • Přiléhavost regresní přímky k datům 15 •Koeficient determinace – •míra přiléhavosti dat k regresní křivce: • • • •Platí: 0 ≤ R2 ≤ 1 •Pozor! R2 má platnost pro libovolný typ regresní funkce! • • • • Přiléhavost regresní přímky k datům 16 • • • Extrémní hodnoty koeficientu determinace R2 17 R2 = 0,00001 R2 = 1 • • Jak jsou „výstižné“ regresní modely? 18 A) B) Statisticky nevýznamný Statisticky významný • Předpoklady: • 1.Vysvětlující proměnná X je nestochastická – vyplývá z povahy problému 2. 2.Střední hodnota náhodné chyby ε je 0, tj. • E(ε) = 0 – pro MNČ vždy splněno! • •3. Rozptyl náhodné chyby ε je konstantní, tj. • Var(ε) = σ2 - test, např. Chi-kvadrát (Homoskedasticta) Klasický jednoduchý lineární regresní model 19 • Předpoklady: • 4.Náhodné chyby ε jsou nekorelované, tj. Autokorelace = 0, tj. Cov(εi, εj) = 0 pro i¹j – test nulovosti korelačního koeficientu 5. 5.Náhodná chyba má normální rozdělení, • tj. ε ~N(0, σ2) – test normality Klasický jednoduchý lineární regresní model 20 Testy hypotéz 21 1.Testuje se hypotéza H0: regresní koeficient = 0 - t-test (A) H0: B0 = 0, (B) H0: B1 = 0 2.Test současné nulovosti obou regresních koeficientů - F-test (v Excelu tzv. ANOVA) 3. Testuje se hypotéza H0: koeficient determinace = 0 - t-test H0: R2 = 0, j = 0,1 4. Intervaly spolehlivosti regresních koeficientů Testy hypotéz – 1.TEST 22 1.Testuje se hypotéza H0: regresní koeficient = 0 (A) H0: B0 = 0, (B) H0: B1 = 0 Testové kritérium: Kritický obor: Testy hypotéz – 3.TEST 23 3.Testuje se hypotéza H0: koeficient determinace = 0 4. H0: R2 = 0, j = 0,1 Testové kritérium: Kritický obor: Příklad 1 – STUDIE – regresní rovnice 24 Existuje (lineární) závislost počtu vypitých limonád (za týden) na věku? Kriterium y - počet limonád / týden Prediktor x - věk respondenta Regresní rovnice: Příklad 1 – STUDIE – testování hypotéz 25 Hypotézy o statistické významnosti regresních koeficientů Bj a R2: H0: koeficient = 0 b0 = 4,40 (p-hodnota = 0,48 > 0,05 Þ H0 nezamítáme) b1 = 0,37 (p-hodnota = 0,16 Þ H0 nezamítáme) Koeficient determinace (přiléhavost): R2 = 0,179 (p-hodnota = 0,12 Þ H0 nezamítáme) Závěr: Regresní model není statisticky významný! Jinak řečeno: Neexistuje lineární závislost počtu vypitých limonád na věku! Grafické znázornění 26 Příklad 2 – výdaje na reklamu 27 Existuje (lineární) závislost zisku z prodeje výrobku na výdajích za reklamu? Příklad 2 - řešení 28 Kritérium y - zisk z prodeje daného výrobku (v mil. Kč/rok) Prediktor x - výdaje na reklamu (v mil. Kč/rok) Regresní rovnice: Příklad 2 - řešení 29 Hypotézy o statistické významnosti regresních koeficientů a R2: b0 = - 24,878 (p-hodnota = 0,27 Þ H0 nezamítáme) b1 = 17,316 (p-hodnota = 0,0000008 Þ H0 zamítáme) Koeficient determinace (přiléhavost): R2 = 0,958 (p-hodnota = 0,00005 Þ H0 zamítáme) Závěr: Existuje silná lineární závislost! • Příklad 2 – grafické znázornění 30 • Data ® Analýza dat ® Regrese… • Příklad 2 – řešení v EXCELU 31 •Děkuji Vám za pozornost!!! • Závěr přednášky 32