REGRESNÍ ANALÝZA Mgr. Jiří Mazurek Ph.D. Regresní analýza •Regresní analýza se zabývá závislostí kvantitativního znaku na kvantitativním znaku (nebo více kvantitativních znacích). •V případě závislosti jednoho znaku na jednom znaku mluvíme o jednoduché regresi. •U závislosti jednoho znaku na více kvantitativních znacích hovoříme o vícenásobné (nebo mnohonásobné) regresi. PODSTATA REGRESNÍ ANALÝZY •Jednou ze základních úloh regresní analýzy je najít vztah závislé proměnné y na faktorech •Tvar závislosti y na x → regresní analýza •Míra závislosti y na x → korelační analýza • Data •Průřezová data: jednotlivá pozorování více jednotek v jednom časovém intervalu (příjem domácnosti, spotřební chování). •Časové řady: pozorovaní proměnné za jednu časovou jednotku. •„Panelová“ data: kombinace průřezových dat a časových řad. • •My se budeme zabývat průřezovými daty. Proměnné: názvosloví y Predictand Predictors Regressand Regressors Vysvětlovaná proměnná Vysvětlující proměnné Závislá proměnná Nezávislé proměnné Endogenní proměnná Exogenní proměnné Cílová proměnná Kontrolní proměnné Regresní funkce Základní úloha Jak proložit danými body přímku? Metoda nejmenších čtverců Jednoduchá lineární regrese Jednoduchá lineární regrese •Jednoduchá lineární regrese je speciálním případem vícenásobné regrese. •Jednoduchá lineární regrese má pouze jednu vysvětlující proměnnou, vícenásobná regrese má dvě nebo více vysvětlujících proměnných. •V praxi se regrese provádí pomocí vhodného statistického softwaru, např. Excel nebo SPSS. • Vícenásobná lineární regrese • •Nejčastěji odhadovaná funkce • y = b0 + b1x1 + b2x2 + ... + bkxk •Kde máme k vysvětlujících proměnných. • •Nejjednodušším případem je jednoduchá lineární regrese • y = b0 + b1x1 , • v níž je pouze jedna vysvětlující proměnná. • Grafická interpretace •Yi = empirické (měřené) hodnoty závislé proměnné, •yi = teoretické hodnoty závislé proměnné, •ei = residua. •Vztah mezi Yi a yi : yi = Yi + ei • Předpokládané statistické vlastnosti náhodné složky Regresní koeficienty •Vektor regresních koeficientů získáme z vektorové rovnice : • • •kde X je tzv. matice regresorů • Příklad •Odhadněte závislost spotřeby elektrické energie (Y) na délce elektrického vedení (X1) a odběru energie (X2). Jsou k dispozici následující výběrová data: Příklad - řešení •Tabulka představuje body, z nichž získáme potřebné matice X a Y. Příklad - řešení Příklad - řešení Příklad - řešení Teoretické hodnoty •Teoretické hodnoty obdržíme dosazením do regresní rovnice za x1 a x2 postupně z tabulky vstupních dat: • Teoretické hodnoty jinak Vektor reziduálních odchylek: •Rozdíl teoretické a skutečné hodnoty, představuje vektor reziduálních odchylek: Rozptyl odhadu regresních koeficientů •Protože při výpočtu regresních koeficientů se jedná o odhady, je účelné také nalézt rozptyly těchto odhadů, které vyjadřují přesnost odhadů. Získáme je jako prvky hlavní diagonály matice: Příklad - řešení Rozptyly regresních koeficientů •Diagonálu poslední matice tvoří rozptyly jednotlivých regresních koeficientů: Po nalezení regresního modelu a rozptylů odhadů regresních koeficientů píšeme obvykle výsledné řešení tak, že pod regresní koeficienty do závorek uvádíme příslušné směrodatné odchylky (též tzv. standardní chyby). TEST VÝZNAMNOSTI REGRESNÍCH KOEFICIENTŮ •Při výpočtu regresních koeficientů b1, b2, …, bk se stává, že mezi koeficienty jsou až řádové rozdíly, např. b1 = 200 a b2 = 0,02. •V takových případech stojíme před problémem, zda má smysl zařadit např. b2 do regresní funkce. •K objektivnímu posouzení významnosti regresních koeficientů lze použít test statistické významnosti regresních koeficientů. Struktura testu Příklad - řešení INTERVALY SPOLEHLIVOSTI PRO REGRESNÍ KOEFICIENTY •Intervaly spolehlivosti pro parametry b1, …, bk, , tj. intervaly, ve kterých lze očekávat tyto parametry s pravděpodobností 1-α, získáme pomocí vztahu: • •kde • TESTOVÁNÍ VHODNOSTI REGRESNÍHO MODELU Příklad - řešení •Použijeme-li test na náš příklad, obdržíme: • • • •Protože T překročilo kritickou hodnotu K, zamítá se H0 a model se považuje za vyhovující, tj. zamítá se hypotéza o nulovosti všech regresních koeficientů (s výjimkou β0). Testové kritérium překročilo kritickou hodnotu výrazně a stalo by se tak i na jednoprocentní hladině významnosti. Příklad – řešení v Excelu •Odhadněte závislost spotřeby elektrické energie (Y) na délce elektrického vedení (X1) a odběru energie (X2). Jsou k dispozici následující výběrová data: Příklad – řešení v Excelu - postup •Data – Analýza dat – Regrese. •Zadáme sloupce X a Y a potvrdíme OK. •Excel nám vrátí tabulku s výsledky, viz následující snímek. •Ukážeme si v ní důležité informace. Příklad – řešení v Excelu - vyhodnocení Nobelova cena za ekonomii 2024 Nobelova cena za ekonomii 2024 •Daron Acemoglu, Simon Johnson a James Robinson získali Nobelovu cenu za výzkum vlivu institucí na ekonomický růst. •Ve své práci několikrát použili lineární regresi. • Příklad – samostatná úloha Děkuji za pozornost.