Statistické zpracování dat Distanční studijní text Jaroslav Ramík, Radmila Krkošková Karviná 2023 Obor: Statistika. Klíčová slova: Analýza rozptylu, jednoduchá regresní analýza, vícerozměrná regresní analýza, analýza časových řad, ARIMA modely. Anotace: Publikace představuje studijní oporu předmětu Statistické zpracování dat pro navazující studium na vysoké škole ekonomického zaměření. Obsahově pokrývá základní témata: analýza rozptylu – 1 faktor, analýza rozptylu – 2 faktory, jednoduchá a vícerozměrná regresní analýza, analýza časových řad. Autor: Prof. RNDr. Jaroslav Ramík, CSc. Mgr. Radmila Krkošková, Ph.D. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 3 Obsah ÚVODEM............................................................................................................................6 RYCHLÝ NÁHLED STUDIJNÍ OPORY...........................................................................7 1 ANALÝZA ROZPTYLU (ANOVA) – JEDEN FAKTOR.........................................9 1.1 Nezávislý a závislý faktor ...................................................................................11 1.2 Předpoklady analýzy rozptylu s jedním faktorem...............................................12 1.3 Předpoklady analýzy rozptylu s jedním faktorem...............................................13 1.4 Míra těsnosti závislosti........................................................................................15 1.5 Analýza rozptylu v programu GRETL................................................................16 2 ANALÝZA ROZPTYLU (ANOVA) – DVA A VÍCE FAKTORŮ .........................27 2.1 Analýza rozptylu se dvěma faktory.....................................................................28 2.2 Předpoklady analýzy rozptylu se dvěma faktory ................................................30 2.3 Kruskal – Wallisova analýza rozptylu ................................................................42 3 REGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ LINEÁRNÍ REGRESE..............46 3.1 Regresní analýza .................................................................................................47 3.2 Jednoduchá regresní analýza...............................................................................48 3.3 Metoda nejmenších čtverců.................................................................................48 3.4 Míra variability, koeficient determinace .............................................................50 3.5 Klasický lineární model ......................................................................................51 3.6 Diagnostická kontrola modelu ............................................................................52 3.6.1 Heteroskedasticita........................................................................................52 3.6.2 Autokorelace................................................................................................53 3.6.3 Normalita .....................................................................................................53 4 REGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ: INTERVALY SPOLEHLIVOSTI, TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE ..............................65 4.1 Intervaly spolehlivosti.........................................................................................66 4.2 Testy hypotéz ......................................................................................................67 4.3 Nelineární regresní analýza.................................................................................68 4.4 Parabolická regrese .............................................................................................69 4.5 Törnqvistovy funkce ...........................................................................................70 4.6 Metoda vybraných bodů......................................................................................72 5 REGRESNÍ ANALÝZA – VÍCEROZMĚRNÁ........................................................85 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 4 5.1 Vícerozměrná regresní analýza ...........................................................................86 5.2 Metoda nejmenších čtverců.................................................................................86 5.3 Náhodný vektor a jeho charakteristiky................................................................88 5.4 Klasický lineární model ......................................................................................88 5.5 Míry variability a koeficient determinace ...........................................................89 5.6 Intervaly spolehlivosti a testy hypotéz................................................................90 5.7 Individuální T-testy o hodnotách regresních koeficientů....................................91 5.8 F-test hypotézy o hodnotách regresních koeficientů...........................................92 6 REGRESNÍ ANALÝZA – VÍCEROZMĚRNÁ: MULTIKOLINEARITA, HETEROSKEDASTICITA, AUTOKORELACE...........................................................103 6.1 Co je multikolinearita?......................................................................................104 6.2 Co je heteroskedasticita?...................................................................................107 6.2.1 Jak zjistit heteroskedasticitu?.....................................................................108 6.2.2 Jak odstranit heteroskedasticitu?................................................................110 6.3 Co znamená autokorelace?................................................................................115 7 ZÁKLADY ANALÝZY ČASOVÝCH ŘAD .........................................................124 7.1 Typy ekonomických časových řad....................................................................125 7.2 Elementární charakteristiky časových řad.........................................................127 7.3 Modely ekonomických časových řad................................................................128 8 ANALÝZA TRENDU ČASOVÝCH ŘAD ............................................................132 8.1 Trendová složka časových řad ..........................................................................133 8.2 Trendové funkce................................................................................................134 8.2.1 Lineární trend.............................................................................................134 8.2.2 Kvadratický trend.......................................................................................137 8.2.3 Mocninný trend..........................................................................................137 8.2.4 Exponenciální trend ...................................................................................138 8.2.5 Logistický trend .........................................................................................140 8.2.6 Gompertzův trend ......................................................................................142 8.3 Volba vhodného modelu trendu........................................................................143 8.4 Klouzavé průměry.............................................................................................144 8.5 Exponenciální vyrovnání...................................................................................145 9 SEZÓNNÍ SLOŽKA, NÁHODNÁ SLOŽKA.........................................................150 9.1 Model konstantní sezónnosti se schodovitým trendem.....................................151 9.2 Model konstantní sezónnosti s lineárním trendem............................................152 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 5 9.3 Model proporcionální sezónnosti......................................................................152 9.4 Analýza náhodné složky....................................................................................153 10 MODELY TYPU ARIMA A PREDIKCE ČASOVÝCH ŘAD..............................159 10.1 Program GRETL............................................................................................160 10.2 Modelování časových řad pomocí ARIMA modelu......................................161 10.2.1 autoregresivní proces (ar) ..........................................................................162 10.2.2 proces klouzavých průměrů (ma)...............................................................162 10.2.3 autoregresivní proces klouzavých průměrů (arma)....................................163 10.2.4 autoregresivní a integrovaný proces klouzavých průměrů (arima)............163 10.3 Box – Jenkinsova metodologie prognózování časových řad.........................164 LITERATURA ................................................................................................................178 SHRNUTÍ STUDIJNÍ OPORY.......................................................................................179 PŘEHLED DOSTUPNÝCH IKON.................................................................................180 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 6 ÚVODEM Tento text představuje studijní oporu pro studium všech akreditovaných studijních programů v navazujícím magisterském studiu na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné. Předmět Statistické zpracování dat navazuje na předmět Statistika z bakalářského studia. V opoře je kladen důraz především na uplatnění statistických metod při zpracování ekonomických dat v aplikovaných ekonomických disciplínách, jako jsou zejména marketing a management. Učební text této knihy nabízí studentům vysokých škol ekonomického zaměření strukturovaný a komplexní přehled o 10 důležitých tematických kapitolách. Každá kapitola je přibližně stejně rozsáhlá a obtížností vyvážená, což umožňuje učebním materiálům po-krýt dostatečný rozsah znalostí, aby se studenti mohli seznámit s klíčovými koncepty a metodami v každé oblasti. Jednotlivé kapitoly jsou navrženy tak, aby odpovídaly délce běžné dvouhodinové prezenční přednášky. To umožňuje studentům přístup k obsáhlému materiálu v relativně stravitelném a dobře organizovaném formátu. Každá kapitola se soustředí na určitou tematickou oblast, a to umožňuje studentům hlouběji proniknout do konkrétních témat a získat ucelené porozumění ekonomickým analýzám. V případě prezenčního studia na vysoké škole je každá přednáška doplněna seminářem. Semináře jsou klíčovým prvkem výuky, protože umožňují studentům aplikovat teoretické znalosti na praktické číselné příklady. Tímto způsobem studenti získávají dovednosti a praxi v řešení reálných ekonomických situací. Navíc jsou semináře vybaveny počítačovými technologiemi, což umožňuje efektivnější řešení složitějších problémů a analýz. Ve studijní opoře jsou použity programy Excel a GRETL. Kombinace prezenčních přednášek a seminářů vytváří bohaté a interaktivní učební prostředí, které podporuje aktivní zapojení studentů a podporuje jejich schopnost kriticky myslet, analyzovat a aplikovat naučené koncepty. Díky této kombinaci jsou studenti připraveni na praktickou aplikaci svých znalostí v reálném světě ekonomické praxe. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 7 RYCHLÝ NÁHLED STUDIJNÍ OPORY Vysokoškolské studium v případě předmětu Statistické zpracování dat vyžaduje enormní úsilí studenta zaměřené na pravidelnost a vytrvalost ve studiu i samostudiu, schopnost koncentrace na předmět, aktivní přístup spočívající v samostatném řešení příkladů. V tom všem by tato studijní opora měla studentům kombinované formy studia pomoci nahradit kvalitní prezenční výuku i úlohu učebnic a skript. Studijní opora je k tomu účelu vybavena určitými nástroji, o jejichž funkcích byste měli být informováni a mohli je tudíž účelně využívat ve svůj prospěch. Pro lepší zvládnutí látky jsou vám v elektronické verzi kurzu Statistické zpracování dat k dispozici ještě doplňkové materiály v elektronické podobě. Dalšími podpůrnými zdroji ke studiu mohou být klasické učebnice a skripta a další doporučená literatura. Předpokladem pro úspěšné zvládnutí tohoto předmětu Statistické zpracování dat je zvládnutí bakalářského předmětu Statistika na SU OPF nebo odpovídajícího základního bakalářského kurzu Pravděpodobnosti – Statistiky, a to podle typu bakalářského studia na některé VŠ v ČR. Tato studijní opora se zaměřuje na důležité statistické metody v oblasti ekonomie a jejich aplikaci v různých ekonomických analýzách. Obsahem prvních dvou kapitol je analýza rozptylu, známá také jako ANOVA (Analysis of Variance). Tato metoda je nezbytná pro srovnání více skupin dat a zjišťování, zda existují signifikantní rozdíly mezi ni-mi. ANOVA poskytuje cenné informace o vztazích mezi proměnnými a je klíčovou technikou v ekonomickém výzkumu. Následující tři kapitoly (kapitoly 3 až 6) se věnují regresní analýze. Regrese je další klíčovou metodou v ekonomických analýzách, která se zabývá predikcí a modelováním vztahů mezi závislými a nezávislými proměnnými. Tyto kapitoly se soustředí na jak jednoduchou regresní analýzu, která zkoumá vztah mezi jednou nezávislou a jednou závislou proměnnou, tak i na vícerozměrnou regresní analýzu, která zahrnuje více nezávislých proměnných. Regresní analýza má široké uplatnění v ekonomii, například při predikci ekonomických ukazatelů nebo studiu vlivu různých faktorů na ekonomické je-vy. V posledních čtyřech kapitolách (kapitoly 7 až 10) se studijní opora věnuje analýze ekonomických časových řad. Tato oblast je v ekonomii mimořádně významná, protože se zabývá analýzou a predikcí ekonomických dat, která jsou získávána v pravidelných časových intervalech. Ekonomické časové řady mohou poskytnout cenné informace o dlouhodobých trendech, sezónních vlivu, cyklech a jiných periodických vzorcích v ekonomických datech. Analýza ekonomických časových řad je klíčovým nástrojem pro ekonomické prognózování, plánování a strategické rozhodování. Studijní opora poskytuje komplexní přehled statistických metod používaných v ekonomických analýzách. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 8 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 9 1 ANALÝZA ROZPTYLU (ANOVA) – JEDEN FAKTOR RYCHLÝ NÁHLED KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závislost hodnot znaků Y na faktoru X, pro něž jsou k dispozici příslušná data, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Cílem, k němuž směřujeme, je buď přijmout nulovou hypotézu o vzájemné nezávislosti Y na X, nebo ji zamítnout (na zvolené hladině významnosti). Jedná se tedy o běžný statistický postup nazývaný testování statistických hypotéz, známý ze základního kurzu statistiky. V případě přijetí nulové hypotézy vyvozujeme nezávislost hodnot Y na X, v opačném případě konstatujeme, že Y na X závisí. V této kapitole se naučíte, jak tento test statistické hypotézy konkrétně provést: jak vypočítat hodnotu testového kritéria a příslušnou kritickou hodnotu a jak vyvodit z těchto hodnot příslušný závěr týkající se eventuální závislosti nebo nezávislosti hodnot znaku Y na faktoru X. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: • vypočítat hodnotu testového kritéria, • najít příslušnou kritickou hodnotu z tabulek Fisherova rozdělení, • zkonstruovat tabulku ANOVA, • přijmout nebo zamítnout nulovou hypotézu o nezávislosti hodnot znaku Y na faktoru X. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 60 minut. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 10 KLÍČOVÁ SLOVA KAPITOLY Analýza rozptylu, testové kritérium, kritická hodnota, ANOVA tabulka. Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů na hospodářský proces charakterizovaný kvantitativním statistickým znakem. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu na dílčí rozptyly příslušející jednotlivým vlivům, podle nichž jsou data roztříděna. Kromě dílčích rozptylů je jednou složkou celkového rozptylu tzv. reziduální rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Všeobecně používané označení ANOVA je akronymem anglických slov „ANalysis Of VAriance“ (doslovný překlad: analýza rozptylu). Klasická ANOVA vychází, jak uvidíte, z předpokladu normality rozdělení hodnot daného faktoru. Pokud je takový předpoklad neudržitelný, lze použít analýzu rozptylu jiného typu, konkrétně Kruskal-Wallisovu verzi ANOVA. Jednofaktorovou ANOVA se zabývá tato kapitola, vícefaktorová a Kruskal-Wallisova ANOVA je obsahem kapitoly následující. V tomto studijním textu předpokládáme, že čtenář má k dispozici verzi Excel 2010, eventuálně vyšší. Pro zjednodušení práce je vhodné mít aktivovaný doplňky „Analýza dat“ a „Řešitel“ ve složce „Data“ (viz Obrázek 1). Obrázek 1: Doplněk Analýza dat V případě, že tyto doplňky nejsou ve složce „Data“, lehce je nainstalujete tímto postupem: „Tlačítko Soubor“ → „Možnosti“ → „Doplňky“ → „Přejít…“ a v dialogovém okně zaškrtnout položky „Analytické nástroje“ a „Řešitel“ (viz Obrázek 2). Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 11 Obrázek 2: Doplňky 1.1 Nezávislý a závislý faktor Často se vyskytuje situace, kdy máme k nezávislých náhodných výběrů, které obecně nemusí pocházet z jednoho základního souboru, nebo jinak řečeno, nemusí být stejného typu, s rozsahy, tj. počty prvků knnn ,...,, 21 . Číslo k může být libovolné podle konkrétní situace, např. 2, 3, 4, ... Tyto rozsahy výběrů rovněž nemusí být stejné, v každém z nich budiž znám průměr ix , a také rozptyl 2 is , i = 1,2, ..., k. V praktických situacích obvykle tyto výběry vzniknou tak, že základní soubor rozdělíme podle určitého statistického znaku X do k skupin, např. věkových, v každé z nich pak máme in prvků, i = 1,2, ..., k. Znak X pak označujeme jako nezávislý faktor, jehož hodnoty předem stanovíme, stanovíme např. věkové skupiny takto: do 18 let, 19 až 29 let, 30 až 59 let, 60 a více let, v tomto příkladu je k = 4. Hovoříme proto často o faktoru kontrolovaném. Další příklady faktorů: velikost rodiny, měsíční příjem rodiny, velikost podniku, typ ekonomické činnosti apod. Hodnotami faktoru X jsou obvykle kvalitativní (nečíselné) veličiny, označujeme je symbolicky kxxx ,...,, 21 . Tyto hodnoty mohou, ale nemusejí být nutně vzájemně uspořádány. Faktor X, jež nabývá k kvalitativních hodnot, může, ale nemusí ovlivňovat hodnoty statistického znaku Y, o kterém předpokládáme, že má na rozdíl od X kvantitativní (tedy číselnou) povahu. Cílem ANOVA je právě prokázat, že hodnoty kvalitativního znaku X ovlivňují hodnoty kvantitativního znaku Y (závislého faktoru). Hodnoty znaku Y, které přísluší hodnotě ix faktoru X, označujeme iinii yyy ,...,, 21 . Pro analýzu rozptylu je výhodné uspořádat výchozí údaje do přehledné tabulky, viz Tabulka 1. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 12 Tabulka 1: Schéma výchozí tabulky analýzy rozptylu pro jeden faktor Princip metody ANOVA, kterou prokazujeme závislost Y na X, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. 1.2 Předpoklady analýzy rozptylu s jedním faktorem Předpokládáme, že faktor X má k úrovní (hodnot ix ), s účinkem na znak Y, který lze vyjádřit vztahem: ii αμμ += , i = 1,2, ..., k, kde iμ je průměr znaku Y v i-té skupině (příslušné k hodnotě faktoru ix ),  je celkový průměr znaku Y, iα je efekt hodnoty faktoru ix na znak Y. Formulujeme nyní nulovou hypotézu H0, že všechny výběry pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X nemají na hodnoty znaku Y žádný efekt (vliv). Budeme dále předpokládat, že hodnoty iα pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem 2 . Formulujeme nulovou hypotézu: H0: ( ) ( ) ( )kαEαEαE =...== 21 = 0, proti alternativní hypotéze, že H0 neplatí, že alespoň pro dvě položky, např. i a j, platí: H1: ( ) ( )ji αEαE ≠ . Symbolem ( )iαE označujeme střední hodnotu náhodné veličiny iα . Předpoklad konstantního rozptylu pro všechny veličiny iα je podstatný, je ho možno ověřit statistickým testem, a to buď tzv. Bartlettovým testem, s nímž se seznámíte později. Normalitu rozdělení veličin iα lze taktéž ověřit příslušným testem, např. Chi-kvadrát testem dobré shody, známým ze základního kurzu statistiky, viz Ramík (2003). V praxi obvykle předpokládáme (na podkladě věcné znalosti problému), že zmíněné dva předpoklady jsou automaticky splněny a při aplikaci ANOVA je již obvykle neověřujeme. Číslo výběru Zjištěné hodnoty sledovaného znaku Počet prvků Průměr Rozptyl 1 1111211 nj y,...,y,...,y,y 1n 1y 2 1s 2 2222221 nj y,...,y,...,y,y 1n 2y 2 2s      i iinijii y,...,y,...,y,y 21 in iy 2 is      k kknkjkk y,...,y,...,y,y 21 kn ky 2 ks Celkem n y 2 s Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 13 Cílem, k němuž směřujeme, je buď přijmout nulovou hypotézu H0, nebo H0 zamítnout (na zvolené hladině významnosti). Jedná se tedy o běžný statistický postup nazývaný testování statistických hypotéz, známý ze základního kurzu statistiky, viz Ramík (2003). V případě přijetí nulové hypotézy vyvozujeme nezávislost hodnot faktoru Y na faktoru X, jinak řečeno: faktor Y na faktoru X nezávisí. V opačném případě (při zamítnutí H0), konstatujeme, že faktor Y na faktoru X závisí neboli faktor X ovlivňuje Y. 1.3 Předpoklady analýzy rozptylu s jedním faktorem Celkovou variabilitu znaku Y změříme výběrovým rozptylem 𝑠2 = ∑ ∑ (𝑦 𝑖𝑗−𝑦̄) 2 𝑗𝑖 𝑛−1 . (1.1) V souvislosti s analýzou rozptylu se budeme zabývat pouze čitatelem výše uvedeného zlomku, totiž součtem čtverců odchylek zjištěných hodnot ijy od celkového průměru y , přičemž průměr vypočítáme podle známého vztahu: sečteme všechny hodnoty a výsledek podělíme jejich počtem, tedy 𝑦̄ = 1 𝑛 ∑ ∑ 𝑦𝑖𝑗 𝑛 𝑖 𝑗=1 𝑘 𝑖=1 . Tento celkový součet čtverců budeme označovat symbolem 𝑆 𝑦, tj. 𝑆 𝑦 = ∑ ∑ (𝑦𝑖𝑗 − 𝑦̄) 2𝑛 𝑖 𝑗=1 𝑘 𝑖=1 . (1.2) Celkovému součtu čtverců přísluší počet stupňů volnosti dfy = n–1. Variabilitu mezi skupinami budeme měřit meziskupinovým součtem čtverců myS , , který definujeme následovně 𝑆 𝑦,𝑚 = ∑ 𝑛𝑖(𝑦̄ 𝑖 − 𝑦̄)2𝑘 𝑖=1 . (1.3) Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfm = k–1. Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme přitom označení vyS , , přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto 𝑆 𝑦,𝑣 = ∑ ∑ (𝑦𝑖𝑗 − 𝑦̄ 𝑖) 2𝑛 𝑖 𝑗=1 𝑘 𝑖=1 . (1.4) Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = n–k. Aritmetickými úpravami výše uvedených vzorců lze snadno dokázat základní vztah analýzy rozptylu, totiž, že celkový součet čtverců je roven sumě meziskupinového a vnitroskupinového součtu čtverců, symbolicky: Analýza rozptylu (ANOVA) – JEDEN FAKTOR 14 𝑆 𝑦 = 𝑆 𝑦,𝑚 +  𝑆 𝑦,𝑣. (1.5) Pro ověření nulové hypotézy H0 použijeme statistiku: v vy m my vy my df S df S kn S k S F , , , , 1 = − −= (1.6) která má při platnosti nulové hypotézy Fisherovo rozdělení 𝐹(𝑘 − 1, 𝑛 − 𝑘). Kritické hodnoty Fisherova rozdělení 𝐹𝛼(𝑑𝑓1, 𝑑𝑓2) jsou tabelovány pro různé hodnoty hladiny významnosti  a různé hodnoty parametrů (stupňů volnosti: degree of freedom) df1 a df2. Někdy se namísto kritických hodnot tabelují kvantily Fisherova rozdělení 𝐹1−𝛼 𝑘 (𝑑𝑓1, 𝑑𝑓2). Vztah mezi kritickými hodnotami a kvantily je jednoduchý: 𝐹𝛼(𝑑𝑓1, 𝑑𝑓2) = 𝐹1−𝛼 𝑘 (𝑑𝑓1, 𝑑𝑓2). Např. 5 % kritická hodnota je rovna 95 % kvantilu při stejných hodnotách parametrů df1 a df2. Pro výpočet kritických hodnot lze využít Excelu. Postupuje se přitom takto: v hlavním menu postupně vybíráte: Vložit → Funkce → Statistické → FINV (;df1; df2). Postup testování hypotézy H0 charakterizujeme následujícími 3 kroky: Krok 1. Zvolte hladinu významnosti , která představuje chybu 1. druhu, tj. pravděpodobnost zamítnuti správné hypotézy. Praktické hodnoty hladiny významnosti  jsou: 0,1; 0,05; 0,01 neboli v procentech: 10%, 5%, 1%. Krok 2. Vypočtěte hodnotu statistiky F podle vzorce (1.6), přičemž pro hodnoty meziskupinového součtu čtverců 𝑆 𝑦,𝑚 a pro výpočet vnitroskupinového součtu čtverců vyS , použijte vzorce (1.3) a (1.4). Výpočetně výhodnější, např. pro výpočet na kalkulačce, jsou následující vzorce: 2 1 1 1 1 2 1  = = = =         −= k i n j k i n j ijijy i i y n yS , (1.7) 2 1 1 1 2 , 1  = = =         −= k i k i n j ijiimy i y n ynS . (1.8) K výpočtu 𝑆 𝑦,𝑣 lze využít základního vztahu (1.5) a právě uvedených vztahů (1.7) a (1.8): 𝑆 𝑦,𝑣 = 𝑆 𝑦 − 𝑆 𝑦,𝑚. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 15 Krok 3. Porovnejte hodnotu statistiky F vypočtené v Kroku 2 s kritickou hodnotou 𝐹𝛼(𝑘 − 1, 𝑛 − 𝑘). Výsledek tohoto porovnání může být dvojí: I. Platí F  𝐹𝛼(𝑘 − 1, 𝑛 − 𝑘). Potom se nulová hypotéza H0 přijímá (nezamítá) a tudíž se konstatuje, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv (na zvolené hladině významnosti). Jinak řečeno, faktor X je neúčinný. II. Platí F  𝐹𝛼(𝑘 − 1, 𝑛 − 𝑘). Potom se nulová hypotéza H0 zamítá, přijímá se hypotézu alternativní H1, a tudíž se konstatuje, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv. Jinak řečeno, faktor X je účinný. Podaří-li se výše uvedeným testem prokázat, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv, mohou nás zajímat další informace o tom, které skupiny se významně odlišují od průměru, eventuálně jak skupinové průměry seřadit, případně zařadit do společných celků. V krajním případě by se totiž mohlo stát, že významnost rozdílnosti k skupin způsobuje jediná skupina a ostatní skupiny se navzájem neliší. Touto problematikou se zabývají metody tzv. simultánního testování, z nichž nejznámější je metoda Shaffeho. Vy se touto problematikou zde nezabývat nebudete, zájemce odkazujeme na literaturu, viz např. Anděl (2007). Metoda analýzy rozptylu je založena na předpokladech shody rozptylů v jednotlivých k skupinách. Pokud jsou předpoklady splněny, pak popsaná metoda ANOVA poskytuje nejlepší výsledky – je nejúčinnější. Není-li tento předpoklad splněn, pak použití výše uvedeného testu může poskytnout nesprávný výsledek. V takovém případě lze použít jiné metody, např. Kruskal-Wallisova ANOVA, která používá Chi-kvadrát test, s níž se seznámíte v příští kapitole. V Excelu jsou k dispozici funkce, které umožňují řešit jednofaktorové i vícefaktorové úlohy ANOVA. Naleznete je v hlavním menu: Nástroje → Analýza dat → ANOVA: jeden faktor. 1.4 Míra těsnosti závislosti Variabilita podmíněných (skupinových) průměrů iy kolem celkového průměru y je způsobena závislostí znaku Y na znaku X. Tuto variabilitu jsme vyjádřili meziskupinovým součtem čtverců 𝑆 𝑦,𝑚. Variabilita znaku Y uvnitř jednotlivých skupin – vyjádřena vnitroskupinovým (reziduálním) součtem čtverců 𝑆 𝑦,𝑣, je způsobena jinými (neuvažovanými) činiteli. Čím větší je 𝑆 𝑦,𝑚, tím větší je těsnost závislosti znaků X a Y. Protože však jsou jednotlivé součty čtverců vzájemně vázány vztahem (1.5), lze míru těsnosti závislosti vyjádřit Analýza rozptylu (ANOVA) – JEDEN FAKTOR 16 jako podíl meziskupinového a celkového součtu čtverců. Zavádíme proto jako míru těsnosti závislosti znaku Y na znaku X poměr determinace P2 takto: y my S S P ,2 = . (1.9) Odmocninu z poměru determinace P nazýváme poměr korelace. Poměr determinace nabývá hodnot z intervalu [0,1]. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k 1, tím více se také vnitroskupinový součet čtverců blíží k celkovému součtu čtverců, přičemž meziskupinový součet čtverců se blíží k nule. Naopak, čím více se poměr determinace blíží k 0, tím menší část z celkového součtu čtverců tvoří meziskupinový součet čtverců (na úkor vnitroskupinového), a tím menší je těsnost závislosti znaku Y na X. Způsob výpočtu determinačního a korelačního poměru si procvičíte na numerických příkladech. V Excelu bohužel funkce pro výpočet poměru determinace nebo korelace chybí, musí se proto k výpočtu použít vzorce (1.9). Uvědomte si však, že poměr determinace P2 je náhodná veličina (jakožto podíl dvou veličin – součtu čtverců, které jsou samy náhodnými veličinami), proto může být výsledkem kladné číslo i v případě, že výsledkem ANOVA je fakt, že zkoumaný faktor není statistický významný neboli sledovaná veličina na faktoru nezávisí. V takovém případě by logicky mělo platit, že poměr determinace P2 je nulový, tj. P2 = 0. Tento zdánlivý rozpor vysvětlujeme statistickým přístupem: testem statistické hypotézy. Nulová hypotéza H0: P2 = 0. Jako testové kritérium se použije statistika F ze vzorce (1.6). Pokud platí F  𝐹𝛼(𝑘 − 1, 𝑛 − 𝑘), potom nulovou hypotézu H0 nelze zamítnout a hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv na zvolené hladině významnosti a poměr determinace (samozřejmě i poměr korelace) je roven nule, jinak řečeno, je statisticky nevýznamný. V opačném případě se nulová hypotéza zamítá a poměr determinace je statisticky významný. Hodnota poměru determinace i poměru korelace je nenulová. V tom případě má smysl hovořit o síle závislosti veličiny Y na faktoru X. 1.5 Analýza rozptylu v programu GRETL GRETL je volně dostupný produkt se zaměřením na statistické metody, které podporují ekonometrické analýzy. Název je akronymem pro GNU Regression, Econometristic and Time-series Library. Systém GRETL se dá používat dvěma způsoby. Snaha tvůrců systému od začátku směřovala k přiblížení ekonometrie široké veřejnosti a bylo vytvořeno grafické uživatelské rozhraní (GUI – Graphical User Interface), které je pro většinu běžných uživatelů přijatelnější. Po spuštění programu se objeví hlavní okno (Obrázek 3). V horní části je hlavní menu a v dolní části se nachází panel nástrojů. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 17 Obrázek 3: Hlavní okno programu GRETL Po instalování program obsahuje velký počet datových souborů, které se dají otevřít z hlavního menu – Soubor – Otevřít data – Vzorový soubor. Je zde možno vybírat z databáze Ramanathan, Greene, Stock and Watson. Záložka Data poskytuje velký prostor na přizpůsobení databáze podmínkám modelování. Na následujícím příkladu si ukážeme, jak se zadávají data do programu GRETL. Tabulka 2 uvádí, kolik dnů po příletu trvá adaptace na časový posun (JETLAG). Na hladině významnosti 5 % ověříme, má-li směr letu vliv na délku adaptace (zotavení). Tabulka 2: Doba adaptace ve dnech Směr Doba adaptace ve dnech Západ 2 1 3 3 Východ 6 4 6 8 Stejný 1 0 1 Nulová hypotéza tvrdí, že doba adaptace nezávisí na časovém posunu. Alternativní hypotéza tvrdí, že doba adaptace závisí na časovém posunu. V hlavním menu vybereme nový soubor dat – počet pozorování=11. Struktura souboru dat = průřezová. Kvantitativní proměnnou jsme pojmenovali doba a jednotlivé varianty kvalitativního znaku (směr) musí být přirozená čísla (1-západ, 2-východ, 3-stejný). Analýza rozptylu (ANOVA) – JEDEN FAKTOR 18 Obrázek 4: Zadávání hodnot do GRETLU Dále vybereme posloupnost příkazů: Model – Další lineární modely – ANOVA. Obrázek 5: Analýza rozptylu v GRETLU – zadání Zadání hodnot potvrdíme tlačítkem Budiž a dostáváme následující výsledek. Obrázek 6: Analýza rozptylu v GRETLU - výstup Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 19 Protože p-hodnota = 0,0009 je menší než hladina významnosti (0,05), nulovou hypotézu zamítáme. Můžeme tedy z 95 % tvrdit, že doba adaptace závisí na časovém posunu. Tato skutečnost byla dokonce prokázána i na hladině významnosti 0,01. ŘEŠENÁ ÚLOHA 1.1 Na testovacím okruhu byla testována průměrná spotřeba tří automobilů téže třídy různých výrobců Škoda, Renault a Fiat. Řidič absolvoval s každým automobilem 5 testovacích jízd. Tabulka ukazuje spotřebu benzínu na 100 kilometrů v jednotlivých jízdách. Na hladině významnosti  = 0,05 zjistěte, zda má typ automobilu vliv na spotřebu benzínu. V kladném případě vypočtěte determinační a korelační poměr. Řešení: Chceme zjistit závislost znaku Y (průměrná spotřeba) na jediném znaku X (výrobce automobilu). Provedeme proto jednofaktorovou analýzu rozptylu. Faktor X má tři hodnoty: x1 = Škoda, x2 = Renault, x3 = Fiat, tzn. k = 3, s počty hodnot n1 = n2 = n3 = 5 v každé z nich budeme testovat nulovou hypotézu H0: E(1) = E(2) = E(2) = 0, tj. průměrná spotřeba je u všech vozidel stejná. Alternativní hypotéza H1 je negací nulové hypotézy. Nejprve vypočítáme podmíněné průměry 21, yy , y3 3,7 5 6,79,68,6 5 36,7 5 5,72,77,6 5 54,7 5 1,88,74,7 5 5 1 3 3 5 1 2 2 5 1 1 1 = +++ == = +++ == = +++ ==    = = =    j j j j j j y y y y y y a celkový průměr znaku Y y y n ij = = + + + =  7 4 7 8 7 6 15 7 4 , , , ,  . Dále vypočítáme pomocí vztahů (1.2), (1.3), popř. (1.7), (1.8) součty Sy a Sym. S y yy ij ji = − = − + − + + − + + − + − + + − + + − + + − = ==  ( ) ( , , ) ( , , ) (8, , ) ( , , ) ( , , ) ( , , ) ( , , ) ( , , ) , 2 1 5 2 2 2 1 3 2 2 2 2 2 7 4 7 4 7 8 7 4 1 7 4 6 7 7 4 7 2 7 4 7 5 7 4 6 8 7 4 7 6 7 4 3 4    Automobil Spotřeba Škoda 7,4 7,8 6,8 7,6 8,1 Renault 6,7 7,2 8,3 7,1 7,5 Fiat 6,8 6,9 7,3 7,9 7,6 Analýza rozptylu (ANOVA) – JEDEN FAKTOR 20 S n y y y y y y y yym i ij i = − = − + − + − = =  ( ) ( ) ( ) ( )2 1 2 2 2 3 2 1 3 5 5 5 = − + − + − =5 7 54 7 4 5 7 36 7 4 5 7 3 7 4 0 162 2 2 ( , , ) ( , , ) ( , , ) , . Součet Sym má k-1 stupňů volnosti, v našem případě dfm = 3–1 = 2. Pomocí součtů Sy a Sym dopočítáme součet Syv, neboť Sy = Syv + Sym. Proto Syv = Sy – Sym = 3,4 – 0,16 = 3,24. Součet Syv má n–k stupňů volnosti, proto dfv = 15–3 = 12. Testové kritérium F vypočítáme podle vztahu (1.6): 296,0 12 24,3 2 16,0 1 == − −= kn S k S F yv ym . Pro stanovení kritického oboru C najdeme v tabulkách kritických hodnot F(k–1, n–k) kritickou hodnotu F0,05(2, 12) = 3,89 (ověřte v Excelu pomocí funkce FINV). Kritický obor je proto interval od 3,89 do nekonečna, tj. ),, += 893(C .Zřejmě platí 0,296 < 3,89, tzn. F  C, proto nulovou hypotézu H0 přijímáme. Znamená to, že faktor X-výrobce automobilu je neúčinný neboli, že průměrná spotřeba benzínu není statisticky významně ovlivněna výrobcem automobilu. Poměr determinace i korelace je tedy 0. ŘEŠENÁ ÚLOHA 1.2 Rozhodněte, zda velikost výnosů petržele (faktor Y) závisí na použitém druhu hnojiva (faktor X). Pokud závisí, pak pomocí determinačního poměru zjistěte těsnost této závislosti. Data jsou uvedena v následující tabulce, použijte hladinu významnosti 0,05. Hnojivo Výnosy (1kg/10 m2) A 40 42 45 40 44 47 B 76 75 82 68 C 60 58 62 64 70 Řešení: U tohoto příkladu si ukážeme řešení s pomocí Excelu. Nejprve však příklad vyřešíme klasickým postupem. K výpočtu hodnot součtů čtverců Sym a Sy, potřebujeme znát celkový průměr y a podmíněné průměry 321 yyy ,, . Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 21 .2,58 15 58,62425,75643 ,8,62;25,75 ,43 6 474240 3 1 32 1 6 1 1 1 = ++ == == = +++ ==   = = n yn y yy n y y i ii j j  Nyní již můžeme vypočítat součty Sym a Sy, podle vztahů (1.2), (1.3)   = =−+−+−=−= =−++−+ +−++−+ +−++−=−= 3 1 2222 22 22 222 .85,2654)2,588,62(5)2,5825,75(4)2,5843(6)( .4,2878)2,5870()2,5860( )2,5868()2,5876( )2,5847()2,5840()( i iiym ij ijy yynS yyS    Hodnota testového kritéria je 26,71 12 85,26544,2878 2 85,2654 1 = − = − −= kn S k S F yv ym . Kritická hodnota je F0,05(2, 12) = 3,89 a je mnohem menší než hodnota testového kritéria F. Proto nulovou hypotézu zamítáme a konstatujeme, faktor hnojiva významně ovlivňuje hodnoty výnosů petržele. Hodnotu determinačního poměru P2 zjistíme dosazením hodnot Sym a Sy do vztahu (1.9). .92,0 4,2878 85,26542 ==P Hodnoty determinačního poměru blízké 1 svědčí o vysoké závislosti faktoru Y na faktoru X. Hodnota 0,92 proto znamená, že závislost výnosů petržele na použitém druhu hnojiva je vysoká. Řešení pomocí Excelu: Nejprve je zapotřebí připravit v Excelu data. Jednotlivé hodnoty yij pro faktoru Y pro hodnotu xi faktoru X uspořádáme do řádků, podobně jako v tabulce v zadání. V prvním sloupci umístíme kvůli lepší orientaci název hodnoty faktoru (popisky) xi, v tomto případě název hnojiva: A, B, C. Data ve worksheetu Excelu vypadají tedy například takto: Data je možné uspořádat také do sloupců, přitom do prvního řádku umístíme názvy hodnot faktoru X (popisky). To je výhodné zejména u velkého množství dat, tj. pro velkou hodnotu počtu dat n. Dále otevřeme v hlavním menu postupně položky: Data → Analýza dat... → ANOVA: jeden faktor A B C D E F G H 1 A 40 42 45 40 44 47 2 B 76 75 82 68 3 C 60 58 62 64 70 4 Analýza rozptylu (ANOVA) – JEDEN FAKTOR 22 Pokud se tam položka Analýza dat nevyskytuje je ji zapotřebí doinstalovat (viz začátek této kapitoly). Zvolíte-li pak první položku ANOVA: jeden faktor, otevře se zadávací okno, kde postupně zadáte: Vstupní oblast: $A$1:$G$3 Sdružit: zakliknete tlačítko Řádky (je možné uspořádat data do sloupců, pak ovšem zakliknete tlačítko Sloupce Popisky v prvním sloupci – zakliknete Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit) Výstupní oblast: $A$5 (levý horní roh výstupní oblasti). Potvrdíte OK V první tabulce s názvem Faktor jsou uvedeny základní statistické údaje o datech: Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA, jednotlivé položky mají následující význam: Mezi výběry = meziskupinový Všechny výběry = vnitroskupinový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF – Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium = 71,25 Hodnota P = Signifikance (p-hodnota) = 0,000000219 < 0,05 =  F krit = kritická hodnota rozdělení F = 3,89 Hodnoty získané řešením v Excelu jsou stejné jako při použití „ručního“ výpočtu, proto i závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. signifikanci), která, pokud je menší než zvolená hladina významnosti , znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu nezamítáme (přijímáme). Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 23 ŘEŠENÁ ÚLOHA 1.3 Firma Dekorace domu má své prodejny ve čtyřech městech (Ostrava, Karviná, Bohumín, Český Těšín). Tabulka zobrazuje tržby firmy v posledních pěti měsících. Testujte na hladině významnosti 5 %, zda výše tržeb závisí na lokalitě, ve které se prodejna nachází. Pokud bude prokázána závislost, pak pomocí determinačního poměru zjistěte sílu této závislosti. Jak se změní výsledek v případě testování na hladině významnosti 0,01? Město Tržby (v tis.Kč) Ostrava 71 83 65 77 84 Karviná 60 51 54 80 55 Bohumín 55 55 62 65 63 Český Těšín 68 73 67 59 53 Řešení: Tento příklad vyřešíme s pomocí Excelu. Nejprve si napíšeme hypotézu, kterou budeme testovat: H0: výše tržeb nezávisí na lokalitě, ve které se prodejna nachází, H1: výše tržeb závisí na lokalitě, ve které se prodejna nachází. Zadáme posloupnost příkazů: Data → Analýza dat... → ANOVA: jeden faktor A dostaneme následující výstup, ve kterém můžeme vidět hodnoty podmíněných průměrů, hodnotu meziskupinového součtu = 860, hodnotu vnitroskupinového součtu = 1142, hodnotu testového kritéria F = 4,016, kritickou hodnotu Fisherova rozdělení = 3,23, a konečně hodnotu P = 0,026. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 24 Hodnota P představuje minimální hodnotu, od které lze nulovou hypotézu zamítnout. Proto v případě, že testujeme na hladině významnosti 0,05; tak nulovou hypotézu zamítáme, protože 0,026 <0,05. Tzn., že z 95 % můžeme tvrdit, že výše tržeb závisí na lokalitě, ve které se prodejna nachází. Kdežto v případě, že testujeme hypotézu na hladině významnosti 0,01; tak nulovou hypotézu nelze zamítnout, protože 0,026 >0,01; takže z 99 % nebyla závislost mezi výší tržeb a lokalitou prokázána. Sílu závislosti posoudíme pomocí poměru determinace. Jde o poměr meziskupinosté variability na celkové variabilitě. Výsledek je možné vyjádřit v procentech. 𝑃2 = 𝑆 𝑦𝑚 𝑆 𝑦 = 860 2002 = 42,96 % SAMOSTATNÉ ÚKOLY 1.1 Pan Novák může jet do zaměstnání čtyřmi různými trasami. Čtyřikrát projel jednotlivé trasy a zaznamenal si dobu, po kterou jel do zaměstnání. Na hladině významnosti  = 0,01 zjistěte, zda záleží na tom, kterou trasou pojede. Cesta 1 Cesta 2 Cesta 3 Cesta 4 22 27 26 28 26 29 33 30 25 26 25 32 30 28 30 26 Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Ostrava 5 380 76 65 Karviná 5 300 60 135,5 Bohumín 5 300 60 22 Český Těšín 5 320 64 63 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 860 3 286,6667 4,016346 0,026236 3,238872 Všechny výběry 1142 16 71,375 Celkem 2002 19 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 25 1.2 Učitel fyziky zkoumal, jaký vliv má druh zkušebního testu na jeho úspěšnost. Vytvořil tři typy stejně obtížných testů a náhodně je rozdal mezi studenty ve třídě. Tabulka uvádí bodové zisky studentů v jednotlivých testech. Na hladině významnosti  = 0,05 zjistěte, zda má typ testu vliv na úspěšnost studentů. Typ testu T1 T2 T3 75 72 64 90 78 78 70 94 70 90 78 90 85 50 1.3 Ve vepříně zjišťovali, jestli váhové přírůstky vepřů závisí na použitém druhu krmiva, či nikoli. Na hladině významnosti  = 0,05 rozhodněte, zda jsou váhové přírůstky pro různá krmiva různé, eventuálně zjistěte, který druh krmiva dává nejmenší váhové přírůstky. Krmivo A B C 21,5 19,9 23,7 22,8 24,3 22,5 26,3 20,1 20,6 24,2 20,9 21,4 25,6 21,1 28,1 1.4 Výroba součástek může v podniku probíhat na jednom ze čtyř rozdílných strojů. I když každý stroj provádí stejné operace, má každý svá specifika. Na hladině významnosti  = 0,01 testujte hypotézu o tom, že počet vyrobených součástek není ovlivněn volbou stroje. Stroj A B C D 93 108 123 133 98 153 143 163 80 123 150 168 88 158 165 145 60 143 140 130 1.5 Školský úřad Karviná chtěl srovnat úroveň znalostí maturantů gymnázií okresu Karviná. Za tímto účelem byl vytvořen test zahrnující otázky ze všech oblastí učiva a zadán náhodně vybraným studentům jednotlivých škol. Bodové výsledky studentů jsou uvedeny v následující tabulce. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 26 Gymnázium Karviná Gymnázium Český Těšín Gymnázium Bohumín Gymnázium Orlová Gymnázium Havířov 79 62 74 73 86 86 54 81 67 52 49 88 64 59 61 72 76 a. Na hladině významnosti  = 0,05 zjistěte, je-li průměrná úroveň maturantů jednotlivých škol stejná. b. Jak ovlivní výsledek průzkumu změna hladiny významnosti na 0,01? ODPOVĚDI 1.1 F = 1,0 F krit = 5,95 p-hodnota = 0,43 – H0 přijímáme (doba nezávisí na trase). 1.2 F = 1,43 F krit = 3,98 p-hodnota = 0,28 – H0 přijímáme (typ testu nemá vliv na úspěch). 1.3 F = 4,7 F krit = 3,89 p-hodnota = 0,03 – H0 zamítáme (krmivo má vliv, nejvíce A). 1.4 F =15,02 F krit = 5,29 p-hodnota = 0,000 – H0 zamítáme (typ stroje má vliv). 1.5 a) F = 0,12 F krit = 3,26 p-hodnota = 0,97 – H0 přijímáme (škola nemá vliv). b) F = 0,12 F krit = 5,41 p-hodnota = 0,97 – H0 přijímáme (škola nemá vliv). SHRNUTÍ KAPITOLY Formálně vzato je ANOVA, ať jednofaktorová nebo vícefaktorová, testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Cílem ANOVA je prokázat, že hodnoty kvalitativního znaku X ovlivňují hodnoty kvantitativního znaku Y (závislého faktoru). Princip metody ANOVA, kterou prokazujeme závislost Y na X, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými vý- běry. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 27 2 ANALÝZA ROZPTYLU (ANOVA) – DVA A VÍCE FAK- TORŮ RYCHLÝ NÁHLED KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závislost znaků (faktorů) Y na X, pro něž jsou k dispozici příslušná data, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Cílem, k němuž směřujeme nyní, je situace, kdy budeme uvažovat, že se kromě třídění do skupin vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: pomocí Excelu vypočítat analýzu rozptylu se dvěma faktory, pomocí GRETLU vypočítat analýzu rozptylu se dvěma faktory, použít Kruskal-Wallisovu verzi analýzy rozptylu. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Analýza rozptylu se dvěma faktory, Kruskal-Wallisova ANOVA. analýza rozptylu (ANOVA) – DVA a více faktorů 28 2.1 Analýza rozptylu se dvěma faktory ANOVA vychází z předpokladu normality rozdělení hodnot uvažovaných faktorů. Pokud U analýzy rozptylu s jedním faktorem jste uvažovali výsledky tříděné podle jistého kvalitativního znaku X do několika (konkrétně do k) skupin o rozsazích 𝑛1, 𝑛2, . . . , 𝑛 𝑘. Proto v tomto případě hovoříme také o ANOVA při jednoduchém třídění neboli třídění podle jednoho faktoru. V této kapitole budeme uvažovat situaci, kdy se kromě třídění do skupin, vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná situace vzniká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Tato tzv. klasická je takový předpoklad neudržitelný, lze použít jiného typu ANOVA, tedy neparametrického testu statistické hypotézy (tento pojem si připomeňte ze základního kurzu statistiky). Konkrétně se v této kapitole seznámíte s Kruskal-Wallisovou verzi ANOVA, která využívá Chi-kvadrát test statistické hypotézy. U analýzy rozptylu s jedním faktorem jsme uvažovali výsledky tříděné podle jistého kvalitativního znaku X do několika (konkrétně do k) skupin o rozsazích 𝑛1, 𝑛2, . . . , 𝑛 𝑘. V tomto odstavci budeme uvažovat situaci, kdy se kromě třídění do skupin, vyskytuje další faktor, podle něhož výsledky (tj. hodnoty znaku Y) rovněž třídíme, říkáme, že je třídíme do bloků. Začneme výklad příkladem známým již z předchozí kapitoly. Příklad 1. Testovacími jízdami na zkušebním okruhu se zjišťuje průměrná spotřeba paliva automobilu Octavia při použití benzínu od různých výrobců (např. Aral, Shell, Benzina, Slovnaft). Všechny testy provede jeden řidič, když s každým druhem benzínu uskuteční několik testovacích jízd, a to tak, že pro každou značku benzínu uskuteční jiný počet jízd. Zjištěné výsledky testů, tj. změřené průměrné spotřeby na 100 km, podrobíme jednofaktorové analýze rozptylu, která nám umožní zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu. Příklad 2. Nyní budeme uvažovat podobnou situaci, kdy výsledky testů byly získány různými řidiči (např. A, B, C, D, E, F), a to tak, že každý řidič uskutečnil jednu testovací jízdu s každou značkou benzínu (tím se myslí čerpací stanice, ze kterých pocházely pohonné hmoty). Výsledky testů proto budeme členit nejen podle značky benzínu (1. faktor), ale také podle testovacích řidičů (2. faktor). Podle předpokladů je nyní počet výsledků ve všech skupinách stejný a je roven počtu řidičů (každý řidič jel s jednou značkou benzínu jedenkrát). Zjištěné výsledky podrobíme dvoufaktorové analýze rozptylu, která umožní jednak zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu, jednak zjistit, zda různí řidiči mají vliv na tuto spotřebu. Příklad 3. Nyní budeme uvažovat stejnou situaci jako v příkladu 2, přitom výsledky testů byly získány různými řidiči (např. A, B, C, D, E, F), a to tak, že každý řidič uskutečnil tři testovací jízdy s každou značkou benzínu. Zjištěné výsledky podrobíme dvoufaktorové Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 29 analýze rozptylu s opakováním, která umožní jednak zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu, jednak zjistit, zda různí řidiči mají vliv na tuto spotřebu. Na konci této kapitoly budou všechny tři příklady podrobně analyzovány na konkrétních číselných datech. Nyní budeme postupovat ve výkladu s obecnými daty, nejprve pro případ popsaný v příkladu 2. Taková data, podobně jako u jednofaktorové analýzy rozptylu, uspořádáme do přehledné Tabulky 3. Tabulka 3: Schéma výchozí tabulky analýzy rozptylu pro dva faktory V Tabulce 3 značíme symbolem 𝑦̄ 𝑖• průměr v i-té skupině, symbolem 𝑦̄• 𝑗označujeme průměr hodnot v j-tém bloku, symbolem y značíme celkový průměr. Celkový součet čtverců (celkovou variabilitu) označujeme stejně, jako v (1.2), tedy: ( )S y yy ij j r i k = − ==  2 11 . (2.1) Variabilitu mezi skupinami budeme měřit meziskupinovým součtem čtverců 𝑆 𝑦,𝑚, který definujeme následovně: ( )S r y yy m i i k , = −• =  2 1 . (2.2) Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfm = k–1. Variabilitu mezi bloky budeme měřit meziblokovým součtem čtverců byS , , který definujeme následovně: ( )S k y yy b j j r , = −• =  2 1 . (2.3) Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfb = r–1. Hodnoty sledovaného znaku Číslo bloku Číslo skupiny 1 2 ... j ... r Průměr skupiny 1 y11 y12 ... y1j ... y1r •1y 2 y21 y22 ... y2j ... y2r y2•         i yi1 yi2 ... yij ... yir yi•         k yk1 yk2 ... ykj ... ykr yk• Průměr bloku y•1 y•2 ... y j• ... y r• y analýza rozptylu (ANOVA) – DVA a více faktorů 30 Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme přitom označení vyS , , přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto ( )S y y y yy v ij i j j r i k , = − − +• • ==  2 11 . (2.4) Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = (k–1)(r–1). Aritmetickými úpravami výše uvedených vzorců lze dokázat totiž, že celkový součet čtverců je roven sumě meziskupinového, vnitroskupinového a blokového součtu čtverců, symbolicky 𝑆 𝑦 = 𝑆 𝑦,𝑚 +  𝑆 𝑦,𝑣 + 𝑆 𝑦,𝑏. (2.5) Tento vztah se nazývá základní vztah dvoufaktorové analýzy rozptylu. 2.2 Předpoklady analýzy rozptylu se dvěma faktory Předpokládáme, že faktor X1 má k úrovní, faktor X2 má r úrovní s efektem na znak Y, který lze vyjádřit vztahem 𝜇𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗, i = 1,2, ..., k, j = 1,2, ..., r, (2.6) kde 𝜇𝑖𝑗 je průměr znaku Y v i-té skupině a j-tém bloku,  je celkový průměr znaku Y, i je efekt hodnoty faktoru X1 na znak Y, j je efekt hodnoty faktoru X2 na znak Y. V modelu (2.6) nejprve předpokládáme, že efekty obou faktorů na znak Y jsou aditivní a vzájemně nezávislé, tj. bez vzájemných interakcí. Tento předpoklad nám umožní oddělit od sebe hypotézy o efektech jednotlivých faktorů. Formulujeme nejprve nulovou hypotézu, že všechny skupiny pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X1 nemají na hodnoty znaku Y žádný efekt (vliv). Budeme tedy v nulové hypotéze předpokládat, že i pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem 2 . Formulujeme nulovou hypotézu H0: ( ) ( ) ( )kEEE  === ...21 = 0, proti alternativní hypotéze, že H0 neplatí, že alespoň pro dvě hodnoty, např. i a j, platí: H1: ( ) ( )ji EE   . Cílem, k němuž směřujeme, je přijmout nulovou hypotézu H0, eventuálně H0 zamítnout (na zvolené hladině významnosti). Pro ověření nulové hypotézy H0 použijeme statistiku: )1)(1( 1 , , 1 −− −= rk S k S F vy my , (2.7) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 31 která má při platnosti nulové hypotézy Fisherovo rozdělení )))((( 111 −−− rkkF , . Kritické hodnoty lze nalézt v tabulkách, nebo lze využít funkce z Excelu: FINV (;k – 1;(k – 1)(r – 1)). Dále formulujeme nulovou hypotézu, že všechny bloky pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X2 nemají na hodnoty znaku Y žádný efekt. Budeme tedy v nulové hypotéze předpokládat, že 𝛽𝑗 pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem 2 . Formulujeme nulovou hypotézu H0´: E E r( ) ... ( ) 1 0= = = , proti alternativní hypotéze, že H0´ neplatí, že alespoň pro dvě hodnoty, např.   i i , platí H1´: E Ei i( ) ( )   . Pro ověření nulové hypotézy H0´ použijeme statistiku: )1)(1( 1 , , 2 −− −= rk S r S F vy by , (2.8) která má při platnosti nulové hypotézy Fisherovo rozdělení 𝐹(𝑟 − 1, (𝑘 − 1)(𝑟 − 1)). Zásadní rozdíl mezi dvoufaktorovou a jednofaktorovou analýzou rozptylu spočívá v tom, že u jednofaktorové ANOVA neuvažujeme působení dalšího faktoru, zatímco u dvoufaktorové ANOVA tak činíme. Tento rozdíl je vyjádřen ve výpočtu testového kritéria (2.7) a (2.8), kde se ve jmenovateli zlomku vyskytuje člen (k–1)(r–1). Kdybychom na stejnou situaci aplikovali pouze jednofaktorovou ANOVA, pak by ve výpočtu hodnoty testového kritéria podle vztahu (1.6) byl na stejném místě člen (n–k) nebo člen (n–r), podle toho, zda bychom brali v úvahu skupiny nebo bloky. Tento rozdíl může zapříčinit rozdílné výsledky získané jednofaktorovou nebo dvoufaktorovou ANOVA! ŘEŠENÁ ÚLOHA 2.1 Testovacími jízdami na zkušebním okruhu se zjišťuje průměrná spotřeba benzínu Natural 95 automobilu Octavia při použití benzínu od různých výrobců (Aral, Shell, Benzina, Slovnaft). Bylo vybráno 6 řidičů A, B, C, D, E, F, z nichž každý absolvoval s každým typem benzínu jednu zkušební jízdu. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na tom, který řidič s vozem jel. Řidiči Značka benzínu A B C D E F Aral 7,5 6,9 7,9 7,3 6,9 7,8 Shell 7,6 7,2 7,5 8,0 7,3 8,2 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 Slovnaft 7,0 7,3 7,2 7,5 8,2 7,7 analýza rozptylu (ANOVA) – DVA a více faktorů 32 Řešení: Máte za úkol prozkoumat závislost průměrné spotřeby (znak Y) na typu použitého benzínu (znak X1) a na řidiči (znak X2), který s vozem jel. Znak X1 má k = 4 skupiny, znak X2 má r = 6 bloků. Pro faktor X1 formulujeme nulovou hypotézu: H0: E(1) =E(2)=E(3)=E(4), (2.9) proti H1: neplatí (2.9), tj. průměrná spotřeba závisí na použitém druhu benzínu. Pro faktor X2 formulujeme nulovou hypotézu H0  : E(1) =E(2)=…=E(6), (2.10) proti alternativní hypotéze H1  : neplatí (2.10), tj. průměrná spotřeba benzínu závisí na řidiči, který s vozem jel. Pro ověření těchto hypotéz, tj. pro výpočet testových kritérií, musíme znát hodnotu součtů Sy,m , Sy,v a Sy. Vypočítáme podmíněné průměry 𝑦̄ 𝑖., i = 1, 2, 3, 4, 𝑦̄.𝑗, j = 1, 2, …,6 (výpočty jsou v Tabulce 4) a také celkový průměr 𝑦̄. 38,7 6 8,79,65,7 .1 = +++ =  y , další průměry 𝑦̄2., 𝑦̄3., 𝑦̄4. vypočítáme analogicky. 33,7 4 72,76,75,7 1. = +++ =y , další průměry 𝑦̄.2, … , 𝑦̄.6 vypočítáme analogicky. Celkový průměr je 50,7 24 7,79,65,7 = +++ =  y . Hodnoty všech průměrů jsou uvedeny v tabulce. Nyní lze přistoupit k výpočtu jednotlivých součtů: ( ) ( )  21,05,748,75,738,76)( 22 4 1 2 ., =−++−=−= =  i imy yyrS . ( ) ( ) ( )  35,05,738,75,733,74 22 6 2 ., =−++−=−= =  j jby yykS . Potřebujeme znát i hodnotu součtu Sy,v, z praktického hlediska je však výhodnější vypočítat hodnotu součtu Sy. Součet Sy,v pak snadno dopočítáme, neboť Sy = Sy,m+Sy,v+Sy,b. ( ) ( ) ( ) ( ) ( ) ( ) ( ) .79,35,77,75,72,85,76,7 5,78,75,79,65,75,7 222 222 4 1 6 1 2 , =−++−++−+ +−++−+−=−= = =   i j jiy yyS Potom vypočítáme Sy,v= Sy – Sy,m – Sy,b = 3,79 – 0,21 – 0,36 = 3,22. Pro ověření hypotézy H0 určíme testové kritérium F1 ( )( ) 32,0 53 22,3 3 21,0 11 1 , , 1 =  = −− −= rk S k S F vy my . Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 33 V tabulce kritických hodnot F-rozdělení nebo pomocí Excelu najdeme F0,05(3,15) = FINV(0,05; 3,15) = 3,29. Protože 0,32 <3,29, přijímáme H0, což znamená, že použitá značka benzínu nemá na průměrnou spotřebu vliv. Pro ověření hypotézy  0H určíme testové kritérium F2 ( )( ) 33,0 53 22,3 5 36,0 11 1 , , 2 =  = −− −= rk S r S F vy by . V tabulce kritických hodnot F-rozdělení nebo pomocí Excelu najdeme F0,05(5,15) = FINV(0,05; 5,15) = 2,9. Protože 0,33 <2,9, přijímáme i hypotézu  0H , tzn., že ani volba řidiče nemá na průměrnou spotřebu statisticky významný vliv. Na rozdíl od jednofaktorové ANOVA jsme zde v obou situacích uvažovali současné působení dvou faktorů! Tabulka 4: Podmíněné průměry Řidiči Zn. benzínu A B C D E F Průměry Aral 7,5 6,9 7,9 7,3 6,9 7,8 7,38 Shell 7,6 7,2 7,5 8,0 7,3 8,2 7,63 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 7,57 Slovnaft 7,0 7,3 7,2 7,5 8,2 7,7 7,48 Průměry 7,33 7,38 7,6 7,6 7,55 7,65 7,50 Nakonec si ještě ukážeme řešení pomocí Excelu. Využijeme přitom funkci menu: Nástroje → Analýza dat... → ANOVA: dva faktory bez opakování Nejprve je zapotřebí připravit v Excelu data. Jednotlivé hodnoty yij pro faktoru Y pro hodnoty faktorů X1 = benzín a X2 = řidič uspořádáme do řádků a sloupců, podobně jako v tabulce v zadání. Data ve worksheetu Excelu vypadají tedy například takto: Dále otevřeme v hlavním menu postupně položky: Data → Analýza dat... → ANOVA: dva faktory bez opakování Po volbě třetí položky ANOVA: dva faktory bez opakování, se otevře zadávací okno: Vstupní oblast: $A$1:$G$5 Popisky – zakliknete A B C D E F G I 1 benzin/řidič A B C D E F 2 Aral 7,5 6,9 7,9 7,3 6,9 7,8 3 Shell 7,6 7,2 7,5 8 7,3 8,2 4 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 5 Slovnaft 7 7,3 7,2 7,5 8,2 7,7 6 analýza rozptylu (ANOVA) – DVA a více faktorů 34 Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit). Potvrdíte OK. V první tabulce jsou uvedeny základní statistické údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory bez opakování, jednotlivé položky mají následující význam: Řádky = meziskupinový Sloupce = vnitroskupinový Chyba = meziblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF – Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium Hodnota P = Signifikance (p-hodnota) F krit = kritická hodnota rozdělení F Hodnoty získané řešením v Excelu jsou stejné jako při použití „ručního“ výpočtu, proto i závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. signifikanci), která, pokud je menší než zvolená hladina významnosti , znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přijímáme. V předchozích úvahách jsme měli situaci právě jednoho výskytu všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvoval jedinou jízdu s každým typem benzínu. Dále budeme uvažovat situaci vícenásobného opakování všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvuje několik jízd (například 3 jízdy – viz řešená úloha 2.2) s každým typem benzínu, přitom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto Anova: dva faktory bez opakování Faktor Počet Součet Průměr Rozptyl Aral 6 44,3 7,383333 0,185667 Shell 6 45,8 7,633333 0,154667 Benzina 6 45,4 7,566667 0,194667 Slovnaft 6 44,9 7,483333 0,181667 A 4 29,3 7,325 0,075833 B 4 29,5 7,375 0,2625 C 4 30,4 7,6 0,1 D 4 30,4 7,6 0,086667 E 4 30,2 7,55 0,323333 F 4 30,6 7,65 0,296667 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Řádky 0,21 3 0,07 0,325581 0,806868 3,287383 Sloupce 0,358333 5 0,071667 0,333333 0,884913 2,901295 Chyba 3,225 15 0,215 Celkem 3,793333 23 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 35 výsledky odlišují výrazně či nikoliv, se opět zjišťuje statistickým testem. Podrobnou analýzu situace, která je analogická analýze případu bez opakování, již zde uvádět nebudeme. Omezíme se pouze na řešení příkladu s využitím Excelu, konkrétně položky ANOVA: dva faktory s opakováním (řešená úloha 2.2) ŘEŠENÁ ÚLOHA 2.2 Podobně jako v příkladu 2.1 se zjišťuje průměrná spotřeba benzínu Natural 95 automobilu Octavia při použití benzínu od různých výrobců (Aral, Shell, Benzina, Slovnaft). Bylo vybráno 6 řidičů A, B, C, D, E, F, z nichž každý absolvoval s každým typem benzínu tři zkušební jízdy. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na řidiči. Údaje jsou uvedeny v následující Tabulce 5. Tabulka 5: Analýza rozptylu se dvěma faktory s opakováním Řešení: Data ve worksheetu Excelu vypadají přesně tak jako v Tabulce 5, jsou umístěny např. v poli A1 až E19. Dále otevřeme v hlavním menu postupně položky: Data → Analýza dat... → ANOVA: dva faktory s opakováním Po volbě druhé položky ANOVA: dva faktory s opakováním, se otevře zadávací okno, kde postupně zadáte: Vstupní oblast: $A$1:$E$19 Řádků na výběr: 3 (tj. počet opakování) Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit) Výstupní oblast: např. $L$1 (levý horní roh výstupní oblasti) Potvrdíte OK. benzin/řidičAral Shell Benzina Slovnaft A 7,5 7,6 7,2 7 7,7 7,4 7,6 7,4 8 7,3 8,1 7,7 B 6,9 7,2 8,1 7,3 6,7 7,4 8,5 7,6 6,6 7,6 8,8 7,8 C 7,9 7,5 7,8 7,2 8 7,8 7,7 7,1 8,3 8,1 7,6 7 D 7,3 8 7,6 7,5 7,2 8 7,8 7,7 7,1 7,9 8 7,8 E 6,9 7,3 7,8 8,2 6,8 7,2 8 8,1 6,7 7 8,1 8 F 7,8 8,2 6,9 7,7 7,7 8,4 7,5 7,7 7,5 8,5 7,9 7,7 analýza rozptylu (ANOVA) – DVA a více faktorů 36 Obdržíte následující výstup, kterého “levý horní roh” začíná v buňce L1 nadpisem ANOVA: dva faktory s opakováním. V první tabulce jsou uvedeny základní statistické údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory s opakováním. Jednotlivé položky mají následující význam: Výběr = meziskupinový Anova: dva faktory s opakováním Faktor Aral Shell Benzina Slovnaft Celkem A Počet 3 3 3 3 12 Součet 23,2 22,3 22,9 22,1 90,5 Průměr 7,73 7,43 7,63 7,37 7,54 Rozptyl 0,06 0,02 0,20 0,12 0,10 B Počet 3 3 3 3 12 Součet 20,2 22,2 25,4 22,7 90,5 Průměr 6,73 7,40 8,47 7,57 7,54 Rozptyl 0,02 0,04 0,12 0,06 0,46 C Počet 3 3 3 3 12 Součet 24,2 23,4 23,1 21,3 92 Průměr 8,07 7,80 7,70 7,10 7,67 Rozptyl 0,04 0,09 0,01 0,01 0,16 D Počet 3 3 3 3 12 Součet 21,6 23,9 23,4 23 91,9 Průměr 7,200 7,967 7,800 7,667 7,658 Rozptyl 0,010 0,003 0,040 0,023 0,103 E Počet 3 3 3 3 12 Součet 20,4 21,5 23,9 24,3 90,1 Průměr 6,80 7,17 7,97 8,10 7,51 Rozptyl 0,01 0,02 0,02 0,01 0,33 F Počet 3 3 3 3 12 Součet 23 25,1 22,3 23,1 93,5 Průměr 7,67 8,37 7,43 7,70 7,79 Rozptyl 0,02 0,02 0,25 0,00 0,19 Celkem Počet 18 18 18 18 Součet 132,6 138,4 141 136,5 Průměr 7,37 7,69 7,83 7,58 Rozptyl 0,28 0,20 0,19 0,13 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Výběr 0,69 5 0,14 2,64 0,03 2,41 Sloupce 2,08 3 0,69 13,23 0,00 2,80 Interakce 10,23 15 0,68 12,99 0,00 1,88 Dohromady 2,52 48 0,05 Celkem 15,53 71 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 37 Sloupce = vnitroskupinový Interakce = meziblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF – Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium Hodnota P = Signifikance (p-hodnota) F krit = kritická hodnota rozdělení F Hodnoty získané řešením v Excelu jsou analogické jako v příkladu 2.1, tedy v případě ANOVA bez opakování. Navíc je tu p-hodnota uvedená v řádku Interakce, která se týká testu vzájemné závislosti faktorů. Nulová hypotéza předpokládá, že faktoru jsou vzájemně nezávislé. Pokud je tato hodnota menší než zvolená hladina významnosti , znamená to, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přijímáme. V této kapitole jsme uvažovali situaci, kdy se kromě třídění do skupin vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná situace vzniká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Nejprve jsme měli situaci právě jednoho výskytu všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvoval jedinou jízdu s každým typem benzínu. Poté jsme uvažovali situaci vícenásobného opakování všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvuje několik jízd s každým typem benzínu, přitom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto výsledky odlišují výrazně či nikoliv, se opět zjistilo statistickým testem. K řešení příkladů jsme použili Excel, konkrétně položku Analýza dat, podobně budeme postupovat v řešené úloze 2.3. A v řešené úloze 2.4 si ukážeme řešení dvoufaktorové analýzy rozptylu v programu GRETL. ŘEŠENÁ ÚLOHA 2.3 Po půlročním zkušebním období firmy „Dům a zahrada“ bylo vybráno 12 obchodů (6 internetových obchodů, 6 kamenných prodejen) se sortimentem zahrada, dům a byt, dílna a nářadí, a byly zaznamenány tržby z prodeje v jednotlivých sortimentech. Testujte na hladině významnosti 0,05; zda je výše tržeb ovlivněna typem obchodu nebo sortimentem. analýza rozptylu (ANOVA) – DVA a více faktorů 38 Řešení: Testujeme tedy hypotézy: H0: výše tržeb není ovlivněna nabízeným sortimentem, H1: výše tržeb je ovlivněna nabízeným sortimentem. A dále hypotézy: H´0: výše tržeb není ovlivněna typem obchodu, H´1: výše tržeb je ovlivněna typem obchodu. V Excelu zvolíme následující posloupnost příkazů: Data → Analýza dat... → ANOVA: dva faktory s opakováním. Vstupní oblast musí obsahovat i záhlaví tabulky a v každé cele musí být stejný počet hodnot. Po volbě druhé položky ANOVA: dva faktory s opakováním, se otevře zadávací okno, kde postupně zadáte: Obdržíte následující zkrácený výstup (pouze tabulka ANOVA): prodej\kategorie zboží ZAHRADA DŮM A BYT DÍLNA A NÁŘADÍ INTERNETOVÝ OBCHOD 44 48 30 42 34 18 52 35 75 70 2 70 35 41 62 20 33 68 KAMENNÝ OBCHOD 33 38 30 12 1 42 13 50 18 22 5 27 64 44 34 35 47 30 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 39 Výběr – meziskupinový SS (1.faktor), Sloupce – meziblokový SS (2.faktor), Interakce – SS pro interakce mezi faktory 1 a 2, Dohromady – vnitroskupinový SS. Z výše uvedeného výstupu tedy vidíme, že není rozdíl mezi nabízeným sortimentem (sloupce), ale je rozdíl mezi typem obchodu (řádky – výběr). Tedy H0: výše tržeb není ovlivněna nabízeným sortimentem, nelze zamítnout, protože Hodnota P = 0,385 což je větší než hladina významnosti 0,05, na které testujeme. Proto nemůžeme tvrdit, že by mezi výši tržeb a nabízeným sortimentem byla závislost. V případě nulové hypotézy: H´0: výše tržeb není ovlivněna typem obchodu, vidíme, že hodnota P = 0,041 což je menší než hladina významnosti 0,05, na které testujeme, proto nulovou hypotézu zamítáme. A tedy můžeme tvrdit, že výše tržeb je z 95 % ovlivněna typem obchodu. V případě Interakce nulová hypotéza předpokládá, že faktory jsou vzájemně nezávislé. Protože Hodnota P = 0,339 je větší než hladina významnosti 0,05; nulovou hypotézu nelze zamítnout, a tedy nelze tvrdit, že by faktory (nabízený sortiment a typ obchodu) byly zá- vislé. ŘEŠENÁ ÚLOHA 2.4 Ve třech městech okresu Karviná jsme v jednotlivých dnech sledovali průměrnou spotřebu pitné vody (v m3 ) na jednoho obyvatele. Zjistěte, zda je průměrná spotřeba vody závislá na dni v týdnu, a je-li spotřeba v různých městech různá. Uvažujte hladinu významnosti 0,05. Zjištěné údaje jsou uvedeny v Tabulce 6. Tabulka 6: Spotřeba pitné vody (m3) ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Výběr 1521 1 1521 4,530831 0,041616 4,170877 Sloupce 661,5556 2 330,7778 0,985337 0,385072 3,31583 Interakce 752,6667 2 376,3333 1,121041 0,339213 3,31583 Dohromady 10071 30 335,7 Karviná Petřvald Bohumín Po 0,6 0,7 0,5 Út 0,7 0,6 0,6 St 0,9 0,8 0,7 Čt 0,6 0,6 0,5 Pá 1 1,3 0,8 So 1,2 1,6 1,3 Ne 1 1,2 1,3 analýza rozptylu (ANOVA) – DVA a více faktorů 40 Řešení: Formulace první dvojice hypotéz: H0: spotřeba pitné vody nezávisí na dnu v týdnu, H1: spotřeba pitné vody závisí na dnu v týdnu. Formulace druhé dvojice hypotéz: H0: spotřeba pitné vody nezávisí na městě, H1: spotřeba pitné vody závisí na městě. Obrázek 7 zachycuje zadávání hodnot do programu GRETL. V prvním sloupci je kvantitativní proměnná spotřeba vody, druhý sloupec zobrazuje město (1,2,3) a třetí sloupec je proměnná den (1,2,3,4,5,6,7). Kvalitativní proměnné musí být přirozená čísla. Obrázek 7: Zadávání hodnot do programu GRETL Testování první dvojice hypotéz. Obrázek 8: Testování první dvojice hypotéz Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 41 Obrázek 9: Výsledek testování první dvojice hypotéz Výsledek: p-hodnota = 4,42.10-5 a tato hodnota je menší než hladina významnosti 0,05, proto nulovou hypotézu o nezávislosti spotřeby pitné vody na dnu v týdnu zamítáme. Můžeme tedy tvrdit, že spotřeba pitné vody z 95% závisí na dnu v týdnu. Testování druhé dvojice hypotéz. Obrázek 10: Testování druhé dvojice hypotéz Obrázek 11: Výsledek testování druhé dvojice hypotéz analýza rozptylu (ANOVA) – DVA a více faktorů 42 Výsledek: p-hodnota = 0,123 a tato hodnota není menší než hladina významnosti 0,05, proto nulovou hypotézu o nezávislosti spotřeby pitné vody na městě nelze zamítnout. Z 95% nebylo prokázáno, že by spotřeba pitné vody závisela na městě. 2.3 Kruskal – Wallisova analýza rozptylu Analýza rozptylu předpokládá ve své parametrické podobě normalitu rozdělení a homoskedasticitu (identické rozptyly). Pokud tyto podmínky nejsou splněny, je třeba použít neparametrický Kruskal-Wallisův test, který je obdobou jednofaktorového třídění v analýze rozptylu. Na rozdíl od parametrického testu nepředpokládá normalitu rozdělení, jeho nevýhodou je pak menší citlivost. Kruskal-Wallisův test je vícevýběrovým testem mediánů. Nechť tyto náhodné výběry pochází ze spojitých rozdělení stejného typu a stejných rozptylů (homoskedasticita): (X11, X12, …, X1n1); (X21, X22, …, X2n2); …; (Xk1, Xk2, …, Xknk); kde ni je rozsah jednotlivých výběrů. Testujeme nulovou hypotézu: H0: kxxx ~=...=~=~ 21 , proti alternativní hypotéze: H1: neplatí H0. Všechny veličiny Xij tvoří dohromady sdružený náhodný výběr o rozsahu 𝑁 = ∑ 𝑛𝑖 𝑘 𝑖=1 . Z tohoto výběru vytvoříme uspořádaný výběr (rostoucí posloupnost), a určí se pořadí Rij každé veličiny Xij. Tato pořadí uspořádáme do tabulky a určíme tzv. součty pořadí pro jednotlivé výběry Ti, kde 𝑇𝑖 = ∑ 𝑅𝑖𝑗 𝑛𝑗 𝑗=1 . Testová statistika je: )1+.(3. )1+.( 12 = ∑ 1= 2 N n T NN Q k i i i . Hodnotu Q porovnáváme s kritickou hodnotou 𝜒 𝛼 2(𝑘 − 1). ŘEŠENÁ ÚLOHA 2.5 V následující tabulce jsou uvedeny ceny bytů v závislosti na počtu pokojů. Pomocí Kruskal-Wallisovy analýzy rozptylu zjistěte, zda je cena bytu závislá na počtu pokojů v bytě. Uvažujte hladinu významnosti 0,05. Počet pokojů Cena bytu v tis.Kč 1 200 210 220 2 320 310 330 340 3 500 520 540 510 4 600 620 610 Řešení: V další tabulce se zapíše pořadí Rij každé veličiny Xij a dále určíme tzv. součty pořadí pro jednotlivé výběry Ti. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 43 Tabulka pro výpočet testového kritéria Ti Ti 2 Ti 2 / ni 6 36 12 22 484 121 38 1444 361 39 1521 507 SUMA 1001 Dosadíme do testové statistiky 2,12=)1+14.(31001. )1+14.(14 12 =Q . Kritická hodnota ( ) 81,7=)3;05,0(=32 05,0 CHIINVχ . Protože hodnota testové statistiky Q = 12,2 leží v kritickém oboru, tak nulovou hypotézu o nezávislosti znaků zamítáme. Můžeme tedy z 95 % tvrdit, že cena bytu závisí na počtu pokojů v bytě. SAMOSTATNÉ ÚKOLY Řešte v Excelu. 2.1 Ve čtyřech městech okresu Karviná jsme v jednotlivých dnech sledovali průměrnou spotřebu pitné vody (v m3 ) na jednoho obyvatele. Zjistěte, zda je průměrná spotřeba vody závislá na dni v týdnu, a je-li spotřeba v různých městech různá. Uvažujte hladinu významnosti 0,01. Zjištěné údaje jsou uvedeny v tabulce. Karviná Orlová Bohumín Český Těšín Po 0,64 0,75 0,54 0,76 Út 0,78 0,63 0,61 0,83 St 0,93 0,82 0,7 0,91 Čt 0,66 0,62 0,56 0,62 Pá 0,99 1,3 0,79 0,99 So 1,22 1,65 1,3 0,98 Ne 1,05 1,3 1,24 1,1 2.2 Výroba součástek může v podniku probíhat na jednom ze čtyř rozdílných strojů. I když každý stroj provádí stejné operace, má svá specifika. U každého stroje pracuje jeden dělník. Na hladině významnosti  = 0,01 testujte hypotézu o tom, že počet vyrobených součástek není ovlivněn volbou stroje ani dělníkem, který na něm pracuje. Počet pokojů Rij Ti ni 1 1 6 3 6 3 2 5 22 6 7 22 4 3 8 38 11 9 38 4 4 12 39 13 39 3 analýza rozptylu (ANOVA) – DVA a více faktorů 44 Stroj Dělník A B C D 1 93 108 123 133 2 98 153 143 163 3 80 123 150 168 4 88 158 165 145 5 60 143 140 130 2.3 V následující tabulce jsou uvedeny průměrné bodové výsledky z matematiky na šesti vybraných školách v členských státech Višegrádské skupiny (Česká republika, Slovensko, Maďarsko, Polsko). Pomocí Kruskal-Wallisovy analýzy rozptylu zjistěte, zda se vědomostní úroveň v matematice liší v jednotlivých státech V4. Uvažujte hladinu významnosti 0,05. Česká republika Slovensko Maďarsko Polsko 55,4 68,4 52,1 62,3 61,2 57,9 58,9 61,2 65,8 56,2 63,4 51,6 59,3 54,3 54,2 54,7 62,5 52,6 56,8 61,5 58,4 61,2 42,6 66,1 ODPOVĚDI 2.1 DNY: F = 12,95 F krit = 4,01 p-hodnota = 0,000 – H0 zamítáme (průměrná spotřeba pitné vody závisí na dnu v týdnu) MĚSTO: F = 2,07 F krit = 5,1 p-hodnota = 0,14 – H0 přijímáme (nebyla prokázána závislost průměrné spotřeby pitné vody na městě). 2.2 DĚLNÍK: F = 2,45 F krit = 5,41 p-hodnota = 0,1 – H0 přijímáme (nebyla prokázána závislost počtu součástek na dělníkovi, který na stroji pracuje). STROJ: F = 20,47 F krit = 5,95 p-hodnota = 0,000 – H0 zamítáme (počet vyrobených součástek závisí na stroji). 2.3 N = 24; T = (92; 70; 53; 85); statistika Q = 2,99; kritikcká hodnota = 7,81; nulovou hypotézu o nezávislosti bodového výsledku na státu nezamítáme (soubory, z nichž pocházejí výběry jsou shodné) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 45 SHRNUTÍ KAPITOLY V této kapitole jsme uvažovali situaci, kdy se kromě třídění do skupin, vyskytovaly další faktory, říkáme jim bloky. Když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. V této kapitole jste se také seznámili s Kruskal-Wallisovou verzi ANOVA, která využívá Chi-kvadrát test statistické hypotézy. Regresní analýza – jednorozměrná lineární regrese 46 3 REGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ LINEÁRNÍ REGRESE RYCHLÝ NÁHLED KAPITOLY Analýzu rozptylu z první kapitoly je možné chápat jako analýzu závislosti kvantitativního znaku (proměnné) na kvalitativním znaku (proměnné). Naproti tomu závislostí kvantitativního znaku na kvantitativním znaku (nebo více kvantitativních znacích) se zabývá regresní analýza. V případě závislosti dvou znaků mluvíme o jednorozměrné regresi (případně jednoduché regresi), u znaku závislém na více kvantitativních veličinách hovoříme o vícerozměrné regresi (vícenásobné regresi). V této kapitole budeme vyšetřovat nejprve nejjednodušší lineární závislost dvou znaků, v další kapitole se budeme zabývat i nelineárními závislostmi dvou znaků důležitých z hlediska ekonomických aplikací. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: • vypočítat regresní koeficienty a vysvětlit metodu nejmenších čtverců, • vypočítat koeficient determinace a koeficient korelace, • vyjmenovat podmínky klasického lineárního regresního modelu. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Regresní přímka, metoda nejmenších čtverců, koeficient determinace, koeficient kore- lace. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 47 3.1 Regresní analýza V regresní analýze studujeme vztah mezi jedinou proměnnou (hodnotami statistického znaku) nazývanou závisle proměnnou (někdy vysvětlovanou proměnnou), označujeme ji Y, a obecně několika proměnnými (hodnotami statistických znaků), které nazýváme nezávisle proměnné (někdy vysvětlující proměnné), a označujeme je symboly X1, X2,.... Pokud se zabýváme jedinou nezávisle proměnnou X, hovoříme o jednoduché regresi, pokud je nezávisle proměnných více než jedna, mluvíme o vícrozněrnéné (vícenásobné) regresi (někdy též mnohonásobné regresi). V této a následující kapitole se věnujeme jednoduché regresi. Závisí-li veličina Y na veličině X, pak to matematicky vyjadřujeme zápisem Y = f(X). (3.1) V našem případě jsou Y a X statistické znaky (náhodné veličiny), pak hovoříme o statistické závislosti, funkční vztah (3.1) přejde v regresní vztah (regresní model) y = f(x) +  , (3.2) kde y, resp. x, představují hodnoty znaku Y, resp. X,  je náhodná složka, funkci f nazýváme regresní funkce. Jestliže je regresní funkce f lineární, což značí, že má tvar regresní přímky xxf 10)(  += , (3.3) potom hovoříme o jednoduché lineární regresi, nemá-li regresní funkce lineární tvar, hovoříme o jednoduché nelineární regresi. Ve vzorci (3.3) jsou 10  , parametry regresní funkce neboli regresní koeficienty. Mezi nejpoužívanější nelineární regresní funkce patří: regresní parabola: 𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥2 , (3.4) regresní hyperbola: 𝑓(𝑥) = 𝛽0 + 𝛽1 1 𝑥 , (3.5) regresní logaritmická funkce: 𝑓(𝑥) = 𝛽0 + 𝛽1 𝑙𝑜𝑔 𝑥. (3.6) regresní mocninná funkce: 𝑓(𝑥) = 𝛽0 𝑥 𝛽1, (3.7) regresní exponenciální funkce: 𝑓(𝑥) = 𝛽0 𝛽1 𝑥 . (3.8) Výše uvedené nelineární regresní funkce lze převést na lineární vhodnou transformaci, jak uvidíme v následující kapitole. Kromě výše uvedených příkladů nelineárních regresních funkcí existuje celá řada dalších významných nelineárních funkcí, např. Törnquistovy funkce, které nelze na lineární funkci jednoduše převést. Budeme se jimi zabývat v následující kapitole. Regresní analýza – jednorozměrná lineární regrese 48 3.2 Jednoduchá regresní analýza Představte si výběr párových hodnot (y1, x1), (y2, x2), (y3, x3), ..., (yn, xn), získaných (např. změřených) na statistických jednotkách základního souboru. Zde jsou yi hodnotami závisle proměnné Y a xi jsou hodnotami nezávisle proměnné X. Zmíněné párové hodnoty můžeme získat zejména dvojím způsobem: (A) Hodnoty nezávisle proměnné xi jsme předem pevně zvolili a k nim jsme „změřili“ příslušné hodnoty yi. V této situaci jsou hodnoty znaku X pevné (nenáhodné), zatímco hodnoty znaku Y považujeme za náhodné veličiny. (B) Párové hodnoty (yi, xi) „změříme“ na n náhodně zvolených jednotkách základního souboru. V této situaci jak hodnoty znaku X, tak hodnoty znaku Y považujeme za náhodné veličiny. Výše uvedený datový soubor párových hodnot můžeme geometricky znázornit v rovině bodovým grafem, kde na vodorovnou osu „x“ nanášíme hodnoty nezávisle proměnné a na svislou osu „y“ příslušné hodnoty závisle proměnné. Výsledkem je geometrické znázornění n bodů v rovině, z jejichž vzájemné polohy můžeme soudit na regresní závislost znaku Y na X. Úkolem jednoduché lineární regrese je „proložit“ danými body přímku (tj. nalézt lineární regresní funkci), která nejlépe charakterizuje polohu daných n bodů. Z předchozího odstavce víme, že tato regresní funkce má tvar 𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥, kde 𝛽0, 𝛽1 jsou zatím neznámé hodnoty parametrů regresní přímky. Regresní model (3.2) má nyní tvar yi = ix10  + + i , i = 1, 2,..., n. (3.9) Odhady 10 b,b těchto neznámých parametrů – regresní koeficienty získáme metodou nejmenších čtverců. Této metodě, která patří mezi nejdůležitější metody používané ve statistice, bude věnován následující odstavec. 3.3 Metoda nejmenších čtverců Uvažujte data ve formě párových hodnot – bodů: (y1, x1), (y2, x2), (y3, x3), ..., (yn, xn). Úkolem jednoduché regrese je najít regresní funkci, která „nejlépe charakterizuje polohu“ daných n bodů. Nejprve budeme uvažovat obecný tvar regresní funkce 𝑓(𝑥 ; 𝛽0, 𝛽1) se dvěma parametry 𝛽0, 𝛽1 (nemusí to být nutně regresní přímka). Speciálními případy této regresní funkce je lineární funkce (3.3) a také nelineární funkce (3.4) – (3.8). Postup metody nejmenších čtverců bude vždy stejný, tj. nezávislý na konkrétním tvaru regresní funkce. Odhady 10 ,bb neznámých parametrů 𝛽0, 𝛽1 získáme tak, že nalezneme hodnoty 10,bb , pro něž nabývá své minimální hodnoty reziduální součet čtverců odchylek hodnot závisle proměnné yi od teoretické hodnoty 𝑌𝑖 = 𝑓(𝑥𝑖 ; 𝑏0, 𝑏1), tj. SR = ( ) ( ) == −=− n i ii n i ii bbxfyYy 1 2 10 1 2 ),,( . (3.10) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 49 Jak je známo z matematické analýzy, své minimum funkce SR (zde je to funkce proměnných 10 b,b ) vždy nabývá pro ty hodnoty 10 b,b , pro něž se anulují její parciální derivace: 0 0 =   b SR , 0 1 =   b SR . (3.11) Vztahy (3.11) představují soustavu 2 rovnic o 2 neznámých 10 ,bb , která se nazývá soustava normálních rovnic. Jejím řešením získáme hledané odhady regresních parametrů zvolené regresní funkce. Vyřešíme nyní soustavu (3.11) pro speciální případ, který nás zejména zajímá, totiž pro lineární regresní funkci 𝑓(𝑥 ; 𝛽0, 𝛽1) = 𝛽0 + 𝛽1 𝑥. Dosadíme-li tuto funkci do vztahu (3.10), vypočteme příslušné parciální derivace, které položíme rovny 0, získáme konkrétní soustavu normálních rovnic  == += n i i n i i xbnby 1 10 1 , (3.12)  === += n i i n i i n i ii xbxbyx 1 2 1 1 0 1 . Z těchto rovnic již snadno vypočteme hledané odhady 10 ,bb takto: , . (3.13) Z analytické geometrie si připomeňte, že regresní koeficient b0 představuje průsečík regresní přímky s osou „y“, tedy hodnotu Y0 pro x = 0, tento regresní koeficient se někdy nazývá úrovňová konstanta. Regresní koeficient b1 vyjadřuje směrnici přímky, tedy sklon přímky k ose „x“, tj. změnu funkční hodnoty Y při změně nezávisle proměnné x o jednotku. Pro jiné, než lineární tvary regresní funkce je postup metody nejmenších čtverců obdobný. Výsledkem je rovněž soustava 2 normálních rovnic, tyto rovnice však již nemusí být lineární, a proto soustavu již obvykle nelze snadno vyřešit. K řešení pak používáme iterační numerické metody, které zde nejsou předmětem našeho zájmu. V řešených úlohách jsou uvedeny způsoby nalezení odhadů regresních koeficientů metodou linearizace exponenciální a mocninné regresní funkce pomocí logaritmické transformace. Na tomto místě bychom chtěli zvýraznit jeden důležitý fakt, který budeme v následujícím výkladu neustále využívat. Data pro regresní analýzu jsou výsledkem náhodného výběru, ať již jsme použili při jejich získání postup (A), nebo (B). Proto také výsledek jednoduché lineární regresní analýzy – odhady neznámých parametrů 𝛽0, 𝛽1, tj. regresní koeficienty 𝑏0, 𝑏1, budou náhodné veličiny. Při každém dalším náhodném výběru dat bude výsledek, tj. odhad 𝑏0, 𝑏1, obecně jiný! Má proto význam hovořit dále o statistických charakteristikách těchto odhadnutých parametrů, jako např. střední hodnota, rozptyl. 2 1 2 1 1 xnx yxnyx b n i i n i ii   = = − − = xbyb 10 −= Regresní analýza – jednorozměrná lineární regrese 50 3.4 Míra variability, koeficient determinace Metoda nejmenších čtverců nás nyní přivedla k postupu, který jsme již použili v předchozí kapitole při analýze rozptylu. V ANOVA se jednalo o rozklad celkové variability znaku Y, vyjádřené jako celkový součet čtverců, na meziskupinový a vnitroskupinový (reziduální) součet čtverců. V analýze rozptylu jsme pracovali se znakem X, který měl kvalitativní povahu, a proto nebylo možné vyjádřit závislost regresním modelem. V regresní analýze má znak X – nezávisle proměnná – kvantitativní povahu, a proto je regresní model závislosti Y na X možný. Použijeme analogii s ANOVA v tom, že znak X zde bude nabývat hodnot x1, x2, ..., xn a i-tá skupina bude nyní charakterizována teoretickou hodnotou 𝑌𝑖 = 𝑓(𝑥𝑖 ; 𝑏0, 𝑏1), namísto skupinového průměru 𝑦̄ 𝑖 v ANOVA. Potom celkovou variabilitu vysvětlované proměnné charakterizuje celkový součet čtverců: ( )= −= n i iy yyS 1 2 . (3.14) Část celkové variability vysvětlenou regresním modelem charakterizuje teoretický součet čtverců: ( )= −= n i iT yYS 1 2 , (3.15) nevysvětlenou část celkové variability představuje reziduální součet čtverců (3.10): SR = ( )= − n i ii Yy 1 2 , (3.16) kde ei = yi – Yi nazýváme reziduum. Lze dokázat, že mezi jednotlivými součty čtverců platí základní vztah: Sy = ST + SR. (3.17) Obdobně jako v analýze rozptylu jsme zavedli k vyjádření těsnosti vztahu Y a X poměr determinace, nyní zavedeme analogický pojem charakterizující přiléhavost dat k regresnímu modelu. Tímto pojmem je koeficient determinace, který definujeme vztahem y R S S R −=12 . (3.18) Ze vztahu (3.17) vyplývá, že koeficient determinace nabývá hodnoty z intervalu [0,1] a určuje tu část celkové variability pozorovaných hodnot Sy, kterou lze vysvětlit daným regresním modelem. Jinak řečeno, po vynásobení koeficientu determinace hodnotou 100 obdržíme, kolik procent celkové variability je vysvětlitelných regresním modelem. Koeficient determinace je proto důležitou charakteristikou vhodnosti zvoleného regresního mo- delu. Vztah (3.18) vzniká podílem náhodných veličin, a proto jakožto náhodná veličina je odhadem koeficientu determinace R2 . Pro malé rozsahy výběru n je odhad (3.18) vychýlený, viz Ramík (2003), tj. nadhodnocuje přiléhavost k regresnímu modelu. Proto se používá nevychýlený odhad koeficientu determinace 2 adjR (z angl. adjusted), který nazýváme korigovaný (upravený) koeficient determinace: Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 51 ( ) 2 1 11 22 − − −−= n n RRadj . (3.19) Pro velké hodnoty n je však zlomek ve vzorci (3.19) blízký k jedné a korigovaný koeficient se blíží k „nekorigovanému“. 3.5 Klasický lineární model Klasickým jednoduchým lineárním regresním modelem se nazývá regresní model (3.9): yi = ixββ 10 + + i ,i = 1,2,...,n, splňující následující podmínky: (1) Hodnoty vysvětlující proměnné xi se volí předem, viz (A) odstavec 3.2, nejsou to tedy náhodné veličiny. (2) Náhodné složky i v modelu (3.9) mají normální rozdělení pravděpodobnosti se střední hodnotou 0 a (neznámým) rozptylem 2 . Konstantnost rozptylu nazýváme homoskedasticita. (3) Náhodné složky nejsou korelované, tj.Cov(i, j) = 0 pro každé i  j, i, j = 1,2, ..., n. Podmínky (1) až (3) požadujeme tehdy, chceme-li zajistit splnění některých dalších vlastností: např. zjistit intervaly spolehlivosti koeficientů regresní funkce, interval spolehlivosti hodnoty regresní funkce, eventuálně chceme-li provádět testy hypotéz o některých prvcích regresního modelu. Těmito tématy se budeme zabývat v následujících odstavcích. Pokud totiž tyto podmínky splněny nejsou, nelze zajistit „spolehlivé předpovědi“. V praxi jsou podmínky klasického modelu často splněny, nejsme-li si však jejich platností jisti, můžeme provést testy hypotéz jak o normalitě rozdělení náhodné složky (např. test dobré shody, viz např. Ramík (2003)), tak i testy o nekorelovanosti náhodných složek (např. t-test). Další testy uvedeme později v souvislosti s časovými řadami. Na Obrázku 12 je znázorněna situace, kdy podmínky klasického lineárního modelu jsou splněny, na Obrázku 13 je zachycena situace, kdy není splněna ani podmínka normality náhodných složek (na obrázku jsou všechny i téměř stejné), ani podmínka nekorelovanosti (hodnoty yi se nacházejí vedle sebe po jedné straně grafu regresní funkce). Regresní analýza – jednorozměrná lineární regrese 52 Obrázek 12: Podmínky klasického modelu jsou splněny Obrázek 13: Podmínky klasického modelu nejsou splněny 3.6 Diagnostická kontrola modelu Kvalita každého sestaveného modelu se posuzuje pomocí diagnostických testů, kde jsou ověřovány vlastnosti náhodné složky, a to jsou heteroskedasticita, autokorelace a normalita reziduí. Pokud je model zvolen správně, pak má nesystematická (reziduální) složka modelu vlastnosti procesu bílého šumu. 3.6.1 HETEROSKEDASTICITA Požadavkem na nesystematickou složku je její homoskedasticita čili konstantnost rozptylu. K posouzení homoskedasticity se využívá graf reziduí, v praxi pak také tzv. 𝐴𝑅𝐶𝐻(𝑞) (AutoRegressive Conditional Heteroscedasticity) test, kde H0: reziduální složka vykazuje podmíněnou homoskedasticitu, H1: reziduální složka vykazuje podmíněnou heteroskedasticitu. 10 15 0 5 10 15 20 yt t Data a regresní křivka 0 5 10 15 20 25 0 5 10 15 20 yt t Data a regresní křivka Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 53 Pro posouzení efektu 𝐴𝑅𝐶𝐻 (1) je konstruována tzv. umělá regrese, která je uvedena v rovnici (3.20), jak uvádí Arlt a Arltová (2007). Vysvětlovanou proměnnou je kvadrát reziduí a vysvětlující proměnnou kvadrát reziduí v prvním zpoždění. 𝑎̂ 𝑡 2 = 𝛼0 + 𝛼1 𝑎̂ 𝑡−1 2 + 𝑢 𝑡 (3.20) Metodou nejmenších čtverců jsou odhadnuty parametry a za předpokladu platnosti nulové hypotézy má statistika TR2 rozdělení 𝜒2(1), T je počet měření, R2 je index determinace. V případě vysokých hodnot statistiky TR2 nulovou hypotézu zamítáme, a potvrzuje se, že nesystematická složka vykazuje podmíněnou heteroskedasticitu. Pro posouzení efektu 𝐴𝑅𝐶𝐻(q) je konstruována rovnice (3.21). V tomto případě za předpokladu platnosti nulové hypotézy má testové kritérium TR2 rozdělení 𝜒2(𝑞). 𝑎̂ 𝑡 2 = 𝛼0 + 𝛼1 𝑎̂ 𝑡−1 2 + ⋯ 𝛼 𝑞 𝑎̂ 𝑡−𝑞 2 + 𝑢 𝑡 (3.21) Heteroskedasticita může být způsobena i přítomností odlehlých pozorování, a řešením může být jejich vypuštění z modelu. Heteroskedasticita je nežádoucí, protože způsobuje chybné testování parametrů v modelu. 3.6.2 AUTOKORELACE Přítomnost autokorelace v modelu může znamenat, že nebyla odfiltrována veškerá systematická složka. V případě jednorozměrného procesu je pro zkoumání autokorelace používá výběrová autokorelační funkce (ACF) 𝑟̂ 𝑘 = ∑ 𝑎̂ 𝑡 𝑎̂ 𝑡−𝑘𝑡 ∑ 𝑎̂ 𝑡𝑡 . V případě nekorelovanosti nesystematické složky leží hodnoty výběrové ACF uvnitř intervalu (−2√𝑇, 2√𝑇). Přítomnost autokorelace je ověřována na základě Portmanteau testu, kde H0: 𝜌1 = 𝜌2 = ⋯ = 𝜌 𝐾 = 0 H1: neplatí H0. Je-li model správně konstruován, pak má statistika 𝑄 = 𝑇 ∑ 𝜌̂ 𝑘 2𝐾 𝑘=1 pro vysoká T a K přibližně rozdělení 𝜒2(𝐾 − 𝑝 − 𝑞). Pro malé výběry se používá statistika označována jako modifikovaná Portmanteau statistika (Arlt a Arltová, 2007). 3.6.3 NORMALITA Normalitu lze sledovat pomocí 𝜒2 testu dobré shody, nejčastěji je však využíván JarqueBera test, který je založený na testování šikmosti a špičatosti rozdělení. Hypotézy jsou H0: normální rozdělení, Regresní analýza – jednorozměrná lineární regrese 54 H1: jiné než normální rozdělení. Testové kritérium 𝐽𝐵 = 𝑆𝐾2 + 𝐾2 , kde SK je šikmost rozdělení a K je špičatost rozdělení, má za předpokladu platnosti nulové hypotézy rozdělení 𝜒2(2). ŘEŠENÁ ÚLOHA 3.1 Společnost na výrobu bytového textilu zkoumala, jak souvisí zisk z prodeje s výdaji na reklamu. Tabulka 7 uvádí údaje obdržené v deseti náhodně vybraných firmách. Načrtněte bodový graf a určete typ regresní funkce popisující danou závislost. Stanovte koeficienty regresní funkce. Vypočítejte koeficient determinace a zhodnoťte těsnost závislosti vyjádřenou regresním modelem. Tabulka 7: Zisk z prodeje a výdaje na reklamu Pozorování Výdaje na reklamu (tis. Kč) Zisk z prodeje (10 tis. Kč) 1 6 5 2 8 8 3 9 9 4 9 12 5 12 21 6 15 25 7 16 32 8 20 36 9 22 51 10 23 59 Řešení („ruční“ výpočet): Z grafu vidíte, že jde o přímou závislost, kterou je možné popsat regresní přímkou Y = 0 + 1x. Máte za úkol stanovit hodnoty koeficientů b0, b1, neboli na základě dat odhadnout hodnoty parametrů 1, 2. Využijeme výsledků metody nejmenších čtverců, nebudete však dosazovat přímo do soustavy rovnic (3.12), ale použijete vztahy pro b0, b1, tj. (3.13), které je možné z dané soustavy vyjádřit, a to v numericky výhodném a snadno zapamatovatelném tvaru: 97,2 34 9,100 14230 8,25141,462 2221 == − − = − − = xx yxxy b 75,151497,28,2510 −=−=−= xbyb . Výpočty potřebných hodnot pomocí kalkulačky jsou uvedeny v Tabulce 8. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 55 Tabulka 8: Výpočty i xi yi xi 2 xiyi Yi 2 )( yYi − ( )y yi − 2 1 6 5 36 0 2,04 565,21 432,64 2 8 8 64 64 7,98 318,22 316,84 3 9 9 81 81 10,95 221,15 282,24 4 9 12 81 108 10,95 221,15 190,44 5 12 21 144 252 19,86 35,62 23,04 6 15 25 225 375 28,77 8,61 0,64 7 16 32 256 512 31,74 34,84 38,44 8 20 36 400 720 43,62 315,88 104,04 9 22 51 484 1122 49,56 562,08 635,04 10 23 59 529 1357 52,53 711,60 1102,24 Součet 140 258 2300 4621 258 2994,3 3125,6 Průměr 14 25,8 230 462,1 Obrázek 14: Graf regresní přímky Hledaná regresní přímka má tvar: xY 9727515 ,, +−= . a. K tomu, abychom vypočítali determinační koeficient, musíme znát hodnotu součtu ST a součtu Sy. Tyto součty vypočítáme podle vztahů (3.14), (3.15). Pro výpočet teoretického součtu musíme pro každé xi, i = 1, …,10, znát teoretickou hodnotu Yi. 042697278159727515 11 ,,,,, =+−=+−= xY . Tato hodnota udává, jaký by měl být zisk při výdajích x = 6. Protože však jde o stochastickou závislost mezi společenskými veličinami, může se tato hodnota lišit od skutečně zjištěné hodnoty y = 5. Všechny teoretické hodnoty Yi i hodnoty součtů Sy a ST jsou uvedeny v Tabulce 8. Koeficient determinace vypočítáme dosazením součtů Sy, ST do vztahu (3.18). .958,0 6,3125 3,29942 === y T S S R Lineární regrese y = 2,9676x - 15,747 R2 = 0,958 0 10 20 30 40 50 60 70 0 5 10 15 20 25 Zisk z prodeje (10 tis. Kč) Lineární (Zisk z prodeje (10 tis. Kč)) Regresní analýza – jednorozměrná lineární regrese 56 Tato hodnota znamená, že pomocí regresní přímky xY 9727815 ,, +−= je vysvětleno 95,8 % chování proměnné Y. Řešení (výpočet v Excelu): V Excelu využijeme graf funkce s funkcí Přidat spojnici trendu. Po volbě položky Vložit graf → XY bodový..., se otevře zadávací okno, kde zadáte: Oblast dat: $A$1:$B$11 Sloupce:  (zakliknout) Potvrdíte OK Obdržíte bodový graf, viz Obrázek 14 (ještě bez regresní přímky). Poklepem pravým tlačítkem myši na některý z bodů grafu obdržíte nabídku menu, kde zvolíte: Přidat spojnici trendu, Typ trendu regrese: zvolíte Lineární Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Potvrdíte OK. Obdržíte výsledek téměř takový, jaký je na Obrázku 14. K původním bodům se zobrazí regresní přímka, dále rovnice regresní přímky a hodnotu koeficientu determinace R2 . ŘEŠENÁ ÚLOHA 3.2 Společnost Air-Ostrava, zajišťující lety na trase Ostrava-Praha, sleduje při plánování letů také na hmotnost užitečného zatížení letadla, jehož významnou část tvoří pasažéři a jejich zavazadla. Zjistilo se, že hmotnost zavazadel cestujících souvisí s dobou, na kterou odcestovali. Výsledky průzkumu zachycuje Tabulka 9. a. Najděte rovnici regresní přímky popisující danou závislost. b. S jakou hmotností zavazadel lze počítat, bude-li na palubě 15 cestujících vracejících se za 2 dny, 7 cestujících vracejících se za 5 dnů, 5 cestujících vracejících se za 6 dnů a 1 cestující vracející se za 14 dní. Tabulka 9: Výsledky průzkumu Pozorování Dny Hmotnost 1 13 46 2 12 43 3 9 29 4 16 52 5 10 31 6 5 18 7 2 11 8 3 12 9 8 25 10 2 10 11 14 48 12 19 60 13 3 15 14 5 20 15 2 12 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 57 Řešení: Prezentujeme zde pouze „ruční“ výpočet řešení (s kalkulačkou), řešení pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu ponecháváme na čtenáři. a. K výpočtu regresních koeficientů b0, b1 použijeme opět vztahů (3.13): 99,2 2,873,96 8,282,84,324 2221 = − − = − − = xx yxyx b , 27,42,899,28,2810 =−=−= xbyb Regresní přímka má tedy tvar xY 992274 ,, += . Tabulka 10: Výpočty i xi yi xiyi xi 2 1 13 46 598 169 2 12 43 516 144 3 9 29 261 81 4 16 52 832 256 5 10 31 310 100 6 5 18 90 25 7 2 11 22 4 8 3 12 36 9 9 8 25 200 64 10 2 10 20 4 11 14 48 672 196 12 19 60 1140 361 13 3 15 45 9 14 5 20 100 25 15 2 12 24 4 Součet 123 432 4866 1451 Průměr 8,2 28,8 324,4 96,73 b. Vypočítáme hodnotu Y pro x = 2: 25,10299,227,4)2( =+=Y , x = 5: 22,19599,227,4)5( =+=Y , x = 6: 21,22699,227,4)6( =+=Y , x =14: 13,461499,227,4)14( =+=Y . Potom hmotnost zavazadel m, se kterou lze počítat, snadno zjistíte, uvážíte-li počty příslušných cestujících: 47,44513,4605,11154,13475,153)14(1)6(5)5(7)2(15 =+++=+++= YYYYm kg. Regresní analýza – jednorozměrná lineární regrese 58 ŘEŠENÁ ÚLOHA 3.3 – SPOTŘEBNÍ FUNKCE KEYNESIÁNSKÉHO TYPU Tato řešená úloha prezentuje ekonometrické modelování pro jednoduchou spotřební funkci keynesiánského typu pro české domácnosti v roce 2023. Predikujte vývoj spotřeby pro domácnost s měsíčním důchodem 55tis.Kč. Tato úloha bude řešena pomocí programu GRETL. (Keynes: Lidé jsou v průměru ochotni zvyšovat svou spotřebu při rostoucích příjmech, ale ne v takové výši, jak rostou příjmy. Jedná se o přímou závislost reálné spotřeby především na reálném důchodu, přičemž spotřeba roste pomaleji než důchod. Vymezení ekonomického modelu: - Stanovení předmětu zkoumání – keynesiánská jednoduchá spotřební funkce - Klasifikace ekonomických veličin – Ci (reálná spotřeba i-té domácnosti), Yi (příjem domácnosti) - Vymezení a verbální popis vazeb a vztahů mezi veličinami (přímá závislost reálné spotřeby především na reálném důchodu) - Formulace výchozí základní hypotézy či tvrzení o chování ekonomických veličin (spotřeba roste pomaleji než důchod) Vymezení matematického modelu: Jednorovnicový lineární model: 𝐶𝑖 = 𝛽1 + 𝛽2 ∙ 𝑌𝑖, 𝑖 = 1,2, … , 𝑛 , Kde 𝛽1 je regresní parametr úrovňové konstanty a 𝛽2 je regresní parametr sklonu, který se očekává 0 < 𝛽2 < 1. Formulace stochastického ekonometrického modelu: Předpokládá zavedení náhodné složky ui do rovnice: 𝐶𝑖 = 𝛽1 + 𝛽2 ∙ 𝑌𝑖 + 𝑢𝑖, 𝑖 = 1,2, … , 𝑛 , přičemž se předpokládá, že náhodná složka bude mít normální rozdělení s střední hodnostou nula, konstantním rozptylem, a nebude sériově závislá na svých zpožděných hodnotách. Y (příjem vKč) C (spotřeba v Kč) 1 46 995 33 907 2 46 644 34 717 3 46 295 34 363 4 46 847 35 365 5 48 695 35 799 6 49 887 36 722 7 50 801 37 993 8 52 631 40 389 9 54 906 40 750 10 58 410 41 826 11 62 493 43 496 12 66 326 45 079 13 67 850 46 323 14 65 124 46 636 15 66 550 46 662 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 59 Řešení: Prezentujeme zde řešení pomocí programu GRETL. Nejprve do programu zadáme obě proměnné (C spotřeba domácností, Y příjem domácností). V hlavním menu vybereme MODEL→Ordinary Least Squares a objeví se následující dialogové okno, kde doplníme C jako závislou proměnnou, a Y jako regresor, tzn. nezávislou proměnou, jak ukazuje Obrázek 15. Obrázek 15: Dialogové okno – specifikace modelu Po potvrzení dostáváme výsledek, který zachycuje Obrázek 16. Z toho vidíme, že regresní koeficient b2 = 0,568 je statisticky významný na hladině významnosti 0,01 (p-hodnota je menší než 0,05), rovnice modelu je 𝐶 = 8539,27 + 0,568 ∙ 𝑌, koeficient determinace 𝑅2 = 0,96. Predikce pro Y = 55 je C = 8539,27 + 0,568.55000 = 39 779 Kč. Regresní analýza – jednorozměrná lineární regrese 60 Obrázek 16: Odhad koeficientů metodou nejmenších čtverců Dále ověříme předpoklady modelu: heteroskedasticitu, normalitu a autokorelaci reziduí. Pro testování heteroskedasticity vybereme ve výstupu modelu záložku TESTY→Heteroskedasticita→Whiteův test. A dostaneme výsledek, který zachycuje Obrázek 17. Obrázek 17: Test heteroskedasticity Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 61 Vyhodnocení testu hetrosdedaticity provedeme na základě vypočtené p-hodnoty. Testuje se nulová hypotéza H0: homoskedasticita reziduí (tj. konstantní rozptyl reziduí), opoti alternativní hypotéze H1: heteroskedasticita reziduí. P-hodnota = 0,678 je větší než zvolené α = 0,05; proto H0 nelze zamítnout, nebylo tedy prokázáno, že by rezidua neměla konstantní rozptyl. Pro testování normality vybereme ve výstupu modelu záložku TESTY→Normalita reziduí. A dostaneme výsledek, který zachycuje Obrázek 18. Vyhodnocení provedeného testu normality je pravděpodobně nejsnazší odvodit z průběhu grafu předpokládaného normálního rozdělení v porovnání se skutečným rozdělením reziduí a analýzou p-hodnoty Chíkvadrát testu. Testuje se nulová hypotéza H0: Rezidua mají normální rozdělení, oproti H1: Rezidua nemají normální rozdělení. P-hodnota = 0,5387 je větší než zvolené α = 0,05; proto H0 nelze zamítnout, nebylo tedy prokázáno, že by rezidua neměla normální rozdělení. Obrázek 18: Test normality Pokud chceme pomocí programu GRETL testovat autokorelaci, musíme vstupní data uložit jako časovou řadu. Testuje se, zda je ut závislé na ut-1. Vybereme ve výstupu modelu záložku TESTY→Autokorelace. A dostaneme výsledek, který zachycuje Obrázek 19. Regresní analýza – jednorozměrná lineární regrese 62 Obrázek 19: Test autokorelace Testuje se nulová hypotéza H0: Rezidua nejsou autokorelována, oproti H1: Rezidua jsou autokorelována. P-hodnota = 0,14 je větší než zvolené α = 0,05; proto H0 nelze zamítnout, nebylo tedy prokázáno, že by rezidua byla autokorelována. SAMOSTATNÉ ÚKOLY 3.1 Personální ředitel firmy shromáždil údaje o věku (X) a době pracovní neschopnosti (Y) dvaceti náhodně vybraných stálých zaměstnanců. Zjištěné údaje jsou zaznamenány v ta- bulce. X Y X Y 20 4 58 20 35 14 46 13 35 15 43 16 34 10 33 10 32 10 29 10 28 9 36 11 25 12 48 14 46 15 55 15 38 15 36 14 50 16 19 6 Načrtněte bodový graf a najděte rovnici regresní funkce vyjadřující danou závislost. Zhodnoťte výstižnost (přiléhavost) regresní funkce vzhledem k datům. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 63 3.2 Bylo sledováno, jak souvisí množství vadných výrobků (v % z vyrobených výrobků) s výkonem soustružníka (v % z předepsané normy). Bylo vybráno deset pracovníků, naměřené údaje jsou uvedeny v tabulce. Výkon 56 68 72 85 92 102 107 111 123 142 Vadné výrobky 5,2 3,9 3,5 2,4 2,04 2 2,2 2,24 2,4 2,51 Stanovte regresní model a určete přiléhavost regresní přímky k datům. 3.3 Tabulka zachycuje stáří (v letech) osmi vybraných strojů v potravinářském závodě a týdenní náklady (v Kč) na provoz těchto strojů. Stáří stroje 1 2 3 4 5 6 7 8 Náklady 44 52 61 80 94 108 111 116 a. Odhadněte parametry lineární regresní funkce, která by měla vystihovat průběh závislosti nákladů na stáří. b. Určete koeficient determinace R2 a interpretujte jej. c. Jaké týdenní náklady můžeme očekávat u stroje starého 4 roky? ODPOVĚDI 3.1 3.2 𝑌 = −0,0285𝑥 + 5,56 ; 𝑅2 = 0,53. 3.3 a) 𝑌 = 32,14 + 11,36𝑥 b) 𝑅2 = 0,97 tzn. modelem je vysvětleno 97 % celkové variability. c) 𝑌(4) = 32,14 + 11,36.4 = 77,58 𝐾č. y = 0,2964x + 1,3941 R² = 0,7287 0 5 10 15 20 25 0 10 20 30 40 50 60 70 Regresní analýza – jednorozměrná lineární regrese 64 SHRNUTÍ KAPITOLY Tato kapitola se zabývala jednoduchou regresní analýzou, byl zde formulován model jednoduché lineární regresní analýzy. Dále zde byla vysvětlena metoda nejmenších čtverců k nalezení „nejlepších“ hodnot regresních koeficientů v regresním modelu. Míra přiléhavosti dat k regresní křivce byla stanovena pomocí koeficientu determinace a jeho odmocniny – koeficientu korelace. Nakonec jste se seznámili s tzv. klasickým jednoduchým regresním modelem, který stanovuje 3 základní podmínky, kterým by měl vyhovovat regresní model vzhledem k existujícím datům. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 65 4 REGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ: INTERVALY SPOLEHLIVOSTI, TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE RYCHLÝ NÁHLED KAPITOLY Tato kapitola vám rozšíří znalosti v jednorozměrné regresní analýze. Za předpokladů jednorozměrného klasického regresního modelu se budete zabývat stanovením intervalů spolehlivosti a dále testy hypotéz regresních koeficientů a testem nulovosti koeficientu determinace. Další odstavce se zabývají jednorozměrnou nelineární regresí. Nejprve budou vyšetřovány regresní funkce, které lze s pomocí vhodné transformace převést na funkce lineární dále parabolická regresní funkce, a nakonec nelineární regresní funkce tzv. Tornquiustova typu. Pro výpočet parametrů těchto funkcí, jež mají uplatnění především v marketingu, poznáte novu metodu tzv. metodu vybraných bodů. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: stanovit intervaly spolehlivosti pro regresní koeficienty, testovat statistickou významnost regresních koeficientů, testovat koeficient determinace a transformovat funkci na funkci lineární. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Intervaly spolehlivosti, testování regresních koeficientů, test koeficientu determinace. Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 66 4.1 Intervaly spolehlivosti Jsou-li splněny předpoklady klasického lineárního modelu (3.9), tj. modelu yi = 𝛽0 + 𝛽1 𝑥𝑖 + i, i = 1,2, ..., n, potom pro rozdělení odhadů regresních koeficientů 10 bb , jakožto náhodných veličin platí toto: Regresní koeficient bj má normální rozdělení pravděpodobnosti se střední hodnotou j a rozptylem 2 hj, kde j = 0 nebo 1, čísla hj jsou definována následujícími vztahy: ( )   − = 22 2 0 ii i xxn x h , (4.1) ( ) − = 221 ii xxn n h . (4.2) V klasickém lineárním modelu předpokládáme, že náhodné složky mají konstantní rozptyl 2 , jeho hodnotu však neznáme. Neznámý rozptyl 2 můžeme nahradit jeho bodovým odhadem 2 2 − = n S s R R , (4.3) který nazýváme reziduální rozptyl. Jak je vidět, v reziduálním rozptylu vystupuje v čitateli reziduální součet čtverců (3.16) dělený číslem n–2, což je počet stupňů volnosti, tj. rozsah dat n mínus počet regresních parametrů v modelu: 2. Odmocninu reziduálního rozptylu sR nazýváme směrodatná chyba. Oboustranný interval spolehlivosti pro regresní koeficient bj, při zadaném koeficientu spolehlivosti (1 - ), je následující interval: [bj – t1-/2(n-2) jR hs , bj + t1-/2(n-2) jR hs ], j = 0 nebo 1. (4.4) Připomínáme, že zde t1-/2(n–2) je příslušný kvantil Studentova t-rozdělení, podrobnosti, viz Ramík (2003), hj jsou dány vztahy (4.1), (4.2). Bodový odhad regresních koeficientů bj neříká nic o eventuální variabilitě tohoto koeficientu. Tuto informaci doplňuje směrodatná chyba (4.3) a zejména interval spolehlivosti (4.4), který informuje, v jakém rozmezí se regresní koeficient může pohybovat v rámci zadané spolehlivosti. Odhadnutý lineární regresní model (3.1), který má tvar y = b0 + b1x + e, (4.5) resp. regresní funkce Y = b0 + b1x, (4.6) má praktický význam zejména při odhadu chování modelu v případě, že nezávisle proměnná nabývá nějakou v datech se nevyskytující hodnotu, označme ji např. x0. Model (4.5), Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 67 resp. regresní funkce (4.6), pak slouží k předpovědi (predikci, prognóze, extrapolaci) hodnoty závisle proměnné. Bodový odhad předpovědi získáme dosazením x0 do (4.5), resp. (4.6), neboť predikovaná hodnota chyby (rezidua) e je 0, tedy Y0 = b0 + b1x0. (4.7) Informaci o tom, v jakém rozmezí se predikovaná hodnota závisle proměnné y může pohybovat, poskytne oboustranný interval spolehlivosti: [Y0 – t1-/2(n-2) HsR , Y0 + t1-/2(n-2) HsR ], (4.8) kde ( ) ( )         − − ++=    22 2 0 1 1 1 ii i xxn xnx n H . Ostatní symboly v (4.8) mají stejný význam, jako v intervalu (4.4). 4.2 Testy hypotéz Metodou nejmenších čtverců lze zjistit, zda regresní koeficienty bj jsou nenulová čísla, musíme mít však stále na paměti, že se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda naše původní parametry j jsou přesto nulové. Za předpokladů klasického lineárního modelu je možno testovat nulovou hypotézu: H0: j = 0, j = 0 nebo 1 (4.9) proti oboustranné alternativní hypotéze H1: j  0, j = 0 nebo 1. (4.10) Při tomto testu použijeme testové kritérium j R j h n S b T 2− = , (4.11) které má při platnosti H0 t-rozdělení s n–2 stupni volnosti, SR je reziduální součet čtverců, hj je dáno vztahy (4.1), (4.2), přičemž j = 0 nebo 1. Na hladině významnosti  (viz Ramík (2003)) je kritický obor vymezen nerovností T > )2(2/1 −− nt  , kde )2(2/1 −− nt  je příslušný kvantil Studentova t-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. Přijmete-li např. na dané hladině významnosti  nulovou hypotézu H0: 1 = 0, pak to znamená, že y nezávisí na x, jinak řečeno, pro libovolnou hodnotu nezávisle proměnné x nabývá závisle proměnná y neustále stejné hodnoty 𝛽0. Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 68 Vypočítaná hodnota koeficientu determinace je prakticky vždy kladná. Musíme však mít stále na paměti, že u hodnot vstupujících do výpočtu koeficientu determinace se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda teoretický koeficient determinace R2 není přesto nulový. Za předpokladů klasického lineárního modelu je možno testovat nulovou hypotézu: H0: R2 = 0, proti oboustranné alternativní hypotéze H1: R2  0. Při tomto testu použijeme testové kritérium 2 2 1 )2( R nR T − − = , (4.11*) které má při platnosti H0 t-rozdělení, n–2 stupňů volnosti, R2 je vypočítaný koeficient de- terminace. Na hladině významnosti  je kritický obor vymezen nerovností T > 𝑡1−𝛼(𝑛 − 2), (viz Ramík (2003)), kde 𝑡1−𝛼(𝑛 − 2) je příslušný kvantil Studentova t-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. 4.3 Nelineární regresní analýza V tomto odstavci si povšimneme jednoduchého regresního modelu s nelineární regresní funkcí, který se však dá pouhou substitucí na lineární model převést. Konkrétně se jedná o dvě regresní funkce zmíněné již v kapitole 3: regresní mocninná funkce: 𝑓(𝑥) = 𝛽0 𝑥 𝛽1, (4.12) regresní exponenciální funkce: 𝑓(𝑥) = 𝛽0 𝛽1 𝑥 . (4.13) Regresní model s regresní funkcí (4.12) má tvar: 𝑦 = 𝛽0 𝑥 𝛽1 + 𝜀, (4.14) avšak namísto něj uvažujeme model, jež vznikne logaritmováním (4.12), kde položíme 𝑦 = 𝑓(𝑥), tj. 𝑙𝑛 𝑦 = 𝑙𝑛𝛽0 + 𝛽1 𝑙𝑛 𝑥 + 𝜀′ , přitom ln označuje přirozený logaritmus o základu e = 2,718... Jestliže nyní položíte substituce 𝑦′ = 𝑙𝑛 𝑦, 𝑥′ = 𝑙𝑛 𝑥, (4.15) 𝛽′ 0 = 𝑙𝑛𝛽0, 𝛽′ 1 = 𝛽1, (4.16) pro transformaci (4.15) původních dat yi, xi, obdržíte „čárkovaný“ jednoduchý lineární regresní model 𝑦′ = 𝛽′ 0 + 𝛽′ 1 𝑥′ + 𝜀′ , (4.17) jehož parametry 𝛽′ 0 , 𝛽′ 1 (regresní koeficienty) lze odhadnout metodou nejmenších čtverců aplikovanou na lineární model (4.17), a obdržíte tak jejich odhady 𝑏′ 0, 𝑏′ 1. S použitím Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 69 vztahů (4.15) a (4.16) dostanete nazpět odhady 𝑏0, 𝑏1 původního nelineárního regresního modelu (4.12): 𝑏0 = 𝑒 𝑏′ 0, 𝑏1 = 𝑏′ 1. Analogickým postupem lze linearizovat jednoduchý nelineární regresní model s exponenciální regresní funkcí (4.13), která je v ekonomii známa jako Cobb-Douglasova jednofaktorová produkční funkce: 𝑦 = 𝛽0 𝛽1 𝑥 + 𝜀, (4.18) který substitucemi 𝑦′ = 𝑙𝑛 𝑦, 𝑥′ = 𝑥, (4.19) 𝛽′ 0 = 𝑙𝑛𝛽0, 𝛽′ 1 = 𝑙𝑛𝛽1, (4.20) lze rovněž transformovat na „čárkovaný“ lineární model (4.17), jehož parametry 𝛽′ 0 , 𝛽′ 1 odhadneme metodou nejmenších čtverců, a obdržíme tak jejich odhady 𝑏′ 0, 𝑏′ 1. S použitím vztahů (4.20) vypočteme nazpět odhady 𝑏0, 𝑏1 původního nelineárního regresního modelu (4.18): 𝑏0 = 𝑒 𝑏′ 0,𝑏1 = 𝑒 𝑏′ 1. (4.21) Je však třeba upozornit, že na intervalové odhady, resp. testy hypotéz, regresních koeficientů 10 bb  , lze použít postup z počátku této kapitoly pouze tehdy, když transformovaná, tj. „čárkovaná“ data 𝑦′ 𝑖 , 𝑥′ 𝑖, splňují podmínky klasického regresního modelu z kapitoly 3. Meze intervalových odhadů, tedy krajní body intervalů spolehlivosti pak vypočítáme s použitím zpětných transformací (4.21). Dalšími užitečnými nelineárními regresními funkcemi s uplatněním především v marketingu a výzkumu trhu (logistické funkce, Gompertzovy funkce, aj.) se budete zabývat v kapitole věnované analýze časových řad. Tam se budete zabývat i problémem výběru vhodného typu regresní funkce. V následujících odstavcích se ještě věnujeme známé parabolické regresní funkci a dále Törnquistovým funkcím, které nelze převést jednoduše na lineární tvar, jak tomu bylo v tomto odstavci. 4.4 Parabolická regrese V kapitole 3.1. jsme označili parabolickou regresní funkci (3.4) za regresní funkci, kterou lze substitucí 𝑥′ = 𝑥2 převést na lineární tvar. V tomto případě se však jednalo pouze o speciální tvar paraboly (s vrcholem na ose y) se dvěma parametry. Obecný tvar paraboly však má parametry tři a vypadá takto: 𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥 + 𝛽2 𝑥2 . (4.22) Jednoduchý regresní model s parabolickou regresní funkcí pak má tvar 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝛽2 𝑥2 + 𝜀. (4.23) Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 70 Máme-li tedy k dispozici data, tj, dvojice hodnot (y1, x1), (y2, x2), (y3, x3), …, (yn, xn), pak lze odhady 𝑏0, 𝑏1, 𝑏2 regresních parametrů 𝛽0, 𝛽1, 𝛽2 získat metodou nejmenších čtverců, přičemž je zapotřebí řešit soustavu 3 normálních rovnic o 3 neznámých:   ++= 2 210 iii xbxbnby , (4.24)    ++= 3 2 2 10 iiiii xbxbxbxy ,    ++= 4 2 3 1 2 0 2 iiiii xbxbxbxy . Uvědomte si, že neznámé jsou v této soustavě rovnic 𝑏0, 𝑏1, 𝑏2, zatímco yi, xi jsou známé hodnoty, které se dosadí do sum  v soustavě (4.24). Tuto soustavu 3 lineárních rovnic o 3 neznámých je snadné vyřešit např. známou Gaussovou eliminační metodou. 4.5 Törnqvistovy funkce Zejména v marketingu se využívají Törnqvistovy regresní funkce (též Törnqvistovy křivky), což jsou regresní funkce s více parametry, které podle použití rozdělujeme na tři typy: Törnqvistovy křivky I. typu vyjadřují závislosti poptávky po spotřebním zboží )( xf na výši příjmů x ekonomických subjektů (např. rodin). Tyto křivky mají tvar: 1 0 )(   + = x x xf . (4.25) Křivky tohoto typu se používají například při plánování a prognózování ve spotřebním průmyslu. Regresní funkce (4.25) slouží k modelování poptávky po zboží nezbytného charakteru (mléko, pečivo, obuv apod.). Při modelování poptávky po zboží relativně nezbytného charakteru (elektrospotřebiče, maso a uzeniny apod.) se používají Törnqvistovy křivky II. typu, které mají tvar: 2 10 )( )(   + − = x x xf . (4.26) Törnqvistovy křivky III. typu se používají při modelování poptávky po zboží zbytného charakteru (auta, šperky, umělecká díla apod.). Tyto regresní funkce se třemi parametry mají tvar: 2 10 )( )(   + − = x xx xf . (4.27) Odhady regresních parametrů funkcí (4.25) - (4.27) lze získat opět metodou nejmenších čtverců, avšak s použitím PC a Excelu, neboť soustava 3 normálních rovnic o 3 neznámých je nelineární, a proto se k řešení používají iterační numerické metody. Pro ruční výpočet můžeme alternativně využít i metodu vybraných bodů. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 71 Obrázek 20: Törnqvistova křivka I. typu, 1=== 210 βββ Obrázek 21: Törnqvistova křivka II. typu, 1=== 210 βββ Obrázek 22: Törnqvistova křivka III. typu, 1=== 210 βββ 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 2 4 6 8 10 12 f(x) x 0 0,2 0,4 0,6 0,8 1 0 2 4 6 8 10 12 f(x) x 0 0,2 0,4 0,6 0,8 1 0 2 4 6 8 10 12 f(x) x Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 72 4.6 Metoda vybraných bodů Ukážeme si zde jinou metodu výpočtu neznámých parametrů, která sice nevede z teoretického pohledu k nejlepším odhadům, avšak její výhoda spočívá ve výpočetní nenáročnosti umožňující „ruční“ výpočet. Tato metoda se nazývá metoda vybraných bodů a spočívá v tom, že z daných údajů (Yi, xi) vybereme 3 charakteristické hodnoty, kterými necháme Törnquistovu křivku procházet, jinými slovy, položíme empirické hodnoty rovny hodnotám teoretickým. Jestliže charakteristické hodnoty poptávky 𝑌1, 𝑌2, 𝑌3 odpovídají hodnotám výše příjmů 321 xxx ,, , pak ze vztahu (4.26) obdržíte soustavu 3 rovnic o 3 neznámých 𝑏0, 𝑏1, 𝑏2: 21 110 1 )( bx bxb Y + − = , 22 120 2 )( bx bxb Y + − = , 23 130 3 )( bx bxb Y + − = , (4.28) jejichž řešením např. postupným dosazováním získáme odhady neznámých parametrů 𝑏0, 𝑏1, 𝑏2. ŘEŠENÁ ÚLOHA 4.1 Data v tabulce představují ceny brožovaných knih a k nim příslušné počty jejich stran. a. Určete lineární regresní model popisující závislost ceny knih na počtu stran. b. Určete interval, ve kterém bude s pravděpodobností 95 % ležet regresní koeficient b1. c. Na hladině významnosti 5 % testujte, zda je regresní koeficient b1 statisticky významný. d. Vypočtěte koeficient determinace a na hladině významnosti 5 % testujte, zda je statisticky významný. e. V jakém rozmezí se bude pohybovat cena knihy s 250 stranami? Uvažujte hladinu významnosti 0,01. Měření č. 1 2 3 4 5 6 7 Počet stran 20 35 48 50 130 200 86 Cena knihy 40 50 70 106 118 179 100 Řešení: a. Koeficienty regresní přímky Y = b0 + b1x určíte pomocí vztahů (3.13): 70,0 51,3495 73,2436 29,8157,10103 71,9429,8171,10135 2221 == − − = − − = xx yxyx b 𝑏0 = 𝑦̄ − 𝑏1 ⋅ 𝑥̄ = 94,71 − 0,7 ⋅ 81,29 = 37,81. Hledaná regresní přímka má tvar Y = 37,81 + 0,7x. b. Úkolem je najít 95 % oboustranný interval spolehlivosti pro koeficient b1. Obecný tvar tohoto intervalu je následující (viz (4.4)): [b1 – t1-/2(n–2) 1hsR , b1 + t1-/2(n–2) 1hsR ], Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 73 kde sR je odmocnina z reziduálního rozptylu 2 2 − = n S s R R , h1 je definováno vztahem (4.2). i xi yi xi 2 xiyi Yi ( )y Yi i− 2 ( )y yi − 2 1 20 40 400 800 51,81 139,48 2993,18 2 35 50 1225 1750 62,31 151,54 1998,98 3 48 70 2304 3360 71,41 1,99 610,58 4 50 106 2500 5300 72,81 1101,58 127,46 5 130 118 16900 15340 128,81 116,86 542,42 6 200 179 40000 35800 177,81 1,42 7104,80 7 86 100 7396 8600 98,01 3,96 27,98 Součet 569 663 70725 70950 1516,83 13405,43 Průměr 81,29 94,71 10103,57 10135,7 Nejprve se vypočítá reziduální součet čtverců SR (v tabulce výpočtů je to hodnota v předposledním sloupci dole): 83,1516)( 7 1 2 =−= =i iiR YyS . Teoretické hodnoty Yi obdržíme postupným dosazováním hodnot xi do rovnice regresní přímky. Hodnoty Yi, jednotliví sčítanci i součet SR jsou uvedeni v tabulce. Nyní můžeme vypočítat hodnotu reziduálního rozptylu 𝑠 𝑅 2 . .37,303 27 83,15162 = − =Rs Potom 𝑠 𝑅 = √𝑠 𝑅 2 = √303,37 = 17,42. Dále stanovíme hodnotu h1. ( ) .00004,0 171314 7 569707257 7 2221 == − = − =   ii xxn n h V tabulkách Studentova rozdělení nalezneme (1 − /2) = 97,5 % kvantil t-rozdělení o n−2 = 7 − 2 = 5 stupních volnosti, tj. 𝑡0,975(5) = 2,57. Dosazením výše vypočítaných hodnot do vztahu pro interval spolehlivosti určíme jeho pravou a levou stranu: 42,000004,042,1757,27,0 =−=L . 98,000004,042,1757,27,0 =+=P . Regresní koeficient b1 bude s 95 % pravděpodobností ležet v intervalu [0,42; 0,98]. c. Ačkoliv je hodnota koeficientu b1= 0,7, nesmíte zapomínat na to, že pracujete s náhodným výběrem a že teoretická hodnota parametru 1 přesto může být nulová. Bude se proto testovat nulová hypotéza H0: 1 = 0 proti oboustranné alternativní hypotéze H1: 1  0. K ověření nulové hypotézy vypočítáme hodnotu testového kritéria (4.11) . 1 1 2 h n S b T R − = 35,6 11,0 7,0 00004,0 27 8,1516 7,0 ==  − = . Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 74 V tabulkách t-rozdělení nalezneme t0,975(5) = 2,57. Protože 6,35> 2,57, zamítáme nulovou hypotézu ve prospěch hypotézy alternativní, což znamená, že na zvolené hladině významnosti je parametr 1 nenulový, a tedy statisticky významný. d. Koeficient determinace R2 vypočítáme podle vztahu 89,0 43,13405 83,1516 112 =−=−= y R S S R . Testové kritérium stanovíte podle vztahu (4.11*) 35,6 89,01 5.89,0 1 )2( 2 2 = − = − − = R nR T . Protože 6,35> 2,57, zamítá se nulová hypotéza ve prospěch hypotézy alternativní, což znamená, že na zvolené hladině významnosti je koeficient determinace R2 nenulový, a tedy statisticky významný. e. Určete 99 % interval spolehlivosti pro predikovanou hodnotu Y, je-li x0 = 250. Podle (4.8) je tvar tohoto intervalu [Y0 – t1-/2(n–2) HsR , Y0 + t1-/2(n–2) HsR ], kde Y0 = b0 + b1x = 37,81 + 0,7 250 = 212,81 t1-/2(n − 2) = 4,032 sR = 17,42 ( ) ( ) ( ) =      ++=      − − ++=         − − ++=   171314 1394761 1 7 1 1 569707257 5692507 1 7 1 11 1 1 2 2 22 2 0 ii i xxn xnx n H 31,214,9 7 1 1 =+= . Meze hledaného intervalu jsou: .06,10631,242,17032,481,212 =−=L .56,31931,242,17032,481,212 =+=P Cena knihy se bude s 99 % pravděpodobností pohybovat v intervalu [106,06;319,56]. Nakonec si ukážeme řešení pomocí Excelu. Na tomto místě to bude další možnost řešení úlohy jednoduché (i vícenásobné) regrese s využitím menu: Data → Analýza dat... → Regrese. Data jsou uspořádána ve worksheetu ve 2 sloupcích: Otevře se okno regrese, které vyplníte takto: A B C 1 Počet stran Cena knihy 2 20 40 3 35 50 4 48 70 5 50 106 6 130 118 7 200 179 8 86 100 9 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 75 V první části výstupu jsou popisky s nepřesnými překlady do češtiny, správně má být: V této části výstupu je důležitá druhá hodnota – koeficient determinace R2 = 0,887, který odpovídá ručně získanému výsledku z části d. Druhá tabulka ve výstupu – ANOVA není v pravém slova smyslu metoda ANOVA, jak jsme se jí zabývali v kapitolách 1 a 2, jde tu o analogii využívající podobnosti vztahů (1.5) a (3.17). Analogicky jako v metodě ANOVA je zde výsledek F-testu statistické významnosti celého regresního modelu: Významnost F = 0,001525. Tato hodnota je menší než 0,05 a proto je celý regresní model statisticky významný. Ve třetí – poslední tabulce jsou uvedeny relevantní informace k vypočítanému regresnímu modelu. Nejprve jsou uvedeny odhady regresních koeficientů: Hranice = úrovňová konstanta = b0 Počet stran = sklon regresní přímky = koeficient u nezávisle proměnné „počet stran“ = b1 Ve sloupci Hodnota P jsou uvedeny p-hodnoty (signifikance) testů nulovosti příslušných regresních koeficientů: Pro regresní koeficient b0 je tato hodnota 0,019<0,05; b0 je statisticky významný tj. 0  0. Pro regresní koeficient b1je tato hodnota 0,002<0,05; b1 je statisticky významný tj. 1  0. VÝSLEDEK Regresní statistika Násobné R 0,942 Hodnota spolehlivosti R 0,887 Nastavená hodnota spolehlivosti R 0,864 Chyba stř. hodnoty 17,416 Pozorování 7 ANOVA Rozdíl SS MS F Významnost F Regrese 1 11888,84 11888,84 39,19608 0,001525 Rezidua 5 1516,586 303,3172 Celkem 6 13405,43 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Dolní 99,0% Horní 99,0% Hranice 38,059 11,19022 3,401 0,019 9,294 66,825 -7,061 83,180 Počet stran 0,697 0,111327 6,261 0,002 0,411 0,983 0,248 1,146 Násobné R = R - koeficient korelace Hodnota spolehlivosti R = R2 - koeficient determinace Nastavená hodnota spolehlivosti R = R2 adj - upravený koeficient determinace Chyba stř. hodnoty = s2 - směrodatná chyba (odhad směrodatné odchylky náhod. složky) Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 76 Intervaly spolehlivosti regresních koeficientů jsou uvedeny ve sloupcích: Dolní 95 %, Horní 95 %, resp. Dolní 99,0 %, Horní 99,0 %. Konkrétně 95 % interval spolehlivosti koeficientu 1 je [0,411; 0,983], což je stejný výsledek, jaký jsme obdrželi předtím ručním výpočtem. ŘEŠENÁ ÚLOHA 4.2 Při sledování závislosti vlastních nákladů na skladování zahrnující i ztráty způsobené zastavením výroby z nedostatku součástek (Y) na velikosti dodávek (X) v 18 obuvnických závodech jsme obdrželi následující údaje - viz. tabulka. a. Nalezněte regresní funkci popisující závislost Y na X a určete její rovnici. b. Stanovte optimální velikost dodávky. Řešení: a. Jak z průběhu bodového diagramu, tak i rozboru empirických údajů plyne, že závislost mezi velikostí dodávek a náklady na skladování dobře vystihuje parabolická regresní funkce f(x) = 0 +1x +2x2 . Náklady na skladování mají zpočátku klesající tendenci, malá dodávka způsobuje vysoké náklady na převzetí připadající na jednu součástku a způsobuje výpadky ve výrobě. Tuto tendenci později vystřídá vzestup – příliš velká dodávka zvyšuje stav zásob, prodlužuje skladovací dobu a vyvolává nutnost úvěrového krytí – viz Obrázek 23. Odhady hodnot parametrů parabolické regrese obdržíme řešením soustavy normálních rovnic  ++= i i i i i i xbxbnby 2 210  ++= i i i i i ii i i xbxbxbxy 3 2 2 10  ++= i i i i i ii i i xbxbxbxy 4 2 3 1 2 0 2 . Obrázek 23: Parabolická regrese Podnik 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Dodávka 28 32 35 40 42 45 49 51 53 56 57 60 61 64 69 72 75 77 Náklady 62 59 58 53 50 46 44 42 40 41 38 35 36 36 38 40 42 46 Regresní parabola y = 0,0227x2 - 2,8479x + 127,71 R2 = 0,939 0 10 20 30 40 50 60 70 0 20 40 60 80 100 Náklady Polynomický (Náklady) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 77 Dosazením hodnot ze součtového řádku tabulky do těchto rovnic dostaneme: 806 = 18𝑏0 + 966𝑏1 + 55534𝑏2 41618 = 966𝑏0 + 55534𝑏1 + 3372084𝑏2 2330182 = 55534𝑏0 + 3372084𝑏1 + 213664858𝑏2. Řešením této soustavy rovnic (např. Cramerovým pravidlem) získáme regresní koeficienty b0 = 127,71; b1 = – 2,8479; b2 = 0,0227. Hledaná parabola má tvar 𝑌 = 127,71 − 2,8479𝑥 + 0,0227𝑥2 . b. Optimální velikost objednávky zjistíme jako minimum funkce 𝑌 = 127,71 − 2,8479𝑥 + 0,0227𝑥2 tak, že položíme její první derivaci rovnu nule, tj. Y´= – 2,8479 + 0,0454x = 0, tudíž 762,=x . Optimální velikost dodávky je 62 nebo 63 kusů. Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte položku Typ trendu a rergrese: Polynomický (stupeň 2), Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Potvrdíte OK. i xi yi xi 2 xi 3 xi 4 xiyi x yi i 2 1 28 62 784 21952 614656 1736 48608 2 32 59 1024 32768 1048576 1888 60416 3 35 58 1225 42875 1500625 2030 71050 4 40 53 1600 64000 2560000 2120 84800 5 42 50 1764 74088 3111696 2100 88200 6 45 46 2025 91125 4100625 2070 93150 7 49 44 2401 117649 5764801 2156 105644 8 51 42 2601 132651 6765201 2142 109242 9 53 40 2809 148877 7890481 2120 112360 10 56 41 3136 175616 9834496 2296 128576 11 57 38 3249 185193 10556001 2166 123462 12 60 35 3600 216000 12960000 2100 126000 13 61 36 3721 226981 13845841 2196 133956 14 64 36 4096 262144 16777216 2304 147456 15 69 38 4761 328509 22667121 2622 180918 16 72 40 5184 373248 26873856 2880 207360 17 75 42 5625 421875 31640625 3150 236250 18 77 46 5929 456533 35153041 3542 272734 Součet 966 806 55534 3372084 213664858 41618 2330182 Obdržíte výsledek téměř takový, jaký je na následujícím obrázku. K původním bodům se zobrazí regresní parabola, dále rovnice regresní paraboly a hodnotu koeficientu determinace R2 . Výsledek je stejný, jako při ručním výpočtu, viz výše. Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 78 ŘEŠENÁ ÚLOHA 4.3 V jisté firmě zkoumali, jak závisí vlastní náklady na jednotku produkce (Y) na objemu produkce (X). Následující tabulka uvádí zjištěné údaje v různých obdobích. a. Najděte regresní hyperbolický model popisující danou závislost. b. Pomocí koeficientu determinace zhodnoťte přiléhavost regresní funkce k datům. Řešení: a. Dosadíte potřebné údaje do normálních rovnic, které získáte z hyperbolické regresní funkce (3.5) tak, že k nalezení minima součtu čtverců odchylek:        +−= 2 1010 ) 1 (),( i i x bbybbF se anulují parciální derivace, tj. 0 0 =   b F a 0 1 =   b F . Tím obdržíte následující normální rovnice:  += i i x bbny 1 10   += 210 11 iii i x b x b x y a obdržíme soustavu 2 rovnic o 2 neznámých 137131574 10 ,+= bb 1812 19 7 13 8 330 1, , , .=  + b b Řešením této soustavy získáte odhady regresních parametrů: b0 = 3,32; b1 = 214,71. Hledaná regresní hyperbola má tvar: 𝑌 = 3,32 + 214,71 𝑥 . b. Nejdříve vypočítáte teoretické hodnoty Yi postupným dosazením hodnot xi do rovnice regresní hyperboly 74,432 5,0 71,214 32,3 71,214 32,3 1 1 =+=+= x Y . Všechny hodnoty Yi jsou uvedeny v tabulce, viz níže. Dále vypočítáte součty ST, Sy .02,203722 )08,12158,24()08,12105,310()08,12174,432()( 222 13 1 2 = =−++−+−=−= =  i iT yYS 97,2060)08,12114()08,121297()08,121456()( 222 13 1 2 =−++−+−=−= =  i iy yyS . Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 79 i xi yi 1/xi 1/ xi 2 yi/xi Yi ( )Y yi − 2 ( )y yi − 2 1 0,5 456 2,00 4,00 912,00 432,74 97131,96 112171,41 2 0,7 297 1,43 2,04 424,29 310,05 35709,66 30947,85 3 0,9 206 1,11 1,23 228,89 241,89 14595,06 7211,41 4 1,4 165 0,71 0,51 117,86 156,68 1267,36 1928,97 5 1,9 118 0,53 0,28 62,11 116,33 22,56 9,49 6 3,2 79 0,31 0,10 24,69 70,42 2566,44 1770,73 7 4,2 57 0,24 0,06 13,57 54,44 4440,89 4106,25 8 4,8 54 0,21 0,04 11,25 48,05 5333,38 4499,73 9 6,9 40 0,14 0,02 5,80 34,44 7506,49 6573,97 10 7,9 35 0,13 0,02 4,43 30,50 8204,74 7409,77 11 8,8 30 0,11 0,01 3,41 27,72 8716,09 8295,57 12 9,2 23 0,11 0,01 2,50 26,66 8915,14 9619,69 13 10,1 14 0,10 0,01 1,39 24,58 9312,25 11466,13 Součet 60,5 1574 7,13 8,33 1812,19 203722,02 206010,97 Průměr 4,65 121,08 0,55 0,64 139,40 Hodnoty jednotlivých sčítanců i součtů ST, Sy jsou uvedeny v tabulce. Koeficient determinace R2 vypočítáte podle vztahu (3.18). 99,0 97,206011 02,2037222 === y T S S R . Hodnota koeficientu determinace 0,99 je vysoká, což znamená, že daným regresním modelem s vysvětlující proměnnou „objem produkce“ je vysvětleno 99 % variability znaku Y. Pouze 1 % chování proměnné Y je ovlivněno jinými faktory. ŘEŠENÁ ÚLOHA 4.4 Data v tabulce ukazují poptávku po určitém druhu zboží (v tis. ks) při různých cenách (v Kč). Popište závislost poptávky na ceně mocninnou regresní funkcí. Pozorování 1 2 3 4 5 6 Cena 8,5 40 92 180 200 250 Poptávka 200 140 80 45 42 18 Řešení: Úkolem je nalézt odhady parametrů 1, 0 regresní funkce 𝑌 = 𝛽0 𝑥 𝛽1. Použijete linearizující transformace, a to tak, že obě strany rovnice zlogaritmujete a použijete vhodnou substituci (viz odstavec 4.3), čímž získáte rovnici 𝑌′ = 𝛽′ 0 + 𝛽′ 1 𝑥′ , kde 𝑌′ = 𝑙𝑛𝑌, 𝑥′ = 𝑙𝑛𝑥, 𝛽′ 0 = 𝑙𝑛𝛽0, 𝛽′ 1 = 𝛽1, což je rovnice regresní přímky. Regresní koeficienty 𝑏′ 0, 𝑏′ 1 určíme pomocí známých vztahů takto: Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 80 6,0 43,1 86,0 39,439,47,20 18,439,449,17 22 1 −= − = − − = − − = xx yxyx b 8,6)39,46,0(18,410 =−−=−= xbyb . i x y x y  x y x 2 1 8,5 200 2,14 5,30 11,34 4,58 2 40 140 3,69 4,94 18,23 13,61 3 92 80 4,52 4,38 19,81 20,45 4 180 45 5,19 3,81 19,77 26,97 5 200 42 5,30 3,74 19,80 28,07 6 250 18 5,52 2,89 15,96 30,49 Průměr 4,39 4,18 17,49 20,70 Odhady b0, b1 původního modelu snadno vypočítáte zpětnou transformací 𝑏′ 1 = 𝑏1, 𝑏0 = 𝑒 𝑏′ 0. Proto bude 𝑏1 = −0,6 ; 𝑏0 = 897,85. Hledaná mocninná regresní funkce má tvar 𝑌 = 897,85 ⋅ 𝑥−0,6 . Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte položku Typ trendu a regrese: Mocninný, Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Obdržíte výsledek, jaký je na Obrázku 24. K původním bodům se zobrazí regresní mocninná funkce, dále její rovnice a hodnotu koeficientu determinace R2 . Výsledek je poněkud odlišný od výsledku, který jsme získali při ručním výpočtu, viz výše. Tato odlišnost je způsobena tím, že Excel počítá koeficienty přímo metodou nejmenších čtverců bez použití linearizace s logaritmickou transformací. Metoda použita Excelem je přesnější než metoda linearizace, a proto bychom ji dali při aplikaci přednost. Metoda linearizace je zase výpočetně jednodušší, je ji možno provést ručně, v době počítačů však tato výhoda ztrácí na významu. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 81 Obrázek 24: Mocninná regrese ŘEŠENÁ ÚLOHA 4.5 Tabulka uvádí stáří pletacích strojů (X) v letech a náklady na jejich údržbu (Y) v tis. Kč. Popište závislost Y na X exponenciální regresní funkcí. Řešení: Úkolem je nalézt odhady regresních parametrů exponenciální regresní funkce 𝑦 = 𝛽0 𝛽1 𝑥 . Pomocí logaritmické transformace převedeme tuto funkci na funkci lineární: lny = ln0 + xln1. Použitím substituce 1100 ln,ln,,ln´  ==== xxYy obdržíte regresní přímku 𝑦 ´ = 𝛽′ 0 + 𝛽′ 1 𝑥′ . Odhady parametrů 10   , této přímky určíme použitím známých vztahů 14,0 35,31 45,4 34,959,118 25,334,98,34 222 1 == − − = − − = xx yxyx b .94,1)34,914,0(25,310 =−=−= xbyb Regresní koeficienty původní funkce snadno vypočítáme zpětnou transformací: 𝑏0 = 𝑒 𝑏′ 0 = 6,96 ; 𝑏1 = 𝑒 𝑏′ 1 = 1,15. Hledaná exponenciální regresní funkce má tvar: 𝑦 = 6,96 ⋅ 1,15 𝑥 = 6,96 ⋅ 𝑒0,14𝑥 . Mocninná regrese y = 1005,9x-0,623 R2 = 0,8347 0 50 100 150 200 250 300 0 100 200 300 Poptávka Mocninný (Poptávka) Měření 1 2 3 4 5 6 7 8 9 10 11 12 Stáří 14 0,8 3 7,5 8,4 14,8 4,5 15,6 17,3 11,5 13,2 1,5 Náklady 47,5 8 10 17 22 76,4 12,5 76 94,5 25 30,6 12 Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 82 i x xi i=  yi yi  x yi i x 2 1 14 47,5 3,86 54,04 196,00 2 0,8 8 2,08 1,66 0,64 3 3 10 2,30 6,90 9,00 4 7,5 17 2,83 21,23 56,25 5 8,4 22 3,09 25,96 70,56 6 14,8 76,4 4,34 64,23 219,04 7 4,5 12,5 2,53 11,39 20,25 8 15,6 76 4,33 67,55 243,36 9 17,3 94,5 4,55 78,72 299,29 10 11,5 25 3,22 37,03 132,25 11 13,2 30,6 3,42 45,14 174,24 12 1,5 12 2,48 3,72 2,25 Průměr 9,34 3,25 34,80 118,59 Obrázek 25: Exponenciální regrese Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte položku Typ trendu a regrese: Exponenciální, Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Potvrdíte OK. Obdržíte výsledek, jaký je na Obrázku 25. K původním bodům se zobrazí regresní exponenciální funkce, dále její rovnice a hodnotu koeficientu determinace R2 . Výsledek je prakticky stejný jako výsledek, který jsme získali při ručním výpočtu, viz výše. SAMOSTATNÉ ÚKOLY 4.1 Tabulka zachycuje stáří (v letech) osmi vybraných strojů v potravinářském závodě a týdenní náklady (v Kč) na provoz těchto strojů. Exponenciální regrese y = 6,9473e0,1407x R2 = 0,9287 0 20 40 60 80 100 0 5 10 15 20 Náklady Exponenciální (Náklady) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 83 Stáří stroje 1 2 3 4 5 6 7 8 Náklady 44 52 61 80 94 108 111 116 a. Odhadněte parametry regresní funkce f(x)=0+1lnx, která by měla vystihovat průběh závislosti nákladů na stáří. b. Jaké týdenní náklady můžeme očekávat u stroje starého 4 roky? c. Určete koeficient determinace a interpretujte jej. 4.2 V tenisovém zápase má významný vliv na vítězství hráče úspěšnost jeho prvního podání. Data v tabulce představují počet úspěšných prvních podání (X) a počet vyhraných bodů při úspěšném prvním podání (Y) deseti vybraných hráčů z předních míst žebříčku ATP. X 31 42 39 41 50 38 33 49 37 46 Y 22 31 29 26 33 26 23 30 29 31 Zvolte nejprve lineární a potom parabolický typ regresní funkce popisující závislost Y na X. a. Určete regresní parametry obou zvolených regresních funkcí. b. Stanovte 95 % interval spolehlivosti pro regresní koeficient b1 u lineární regrese. c. Zhodnoťte výstižnost obou zvolených regresních funkcí. Která z nich lépe vystihuje data? 4.3 Ve výzkumu účinnosti léku se zkoumalo procento zlepšení účinnosti daného léku (Y) v závislosti na přidaném množství nové látky v mg (X). Zvolte exponenciální typ regresní funkce popisující závislost Y na X. X 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 Y 1,304 1,108 1,09 1,36 1,547 2,011 2,024 2,052 2,428 3,648 a. Určete regresní parametry exponenciální regresní funkce. b. Sestrojte graf regresní funkce. c. Zhodnoťte výstižnost exponenciální regresní funkce. ODPOVĚDI 4.1 a) 𝑌 = 32,29 + 38,44 ⋅ 𝑙𝑛 𝑥 b) 𝑌(4) = 32,29 + 38,44 ⋅ 𝑙𝑛 4 = 85,58𝐾č c) 𝑅2 = 0,92 4.2 lineární regresní funkce kvadratická regresní funkce a) 𝑌 = 7,95 + 0,49𝑥 𝑌 = −25,94 + 2,19𝑥 − 0,02𝑥2 b) 𝑏1 ∈ ⟨0,26 ; 0,73⟩ c) 𝑅2 = 0,75 𝑅2 = 0,79 Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 84 Model lépe vystihuje kvadratická regresní funkce. 4.3 Rovnice exponenciální regresní funkce a koeficient determinace je v následujícím grafu. SHRNUTÍ KAPITOLY Tato kapitola přinesla rozšíření znalostí v jednorozměrné regresní analýze. Kapitola se zabývala stanovením intervalů spolehlivosti, testováním hypotéz regresních koeficientů a testem nulovosti koeficientu determinace. Dále zde byla představena jednorozměrná nelineární regrese. Byly zde vyšetřovány regresní funkce, které lze s pomocí vhodné transformace převést na funkce lineární, dále parabolická regresní funkce, a nakonec nelineární regresní funkce tzv. Tornqviustova typu. V této kapitole jste se seznámili s tzv. metodou vybraných bodů. y = 0,8083e0,2348x R² = 0,8677 0 0,5 1 1,5 2 2,5 3 3,5 4 0 1 2 3 4 5 6 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 85 5 REGRESNÍ ANALÝZA – VÍCEROZMĚRNÁ RYCHLÝ NÁHLED KAPITOLY V této kapitole navážete na jednoduchou regresi vyšetřovanou v předchozí kapitole. Nyní budeme předpokládat, že vysvětlovaná proměnná závisí na několika (více než jedné) vysvětlujících proměnných. Vícenásobný lineární regresní model je zobecněním jednoduchého lineárního regresního modelu. Lineární regresní model bude rozšířen na vícenásobný regresní model lineární v parametrech, který předpokládá lineární vztah pouze v regresních koeficientech, nikoliv nutně v nezávisle proměnných. Odhady regresních koeficientů se stanoví opět metodou nejmenších čtverců, přitom lze využít maticové symboliky, která usnadňuje práci s vektory a maticemi. Podobně jako v případě jednoduché regrese budou formulovány předpoklady klasického regresního modelu, přičemž obdržíte analogické výsledky pro intervaly spolehlivosti regresních koeficientů a odpovídající testy hypotéz jako v případě jednoduché regrese. Nejprve budeme předpokládat, že vysvětlovaná proměnná Y závisí na několika vysvětlujících proměnných X1, X2, ..., Xk. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: napsat rovnici vícenásobného regresního modelu, vypočítat odhady regresních koeficientů pomocí maticové symboliky, vypočítat odhady regresních koeficientů v EXCELU a v GRETLU, interpretovat hodnotu koeficientu determinace a koeficientu korelace. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 120 minut. Regresní analýza – vícerozměrná 86 KLÍČOVÁ SLOVA KAPITOLY Vícenásobná regresní analýza, koeficient determinace, koeficient korelace. 5.1 Vícerozměrná regresní analýza Na rozdíl od předchozích dvou kapitol, kde jsme předpokládali, že vysvětlovaná proměnná Y závisí na jediné vysvětlující proměnné X, budeme nyní předpokládat, že vysvětlujících proměnných je několik (tj. alespoň 2), řekněme k, kde k  2, přitom k je celé číslo. Vysvětlující statistické znaky (proměnné) označíme X1, X2, ..., Xk, i-tému pozorování (i-té realizaci) hodnot vysvětlujících znaků x x xi i ik1 2, ,..., odpovídá hodnota vysvětlovaného znaku yi . Vícenásobný lineární regresní model je zobecněním jednoduchého lineárního regresního modelu (4.9) a má následující tvar: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2+. . . +𝛽 𝑘 𝑥𝑖𝑘 + 𝜀𝑖, i = 1,2, ..., n. (5.1) Jak jste viděli v předchozí kapitole při aplikaci metody linearizace, bylo pro použití metody nejmenších čtverců podstatné, že regresní funkce byla lineární v parametrech i , nikoliv v proměnné x. Tohoto důležitého faktu využijeme nyní a formulujeme poněkud obecnější model, než (5.1), totiž vícenásobný regresní model lineární v parametrech. Ten vypadá takto y f x x x f x x x f x x xi i i ik i i ik k k i i ik i= + + + + +    0 1 1 1 2 2 2 1 2 1 2( , ,..., ) ( , ,..., ) ... ( , ,..., ) , i = 1,2, ..., n. (5.2) kde ),...,,( 21 kj xxxf , j = 1,2, ..., k, jsou funkce proměnných kxxx ,...,, 21 , nezávislé na parametrech i . 5.2 Metoda nejmenších čtverců Odhady regresních koeficientů kbbb ,...,, 10 lze stanovit metodou nejmenších čtverců, která spočívá v minimalizaci součtu kvadrátů (tj. druhých mocnin) odchylek skutečných hodnot dat iy od teoretických hodnot iY = ),...,,(...),...,,( 2121110 ikiikkikii xxxfbxxxfbb +++ . Podobně, jako u jednoduchého modelu, vypočteme odhady ze soustavy normálních rovnic: 0 0 = b SR   , 0 1 = b SR   , ... , 0= k R b S   . (5.3) V (5.3) se jedná o parciální derivace funkce SR podle proměnných bi. Označení ),...,,( 21 jkjjiij xxxfF = , i = 1,2, ..., k, j = 1,2, ..., n, (5.4) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 87 umožní využít maticovou symboliku. Soustavu rovnic (5.2) lze maticově zapsat takto: 𝒚 = 𝑭𝜷 + 𝜺, (5.5) kde matice:             = knn k k FF FF FF     1 212 111 1 1 1 F se nazývá matice regresorů,             = ny y y  2 1 y je vektor pozorování vysvětlované proměnné Y,  =             k    1 0 , resp. b =             kb b b  1 0 , je vektor regresních koeficientů, resp. vektor jejich odhadů. Dále  =             n    2 1 , je vektor náhodných složek. Při výpočtu vektoru odhadů b regresních koeficientů metodou nejmenších čtverců obdržíte soustavu normálních lineárních rovnic, které lze maticově vyjádřit. Pozor, používáte přitom pravidla pro sčítání a násobení matic, tzn. pravidlo „řádek krát sloupec“. Toho lze dosáhnout tak, že regresní rovnici y = F.b, vynásobíte zleva transponovanou maticí FT , takže obdržíte FT y =FT F.b, (5.6) a za předpokladu, že matice FT F je regulární, a tedy existuje k ní matice inverzní (FT F)-1 , lze nalézt řešení soustavy, tj. vektor odhadů regresních koeficientů modelu (5.5), a to po vynásobení (5.6) zleva maticí (FT F)-1 , ve tvaru: b = (FT F)-1 FT y. (5.7) Ve speciálním případě jednoduché lineární regrese je k = 1, pak matice regresorů a další prvky z (5.6) mají tvar:             = 1 21 11 1 1 1 nx x x  F , FT F =         2 ii i xx xn , FT y =         ii i yx y , a soustava normálních rovnic (5.6) je následující: Regresní analýza – vícerozměrná 88         2 ii i xx xn       1 0 b b =           ii i yx y , (5.8) což je tvar ekvivalentní rovnicím (3.12), (3.13). 5.3 Náhodný vektor a jeho charakteristiky Nyní ještě rozšíříme pojmy střední hodnoty a rozptylu používané doposud pro náhodnou veličinu (skalár), a to pro náhodný vektor: X =             nX X X  2 1 , (5.9) kde složky Xi jsou náhodné veličiny. Střední hodnota E(X) vektorové náhodné veličiny X je vektor středních hodnot jednotlivých složek, tj.: E(X) =             )( )( )( 2 1 nXE XE XE  . (5.10) Rozptyl (variance) Var(X) vektorové náhodné veličiny X je matice: Var(X) = E((X- E(X))T (X - E(X))). (5.11) Rozptyl náhodného vektoru (5.11) je čtvercová matice typu (nn). 5.4 Klasický lineární model O klasickém (vícerozměrném) lineárním regresním modelu hovoříme tehdy, když matice regresorů má nejjednodušší tvar, tj. když je matice tvořena danými hodnotami pozorování vysvětlujících proměnných: ijij xF = , i = 1,2, ..., k, j = 1,2, ..., n. (5.12) V tom případě má matice regresorů tvar:             = knn k k xx xx xx     1 212 111 1 1 1 F . (5.13) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 89 U klasického lineárního modelu požadujeme splnění podmínek 1. až 3. z minulé kapitoly, přitom u těchto podmínek nebylo důležité, zda jde o jednoduchý nebo vícerozměrný regresní model: 1. Hodnoty vysvětlujících proměnných X1, X2, ..., Xk, tvořící matici regresorů F podle (5.13) se volí předem, nejsou to tedy náhodné veličiny. 2. Reziduum  v modelu (3.5) má normální rozdělení pravděpodobnosti s nulovou střední hodnotou a (neznámým) rozptylem 2 , tj.: E() = 0 , (5.14) Var() = 2 I , (5.15) kde symbol I označuje jednotkovou matici. Vztah (5.15) zahrnuje zároveň podmínku 3. z klasického lineárního modelu, viz kapitola 3.5, neboť na diagonále matice Var() jsou rozptyly 2 jednotlivých složek náhodného vektoru  a mimo diagonálu vystupují nulové kovariance těchto složek. V tom případě hovoříme o homoskedasticitě. V opačném případě hovoříme o přítomnosti heteroskedasticity. 3. Vysvětlující proměnné X1, X2, ..., Xk, nejsou kolineární, tj. sloupcové vektory matice regresorů (5.13) jsou nekorelované. V opačném případě hovoříme o přítomnosti mul- tikolinearity. 5.5 Míry variability a koeficient determinace Podobně jako u jednoduché regrese, zajímáme se nyní o celkovou variabilitu vysvětlované proměnné, kterou charakterizuje celkový součet čtverců: ( )= −= n i iy yyS 1 2 . (5.16) Část celkové variability vysvětlenou regresním modelem charakterizuje teoretický součet čtverců: ( )= −= n i iT yYS 1 2 , (5.17) kde Yi = ),...,,(...),...,,( 2121110 ikiikkikii xxxfbxxxfbb +++ , bi jsou odhady regresních parametrů získané MNČ. Nevysvětlenou část celkové variability představuje reziduální součet čtverců: SR = ( )= − n i ii Yy 1 2 , (5.18) kde iii Yye −= je reziduum, tj. odhad náhodné složky i. Mezi jednotlivými součty čtverců platí základní vztah: Sy = ST + SR (5.19) Obdobně, jako v případě jednoduché regrese, zavedeme analogický pojem, charakterizující přiléhavost dat k regresnímu modelu, koeficient determinace, který definujeme vztahem: Regresní analýza – vícerozměrná 90 y R y T S S S S R −== 12 . (5.20) Koeficient determinace nabývá hodnoty z intervalu [0,1] a určuje tu část celkové variability pozorovaných hodnot yi, kterou lze vysvětlit daným regresním modelem. Jinak řečeno, po vynásobení koeficientu determinace stem obdržíme, kolik procent celkové variability je vysvětlitelných regresním modelem. Nevychýlený odhad koeficientu determinace 2 adjR , který nazýváme korigovaný (upravený) koeficient determinace, definujeme takto: ( ) pn n RRadj − − −−= 1 11 22 , (5.21) kde p = k+1 označuje počet parametrů v regresním modelu (5.2). 5.6 Intervaly spolehlivosti a testy hypotéz Tento odstavec je přirozeným rozšířením kapitoly 4 pro jednoduchý klasický lineární model, tj. model (3.9) se dvěma parametry 𝛽0, 𝛽1. Nyní máme analogický model, avšak s k+1 parametry 𝛽0, 𝛽1, . . . , 𝛽 𝑘. Jsou-li splněny předpoklady klasického lineárního modelu (5.5), tj. modelu: iikkiii xxxy  +++++= ...22110 , i = 1,2, ..., n, (5.22) potom pro rozdělení odhadů regresních koeficientů 𝑏0, 𝑏1, . . . , 𝑏 𝑘, jakožto náhodných veličin, platí toto: Regresní koeficient bj má normální rozdělení pravděpodobnosti se střední hodnotou j a rozptylem 2 hjj, kde j = 0,1, ..., k, čísla hjj jsou diagonálními prvky matice: H = (FT F)-1 , (5.23) kde matice F je definována vztahem (5.13). V klasickém lineárním modelu předpokládáme, že reziduální složky mají konstantní rozptyl 2 , jeho hodnotu však zpravidla neznáme. Neznámý rozptyl 2 můžeme nahradit jeho bodovým odhadem: pn S s R R − =2 , (5.24) který nazýváme v souladu s (5.22) reziduální rozptyl. V reziduálním rozptylu vystupuje v čitateli reziduální součet čtverců (5.18) dělený číslem n–p, což je počet stupňů volnosti, tj. rozsah dat n mínus počet regresních koeficientů v modelu: p = k + 1. Odmocninu reziduálního rozptylu sR nazýváme směrodatná chyba. Oboustranný interval spolehlivosti pro regresní koeficient bj, při zadaném koeficientu spolehlivosti (1 – ), je následující interval: [bj – t1-/2(n–p) pn hS jjR − , bj + t1-/2(n–p) pn hS jjR − ], j = 0,1, ..., k. (5.25) Zde t1-/2(n–p) je příslušný kvantil Studentova t-rozdělení, hjj diagonální prvky matice (5.23). Interval (4.23) je speciálním případem intervalu (5.25) v případě k = 1. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 91 Bodový odhad regresních koeficientů bj, vypočtený metodou nejmenších čtverců, doplňuje interval spolehlivosti (5.25), který informuje, v jakém rozmezí se regresní koeficient může pohybovat v rámci zadané spolehlivosti v případě jiného náhodného výběru dat (ze stejného základního souboru). Odhadnutý lineární regresní model (3.9), který má tvar: exbxbxbby kk +++++= ...22110 , (5.26) kde e je reziduum, tj. odhad náhodné složky , resp. regresní funkce: 𝑌 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2+. . . +𝑏 𝑘 𝑥 𝑘, (5.27) má praktický význam zejména při odhadu chování modelu pro nezávisle proměnné nevyskytující se v datech, např. hodnoty x01, x02, ..., x0k . Model (5.26), resp. regresní funkce (5.27), pak slouží k predikci hodnoty závisle proměnné. Bodový odhad předpovědi získáme dosazením x0 = (x01, x02, ..., x0k)´ do (5.27): 𝑌0 = 𝑏0 + 𝑏1 𝑥01 + 𝑏2 𝑥02+. . . +𝑏 𝑘 𝑥0𝑘. (5.28) Informaci o tom, v jakém rozmezí se predikovaná hodnota vysvětlované proměnné může pohybovat, poskytuje oboustranný interval spolehlivosti: [Y0 – t1-/2(n–p) 0 T 01 Hxx+Rs , Y0 + t1-/2(n–p) 0 T 01 Hxx+Rs ], (5.29) kde H = (FT F)-1 a matice F je definována vztahem (5.13). Ostatní symboly v (5.29) mají stejný význam, jako v intervalu spolehlivosti (5.25). 5.7 Individuální T-testy o hodnotách regresních koeficientů Zjistíme-li metodou nejmenších čtverců, že regresní koeficienty bj jsou nějaká nenulová čísla, musíme mít stále na paměti, že se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda naše původní parametry j nemohou být přesto nulové. Za předpokladů klasického lineárního modelu je možno pro j = 0,1, ..., k testujeme nulovou hypotézu: H0: j = 0, (5.30) proti oboustranné alternativní hypotéze: H1: j  0. (5.31) Při tomto testu použijeme testové kritérium: jj R j h pn S b t − = , (5.32) které má při platnosti H0 t-rozdělení s n–p stupni volnosti, SR je reziduální součet čtverců, hjj jsou diagonální prvky matice H z (5.23), přičemž j = 0,1, ..., k, p = k + 1. Na hladině významnosti  je kritický obor vymezen nerovností: t > )(2/1 pnt −− , Regresní analýza – vícerozměrná 92 kde )(2/1 pnt −− je příslušný kvantil Studentova t-rozdělení, viz funkce v Excelu TINV. Nemůžeme-li např. na dané hladině významnosti  zamítnout nulovou hypotézu H0: j = 0, pak to znamená, že y nezávisí na xj, jinak řečeno, pro libovolnou hodnotu vysvětlující proměnné xj nabývá vysvětlovaná proměnná y stále stejné hodnoty. 5.8 F-test hypotézy o hodnotách regresních koeficientů V minulém odstavci jste individuálními t-testy zjišťovali vliv jednotlivých vysvětlujících proměnných na vysvětlovanou proměnnou. V tomto odstavci se budeme zabývat testem, který najednou odhalí, zda vůbec existuje nějaká vysvětlující proměnná, která má na vysvětlovanou proměnnou nějaký vliv. Testuje se nulová hypotéza: H0: 𝛽1 = 𝛽2 =. . . = 𝛽 𝑘 = 0, (5.33) proti alternativní hypotéze, že pro alespoň jeden regresní koeficient platí 𝛽𝑗 ≠ 0. Testové kritérium: pn S p S T R T − − = 1 (5.34) má Fisherovo rozdělení F s (p–1) a (n–p) stupni volnosti. Na hladině významnosti  je kritický obor vymezen nerovností: 𝑇 > 𝐹1−𝛼(𝑝 − 1, 𝑛 − 𝑝), (5.35) kde 𝐹1−𝛼(𝑝 − 1, 𝑛 − 𝑝) je příslušný kvantil rozdělení. Pokud hodnota testového kritéria padne do kritického oboru, tedy pokud platí (5.35), potom H0 zamítáme, což znamená, že některá z vysvětlujících proměnných má statisticky významný efekt na vysvětlovanou proměnnou y. Pokud však nulovou hypotézu nelze na dané hladině významnosti zamítnout, pak vysvětlující proměnné xi nemají statisticky významný efekt na y. ŘEŠENÁ ÚLOHA 5.1 Při zjišťování vlivů na pracovní neschopnost zaměstnanců 10 podniků byly získány následující údaje: Průměrný věk (roky) Podíl žen v počtu pracovníků (%) Pracovní neschopnost (%) 37 55 4,4 33 32 0,7 46 59 7,6 34 36 1,8 25 18 0,1 32 47 3,4 38 22 1,6 40 36 3,5 32 29 3,3 41 38 4,7 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 93 a. Odhadněte parametry lineární regresní funkce popisující závislost pracovní neschopnosti na průměrném věku zaměstnanců a na podílu žen mezi zaměstnanci. b. Pomocí koeficientu determinace charakterizujte přiléhavost daného regresního modelu k datům. c. Jak se změní pracovní neschopnost zaměstnanců, zvýší-li se jejich průměrný věk o 2 roky při stejném podílu žen? d. Určete 95 % intervaly spolehlivosti pro regresní koeficienty b0, b1, b2. Na hladině významnosti  = 0,01 testujte hypotézu 1´= 2 = 0. Řešení: a. Naším úkolem je nalézt regresní koeficienty b0, b1, b2 regresní funkce Y = b0 + b1X1 +b2X2, kde X1 je průměrný věk zaměstnanců, X2 je podíl žen v počtu zaměstnanců. Regresní koeficienty b0, b1, b2 vypočítáme pomocí metody nejmenších čtverců. Využijeme přitom nejprve maticové symboliky, kterou jsme použili v textu. F =                                 38411 29321 36401 22381 47321 18251 36341 59461 32331 55371 y =                                 7,4 3,3 5,3 6,1 4,3 1,0 8,1 6,7 07 4,4 b           = 2 1 0 b b b . Vektor b vypočítáme pomocí vztahu (5.7). Matice FT F a FT y mají obecně tvar: FT F           =    2 2212 21 2 11 21 iiii iiii ii xxxx xxxx xxn , FT y           =    ii ii i yx yx y 2 1 . Hodnoty potřebné k výpočtu těchto matic jsou uvedeny v následující tabulce: Regresní analýza – vícerozměrná 94 Potom FT F =           1542413745372 1374513128358 37235810 FT y =           7,1374 1,1207 1,31 . K matici FT F musíme vypočítat matici inverzní: (FT F )-1 =           −− −− −− 001000100120 001000501310 012013103554 ,,, ,,, ,,, . Vektor b je výsledkem součinu matic (FT F )-1 a FT y: (FT F )-1 FT y          − = 09,0 18,0 59,6 . Hledaná regresní funkce má tvar: Y = −6,59 + 0,18x1 + 0,09x2. b. K tomu, abychom vypočítali determinační koeficient, musíme znát hodnotu teoretického součtu čtverců ST a celkového součtu čtverců Sy. Tyto součty vypočítáme podle vztahů (5.17), (5.16). Pro výpočet teoretického součtu musíme pro každé x1i, x2i, i = 1, …, 10, znát teoretickou hodnotu Yi, i = 1, …, 10, např. Y1 vypočítáme takto: Y1 = −6,59 + 0,18x11 + 0,09x22 = −6,59 + 0,1837 + 0,0955 = 5,02 Pozorování X1 X2 Y X1 2 X2 2 X1X2 X1Y X2Y 1 37 55 4,4 1369 3025 2035 162,8 242,0 2 33 32 0,7 1089 1024 1056 23,1 22,4 3 46 59 7,6 2116 3481 2714 349,6 448,4 4 34 36 1,8 1156 1296 1224 61,2 64,8 5 25 18 0,1 625 324 450 2,5 1,8 6 32 47 3,4 1024 2209 1504 108,8 159,8 7 38 22 1,6 1444 484 836 60,8 35,2 8 40 36 3,5 1600 1296 1440 140,0 126,0 9 32 29 3,3 1024 841 928 105,6 95,7 10 41 38 4,7 1681 1444 1558 192,7 178,6  358 372 31,1 13128 15424 13745 1207,1 1374,7 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 95 Tato hodnota udává, jaká by měla být teoreticky pracovní neschopnost při průměrném věku zaměstnanců téměř 37 let a podílu žen v počtu pracovníků 55%. Protože však jde o stochastickou závislost, liší se tato hodnota od skutečně zjištěné hodnoty y = 4,4. Všechny teoretické hodnoty Yi jsou uvedeny v následující tabulce. Jednotliví sčítanci i hodnoty součtů Sy a ST jsou rovněž uvedeni v tabulce. Koeficient determinace vypočítáme dosazením do vztahu (3.20): .848,0 49,43 87,362 === y T S S R Tato hodnota znamená, že pomocí regresní funkce Y = −6,59 + 0,18x1 + 0,09x2 je vysvětleno 84,8% celkové variability proměnné Y. c. Velikost změny znaku Y je při změně znaku X1 o jednotku rovna b1. Má-li se tedy zvýšit průměrný věk o 2 roky při nezměněné zaměstnanosti žen X2, zvýší se pracovní neschopnost o 2b1, tj. o 0,36%. d. Obecný tvar těchto intervalů je následující (viz (3.25)): [bi – t1-/2(n–p) pn hS iiR − , bi + t1-/2(n–p) pn hS iiR − ], kde SR je reziduální součet čtverců, t1-/2(n–p) je kvantil t-rozdělení o n–p stupních volnosti, p je počet parametrů regresní funkce, hii prvek matice H = 1 )( − FF . Hodnotu SR vypočítáme ze vztahu: SR = Sy − ST = 43,49 − 36,87 = 6,62. V tabulce t-rozdělení nalezneme (1-/2) = 97,5 % kvantil t-rozdělení o n–p = 10–3 = 7 stupních volnosti: 365,2)7(975,0 =t , h00 = 4,355; h11 = 0,0051; h22 = 0,001, H = {hij}, i,j = 0,1,2. Dosazením výše vypočítaných hodnot do vztahu pro interval spolehlivosti určíme jeho pravou a levou krajní hodnotu L a P: Pro b0, tj. i = 0: X1 X2 y Y ( )y y− 2 ( )Y y− 2 1 37 55 4,4 5,02 1,664 3,648 2 33 32 0,7 2,23 5,808 0,774 3 46 59 7,6 7,00 20,160 15,132 4 34 36 1,8 2,77 1,716 0,116 5 25 18 0,1 −0,47 9,060 12,816 6 32 47 3,4 3,40 0,084 0,084 7 38 22 1,6 2,23 2,280 0,774 8 40 36 3,5 3,85 0,152 0,548 9 32 29 3,3 1,78 0,036 1,769 10 41 38 4,7 4,21 2,528 1,210 Součet 358 372 31,1 32,02 43,489 36,872 Regresní analýza – vícerozměrná 96 79,1 7 355,462,6 365,259,6 =  −=L , 39,11 7 355,462,6 365,259,6 =  +=P . 95 % interval spolehlivosti pro regresní koeficient b0 je [1,79;11,39]. Pro b1, tj. i = 1: 016,0 7 0051,062,6 365,218,0 =  −=L , 344,0 7 0051,062,6 365,218,0 =  +=P . Pak 95 % interval spolehlivosti pro regresní koeficient b1 je [0,016; 0,344]. Pro b2, tj. i = 2: 017,0 7 001,062,6 365,209,0 =  −=L , 163,0 7 001,062,6 365,209,0 =  +=P . Potom 95 % interval spolehlivosti pro regresní koeficient b2 je [0,017; 0,163]. e. Pro ověření hypotézy použijeme F-test. Budeme testovat nulovou hypotézu: H0: 1´= 2 = 0 proti alternativní hypotéze H1: alespoň jedno i je různé od nuly. K ověření nulové hypotézy použijeme testové kritérium (3.34): .49,19 7 62,6 2 87,36 1 == − − = pn S p S F R T V tabulce F-rozdělení najdeme (1-)% kvantil F-rozdělení o p–1 a n–p stupních volnosti: F1- 0,01(2,7) = 9,55. Protože je 19,49 >9,55, zamítáme nulovou hypotézu ve prospěch alternativní hypotézy, což znamená, že regresní parametry jsou vesměs nenulové, a tudíž existuje statisticky významná závislost Y na X1 nebo X2. Řešení v Excelu. Regresní statistika Násobné R 0,912 Hodnota spolehlivosti R 0,831 (koeficient determinace) Nastavená hodnota spolehlivosti R 0,783 Chyba stř. hodnoty 1,024 Pozorování 10 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 97 ANOVA Rozdíl SS MS F Významnost F Regrese 2 36,155 18,078 17,255 0,002 Rezidua 7 7,334 1,048 Celkem 9 43,489 e) Protože hodnota Významnost F je menší než hladina významnosti 0,01; nulovou hypotézu zamítáme, tzn. že regresní parametry jsou vesměs nenulové. Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 95% Hranice -6,595 2,136 -3,087 0,018 -11,645 -1,544 průměrný věk X1 0,178 0,073 2,441 0,045 0,006 0,351 podíl žen (%) X2 0,089 0,032 2,758 0,028 0,013 0,166 ŘEŠENÁ ÚLOHA 5.2 Následující tabulka obsahuje údaje o tržbách, velikosti výdajů na reklamu a o počtu obchodních zástupců pro 11 firem zabývajících se nákupem a prodejem: a. Popište závislost objemu produkce na reklamních výdajích a na počtu obchodních zástupců dvourozměrný lineárním regresním modelem. b. F-testem posuďte významnost tohoto regresního modelu. Uvažujte hladinu význam- nosti  = 0,01. c. Na hladině významnosti  = 0,01 testujte individuální významnost regresního parametru 1. d. Jaký objem produkce lze očekávat, vydá-li firma na reklamu 450 tis. Kč a současně bude mít 50 obchodních zástupců? Určete bodový odhad objemu produkce. Reklamní výdaje (tis. Kč) Obchodní zástupci Objem prodeje (mil. Kč) 180 35 260 230 38 310 260 33 280 240 40 300 280 38 340 300 32 380 340 42 410 320 49 440 360 53 400 380 55 430 260 33 310 Regresní analýza – vícerozměrná 98 Řešení: Regresní statistika Násobné R 0,916 Hodnota spolehlivosti R 0,839 koeficient determinace Nastavená hodnota spolehlivosti R 0,799 Chyba stř. hodnoty 28,434 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Regrese 2 33822,799 16911,399 20,917 0,001 Rezidua 8 6468,110 808,514 Celkem 10 40290,909 b) Hodnota Významnost F je menší než 0,01; model je zvolen správně, zamítáme nulovou hypotézu o nulovosti obou koeficientů Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 63,830 47,652 1,340 0,217 reklamní výdaje (tis. Kč) 0,849 0,224 3,789 0,005 obchodní zástupci 1,076 1,656 0,650 0,534 a) 𝑌 = 63,83 + 0,85. 𝑥1 + 1,08. 𝑥2 c) Koeficient 𝑏1 = 0,849 je statisticky významný na hladině významnosti 0,01; protože Hodnota P je menší než 0,01. d) 500,33 mil. Kč SAMOSTATNÉ ÚKOLY 5.1 Firma sledovala, jak jsou její tržby ovlivněny výdaji na reklamu v různých sdělovacích prostředcích. Výsledky průzkumu jsou uvedeny v následující tabulce. Rádio, TV (tis. Kč) Noviny, časopisy (tis. Kč) Tržby (tis. Kč) 0 16 254 22 29 765 28 30 864 33 35 1001 39 27 911 41 36 1121 49 0 856 55 12 932 60 23 1152 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 99 63 34 1403 68 54 1702 a. Určete jednoduchý lineární regresní model popisující závislost obratu na velikosti prostředků vydaných na reklamu v novinách a časopisech. b. Určete dvourozměrný lineární regresní model popisující závislost obratu na velikosti prostředků vydaných na reklamu v novinách a časopisech a na velikosti prostředků vydaných na reklamu v rozhlase a v televizi. c. Pomocí F–testu rozhodněte, je-li vhodné k popisu závislosti používat zvolený vícenásobný lineární model. Uvažujte hladinu významnosti  = 0,05. d. Přispělo významně zavedení další vysvětlující proměnné k zlepšení výstižnosti mo- delu? e. Jaký obrat je možné očekávat, vydá-li se na reklamu v tisku 32 tis. Kč a na reklamu v rozhlase a televizi 47 tis. Kč? Proveďte bodový odhad. 5.2 Mezinárodní organizace WHO zjistila údaje o dětské úmrtnosti (v promile) - DÚ, gramotnosti žen (v procentech) - GŽ a HDP na hlavu (v dolarech) - HDP u 64 rozvojových zemí: DÚ GŽ HDP DÚ GŽ HDP 128 37 1870 142 50 8640 204 22 130 104 62 350 202 16 310 287 31 230 197 65 570 41 66 1620 96 76 2050 312 11 190 209 26 200 77 88 2090 170 45 670 142 22 900 240 29 300 262 22 230 241 11 120 215 12 140 55 55 290 246 9 330 75 87 1180 191 31 1010 129 55 900 182 19 300 24 93 1730 37 88 1730 165 31 1150 103 35 780 94 77 1160 67 85 1300 96 80 1270 143 78 930 148 30 580 83 85 690 98 69 660 223 33 200 161 43 420 240 19 450 118 47 1080 312 21 280 269 17 290 12 79 4430 189 35 270 52 83 270 126 58 560 79 43 1340 12 81 4240 61 88 670 167 29 240 168 28 410 135 65 430 28 95 4370 107 87 3020 121 41 1310 72 63 1420 115 62 1470 128 49 420 186 45 300 27 63 19830 47 85 3630 152 84 420 178 45 220 224 23 530 142 67 560 Regresní analýza – vícerozměrná 100 a. Určete lineární regresní model popisující závislost dětské úmrtnosti na gramotnosti žen a HDP v rozvojových zemích. b. Pomocí F–testu rozhodněte, je-li vhodné k popisu závislosti používat zvolený vícenásobný lineární model. Uvažujte hladinu významnosti  = 0,05. c. Jsou regresní koeficienty modelu statisticky významné? Stanovte jejich intervaly spolehlivosti pro hladinu významnosti  = 0,10. d. Pomocí koeficientu determinace určete přiléhavost dat k modelu. Jak se změní dětská úmrtnost při zvýšení HDP o 1000 USD při stejném stupni negramotnosti žen? Naopak: jak se změní dětská úmrtnost při zvýšení gramotnosti žen o 1 procento při stejné úrovni HDP? ODPOVĚDI 5.1 a) jednoduchý lineární regresní model Regresní statistika Násobné R 0,658 Hodnota spolehlivosti R 0,433 Nastavená hodnota spolehlivosti R 0,370 Chyba stř. hodnoty 292,354 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Regrese 1 587103,478 587103,478 6,869 0,028 Rezidua 9 769235,250 85470,583 Celkem 10 1356338,727 Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 538,482 195,714 2,751 0,022 Noviny, časopisy (tis. Kč) 17,019 6,494 2,621 0,028 xY .,, 2175539 += b) dvourozměrný lineární regresní model Regresní statistika Násobné R 0,992 Hodnota spolehlivosti R 0,985 Nastavená hodnota spolehlivosti R 0,981 Chyba stř. hodnoty 50,634 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 101 Regrese 2 1335828,082 667914,041 260,514 0,000 Rezidua 8 20510,645 2563,831 Celkem 10 1356338,727 Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 87,214 42,969 2,030 0,077 Rádio, TV (tis. Kč) 13,905 0,814 17,089 0,000 Noviny, časopisy (tis. Kč) 12,275 1,158 10,596 0,000 2271219132187 xxY .,.,, ++= c) Ano, hodnota Významnost F je menší než 0,05; proto vícenásobný lineární model je vhodný. d) Ano, koeficient determinace se z hodnoty 0,43 zvýšil na hodnotu 0,98. e) 1 133,15 tis. Kč = 1 133 150 Kč 5.2 a) Regresní statistika Násobné R 0,841 Hodnota spolehlivosti R 0,708 Nastavená hodnota spolehlivosti R 0,698 Chyba stř. hodnoty 41,748 Pozorování 64 ANOVA Rozdíl SS MS F Významnost F Regrese 2 257362,373 128681,187 73,833 0,000 Rezidua 61 106315,627 1742,879 Celkem 63 363678,000 20060123264263 xxY .,.,, −−= b) Ano, hodnota Významnost F je menší než 0,05; proto vícenásobný lineární model je vhodný. Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 90,0% Horní 90,0% Hranice 263,642 11,593 22,741 0,000 244,278 283,005 GŽ -2,232 0,210 -10,629 0,000 -2,582 -1,881 HDP -0,006 0,002 -2,819 0,006 -0,009 -0,002 Regresní analýza – vícerozměrná 102 c) Oba regresní koeficienty jsou statisticky významné, protože Hodnota P je menší než 0,1. Intervaly spolehlivosti: ( ) ( )00200090281521 ,;,;,;, −−−− bb d) Koeficient determinace je roven 0,71; tzn., že 71 % celkové variability je vysvětleno modelem. e) Při zvýšení HDP o 1000 USD při stejném stupni negramotnosti žen klesne dětská úmrtnost o 5,6 promile. Při zvýšení gramotnosti žen o 1 %, při stejné úrovni HDP, klesne dětská úmrtnost o 0,22 promile. SHRNUTÍ KAPITOLY V této kapitole jste se seznámili s vícenásobným lineárním regresním modelem. Lineární regresní model byl rozšířen na vícenásobný regresní model lineární v parametrech. Odhady regresních koeficientů byly opět stanoveny metodou nejmenších čtverců, přitom bylo využito maticové symboliky, která usnadňuje práci s vektory a maticemi. Podobně jako v případě jednoduché regrese byly formulovány předpoklady klasického regresního modelu. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 103 6 REGRESNÍ ANALÝZA – VÍCEROZMĚRNÁ: MULTIKOLINEARITA, HETEROSKEDASTICITA, AUTOKORE- LACE RYCHLÝ NÁHLED KAPITOLY V této kapitole se naučíte identifikovat, analyzovat a odstraňovat problémy, které způsobuje nesplnění hlavních předpokladů klasického vícerozměrného lineárního regresního modelu formulované v kapitole 5.4: multikolinearita, heteroskedasticita a autokorelace. Multikolinearitou tedy rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu. Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita. Jde o vlastnost (5.15), která spočívá v tom, že rozptyl poruchy i v populačním lineárním regresním modelu je konstantní. Autokorelace je korelace mezi pozorováními uspořádanými v čase, (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). Říkáme, že v regresním modelu není přítomná autokorelace, jestliže náhodné veličiny jsou vzájemně nekorelované. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: uvést předpoklady klasického vícerozměrného lineárního modelu, identifikovat multikolinearitu, heteroskedasticitu a autokorelaci v modelu, aplikovat Bartletův test heteroskedasticity v Excelu. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 104 KLÍČOVÁ SLOVA KAPITOLY Multikolinearita, heteroskedasticita, autokorelace, Bartletův test heteroskedasticity. 6.1 Co je multikolinearita? Multikolinearitou tedy rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu: 𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2+. . . +𝛽 𝑘 𝑥 𝑘 + 𝜀. (6.1) Informaci o této vzájemné závislosti poskytuje matice výběrových korelačních koefi- cientů: R =             1 1 1 21 221 112     kk k k rr rr rr . (6.2) Zřejmě je matice (6.2) symetrická, tj. jiij rr = pro všechna i, j. Pokud jsou všechny dvojice vysvětlujících proměnných vzájemně nekorelované, potom platí, že 0== jiij rr , tj. R = I , čili R je jednotkovou maticí. Uvědomte si, že na diagonále matice R musejí být všechny prvky rovny 1, neboť korelace vektoru dat se sebou samým je vždy rovna 1! Jsou-li však alespoň některé nediagonální prvky matice R nenulové, hovoříme o multikolinearitě. Matice R pak není jednotkovou maticí a její determinant je menší než 1. Je-li multikolinearita vysoká, hovoříme o škodlivé multikolinearitě, pak se determinant matice R blíží k nule. V tom případě dává metoda nejmenších čtverců odhady regresních koeficientů s širokými intervaly spolehlivosti, takže výsledky jsou prakticky neupotřebitelné. Na to, kdy je multikolinearita „škodlivá“, existují různé názory, opírající se víceméně o zkušenost. Někteří autoři považují za škodlivou multikolinearitu, když alespoň jeden nediagonální prvek matice R je větší než 0,8. Zjistí-li se škodlivá multikolinearita, je možno postupovat v zásadě dvojím způsobem. Buď vysvětlující proměnnou, která je zdrojem multikolinearity, vypustíme z modelu, nebo doplníme data, eventuálně získáme nový vzorek dat. Škodlivá multikolinearita je totiž často důsledkem „špatného“ vzorku dat. Projevuje se obvykle vysokým koeficientem determinace (blízkým k 1) a zároveň jsou individuální koeficienty statisticky nevýznamné (t-test), model jako celek je naopak statisticky významný (F-test), viz kap. 5.7 a 5.8. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 105 Celou záležitost ilustrujeme na řešené úloze 6.1. ŘEŠENÁ ÚLOHA 6.1 V následující Tabulce 11 jsou uvedeny měsíční výdaje, měsíční příjmy a majetek (v Kč) u 10 českých rodin. Proveďte regresní analýzu měsíčních výdajů rodin v závislosti na měsíčních příjmech a majetku. Vysvětlete dosažené výsledky pomocí jednorozměrné regrese. Tabulka 11: Měsíční výdaje, příjmy a majetek v Kč Řešení: Data z Tabulky 11 uložíme v excelovské tabulce. Známým postupem v menu: Data → Analýza dat... → Regrese, a získáme po vyplnění příslušných políček tento výsledek: V tomto výstupu se vyskytují zdánlivě paradoxní výsledky. Z Tabulky ANOVA vyplývá, že regresní model VÝSLEDEK Regresní statistika Násobné R 0,981 Hodnota spolehlivosti R 0,962 Nastavená hodnota spolehlivosti R0,951 Chyba stř. hodnoty 832,660 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 2 1,23E+08 61581370 88,82062 1,06E-05 Rezidua 7 4853260 693322,9 Celkem 9 1,28E+08 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hranice 2943,676 832,579 3,536 0,010 974,940 4912,413 X1 prijmy 0,569 0,847 0,672 0,523 -1,433 2,571 X2 majetek -0,006 0,083 -0,071 0,946 -0,203 0,191 Y výdaje X1 příjmy X2 majetek 8400 9600 100000 7800 12000 120000 10800 14400 150000 11400 16800 170000 13200 19200 200000 13800 21600 225000 14400 24000 246000 16800 26400 264000 18600 28800 392000 18000 31200 322000 Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 106 y = 2943,676 + 0,569x1 – 0,006x2 +  je jako celek statisticky významný (F-test), zatímco individuální regresní koeficienty u proměnných „příjmy“ resp. „majetek“ jsou statisticky nevýznamné, neboť obě odpovídající phodnoty (signifikance) jsou větší než 0,05 (0,523 resp. 0,946). Koeficient determinace R2 = 0,962 je vysoký – blízký k 1, což svědčí o vysoké přiléhavosti dat k modelu. Navíc je u regresního koeficientu u proměnné x2 záporné znaménko, což je evidentně v rozporu s intuicí, která říká: čím je větší majetek, tím je vyšší spotřeba rodiny. Tento zdánlivý rozpor je způsoben kolinearitou regresorů, o čemž svědčí jejich korelační matice R =       000,1999,0 999,0000,1 , kterou lze snadno zjistit tak, že vypočítáte 𝑟12 = 𝑟21 = 0,999012 pomocí excelovské funkce =CORREL (B4:B13;C4:C13), za předpokladu, že data pro x1 jsou uložena v oblasti B4:B13, data pro x2 jsou uložena v oblasti C4:C13. Vysvětlující proměnné x1 a x2 jsou kolineární, neboť koeficient korelace 𝑟12 = 𝑟21 = 0,999012 je blízký k 1. Vypustíme-li nyní jednu z vysvětlujících proměnných, např. x2 – majetek, a provedemeli (jednoduchou) regresi x1 na y, obdržíme s analogickým využitím Excelu tento výsledek: Vidíte, že v novém regresním modelu je regresní koeficient statisticky významný, neboť odpovídající p-hodnota (signifikance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Podobně, vypustíme-li nyní vysvětlující proměnnou x1 – příjem, a provedeme-li (jednoduchou) regresi x2 na y, obdržíme s analogickým využitím Excelu výsledek z následujícího výstupu. Opět vidíte, že v novém regresním modelu je regresní koeficient statisticky významný, neboť odpovídající p-hodnota (signifikance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Navíc je znaménko u regresního koeficientu 0,050 kladné, což je v souhlasu s intuicí, že totiž velikost spotřeby je přímo úměrná velikosti majetku. VÝSLEDEK Regresní statistika Násobné R 0,981 Hodnota spolehlivosti R 0,962 Nastavená hodnota spolehlivosti R0,957 Chyba stř. hodnoty 779,160 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 1,23E+08 1,23E+08 202,8679 5,75275E-07 Rezidua 8 4856727 607090,9 Celkem 9 1,28E+08 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hranice 2934,545 769,658 3,813 0,005 1159,710 4709,381 X1 prijmy 0,509 0,036 14,243 0,000 0,427 0,592 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 107 6.2 Co je heteroskedasticita? Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita. Jde o vlastnost (5.15), která spočívá v tom, že rozptyl poruchy i v populačním lineárním regresním modelu je konstantní, tj. v modelu 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2+. . . +𝛽 𝑘 𝑥𝑖𝑘 + 𝜀𝑖, i = 1,2, ..., n, (5.1) platí podmínka Var() = 2 I , (5.15) kde symbol I označuje jednotkovou matici. Podmínku (5.15) je možné ekvivalentně vyjádřit také takto E(i 2 ) = 2 , i = 1,2, ..., n, (6.3) kde E je známý operátor střední hodnoty. Pokud podmínka (5.15) není splněna, potom hovoříme o heteroskedasticitě. Příklad heteroskedasticity v případě jednorozměrného lineárního regresního modelu je na Obrázku 26. Je zřejmé, že rozptyl hodnoty y se zvětšuje s rostoucí hodnotou x. VÝSLEDEK Regresní statistika Násobné R 0,979614 Hodnota spolehlivosti R 0,959644 Nastavená hodnota spolehlivosti R0,954599 Chyba stř. hodnoty 803,6024 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 1,23E+08 1,23E+08 190,2357 7,37266E-07 Rezidua 8 5166214 645776,8 Celkem 9 1,28E+08 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hranice 2880,627 798,404 3,608 0,007 1039,503 4721,750 X2 majetek 0,050 0,004 13,793 0,000 0,042 0,058 Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 108 Obrázek 26: Heteroskedasticita v regresním modelu Heteroskedasticita může být způsobena různými příčinami. Častou příčinou heteroskedasticity je fakt, že při postupném sběru dat se technika sběru postupně zlepšuje a chyba se proto zmenšuje. Naopak se chyba zvětšuje s přítomnosti odlehlých hodnot. Dalším zdrojem heteroskedasticity je nesprávná specifikace modelu, např. tím, že jsou opominuty důležité vysvětlující proměnné regresního modelu. Přítomnost heteroskedasticity v regresním modelu je silně nežádoucí, a to zejména z těchto důvodů: • Přítomnost heteroskedasticity způsobuje neplatnost odhadů rozptylů regresních koeficientů, a tudíž také odhadů jejich intervalů spolehlivosti a testů hypotéz o jejich statistické významnosti atd., viz kap. 5.6. • Prognózy s využitím regresního modelu obsahujícího heteroskedasticitu jsou často nespolehlivé a dokonce nerealistické. 6.2.1 JAK ZJISTIT HETEROSKEDASTICITU? Jak poznáme, že v regresním modelu, který jsme sestavili na základě nějakých dat, je přítomna heteroskedasticita? Podobně jako v případě multikolinearity neexistují přesná pravidla, jak detekovat přítomnost heteroskedasticitu, pouze pár heuristických zásad. Velmi často poznáme přítomnost heteroskedasticity z věcné povahy problému. Například je známo, že s rostoucím věkem zaměstnanců se zvětšuje rozptyl jejich platů. Ať je typ závislosti platu na věku lineární nebo ne, bude v modelu přítomna heteroskedasticita. Pokud však nemáme podobné předběžné empirické informace o povaze problému, předpokládáme, že heteroskedasticita není přítomna, že tudíž je rozptyl náhodné složky modelu konstantní. Takové tvrzení pak můžeme podrobit zkoumání např. grafické analýze nebo statistickému testu reziduí ei. S oběma postupy se zde seznámíte. Grafická analýza Data a regresní přímka 0 5 10 15 20 25 30 0 5 10 15 20 t yt Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 109 Zobrazíme si závislost kvadrátu reziduí 2 ie na teoretické hodnotě Yi. Na Obrázku 22 jsou zobrazeny 3 důležité případy tvaru, které mohou nastat, kde Yi =𝑏0 + 𝑏1 𝑓1(𝑥𝑖1, 𝑥𝑖2, . . . , 𝑥𝑖𝑘)+. . . +𝑏 𝑘 𝑓𝑘(𝑥𝑖1, 𝑥𝑖2, . . . , 𝑥𝑖𝑘), (6.4) přitom bi jsou odhady regresních parametrů získané MNČ, 𝑒𝑖 = 𝑦𝑖 − 𝑌𝑖 (6.5) je reziduum, tj. odhad náhodné složky i. 2 ie 2 ie 2 ie a) Yi b) Yi c) Yi Obrázek 27: Závislost 2 ie na Yi Na Obrázku 27 a) hodnota 2 ie v zásadě nezávisí na Yi, což naznačuje, že náhodná složka je konstatntní, a tudíž heteroskedasticita není přítomna. Na druhou stranu Obr. 27 b) a c) hodnota 2 ie v zřejmě závisí na Yi, což naznačuje přítomnost heteroskedasticity. Konkrétní tvar závislosti vám dobře potvrdí zobrazení bodového diagramu závislosti yi na vybrané datové hodnoty j-té vysvětlující proměnné xji. Testy heteroskedasticity Detekce heteroskedasticity s pomocí statistického testu hypotézy je obvykle založena na nulové hypotéze, že rozptyly náhodné složky 𝜀𝑖 2 jsou konstantní, přičemž se analyzují jejich odhady, tj. rezidua 𝑒𝑖 2 . V literatuře můžete nalézt podrobné testy heteroskedasticity s názvy jako Parkův test, Glejserův test, Goldfeld-Quandtův test aj., viz např. Gujarati (2003). Tyto statistické testy lze provádět pomocí specializovaných statistických programů, např. SPSS, v Excelu specializované funkce na tyto testy bohužel chybí. My si zde proto ukážeme tzv. Bartletův test heteroskedasticity, který představuje zjednodušený Goldfeld-Quandtův test a lze k jeho provedení využít funkce Excelu. Bartletův test Test vychází z rozdělení dat podle velikosti (některé) vysvětlující proměnné – označíme ji X, do dvou částí: xi ≤ xˆ a xi> xˆ , přitom jsou data uspořádána podle X, 𝑥̂ je medián z xi . • Testuje se hypotéza o rovnosti rozptylů reziduí v obou částech (v Excelu: Analýza dat, Dvouvýběrový F-test pro rozptyl) • Pokud se hypotéza o rovnosti rozptylu reziduí (není přítomna heteroskedasticita) v obou částech zamítá, potom se hypotéza o přítomnosti heteroskedasticity, přijímá (a obráceně). Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 110 Použití Bartletova testu si ukážeme na příkladu. Ještě předtím se budeme zabývat otázkou, jak odstranit zjištěnou heteraskedasticitu, tj. jak modifikovat původní model, tak aby heteroskedasticitu neobsahoval. 6.2.2 JAK ODSTRANIT HETEROSKEDASTICITU? Nejznámější metodou k odstranění heteroskedasticity je metoda vážených nejmenších čtverců MVNČ. V MVNČ předpokládáme určitý typ nekonstantního chování rozptylu náhodné složky. Předpoklad 1: Rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné x, tj. E(i 2 ) = 𝜎2 𝑥𝑖 2 , i = 1,2, ..., n. (6.6) Transformovaný regresní model získáme tak, že regresní rovnici 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖, i = 1,2, ..., n, (6.7) vydělíme hodnotou xi, čímž obdržíme 𝑦 𝑖 𝑥 𝑖 = 𝛽0 𝑥 𝑖 + 𝛽1 + 𝜀 𝑖 𝑥 𝑖 = 𝛽0 1 𝑥 𝑖 + 𝛽1 + 𝛿𝑖, i = 1,2, ..., n, (6.8) kde pro novou náhodnou chybu i platí po dosazení z (6.6) 2 2 2 2 =)(=)( σ x ε EδE i i i , i = 1,2, ..., n. (6.9) Provedením transformace i i i x y y =´ , i i x x 1 =´ , i = 1,2, ..., n. (6.10) obdržíme z (6.8) nový regresní model 𝑦𝑖 ´ = 𝛽1 + 𝛽0 𝑥𝑖 ´ + 𝛿𝑖, i = 1,2, ..., n. (6.11) což je nový lineární regresní model podle (6.9) však bez heteroskedasticity. Uvažovali jsme jednoduchý regresní model, avšak rozšíření výše uvedeného postupu na vícerozměrný regresní model je snadné. Předpoklad 1 modifikujeme tak, že rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné xj, tj. E(i 2 ) = 22 ijxσ , i = 1,2, ..., n. (6.6) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 111 Namísto modelu (6.7) uvažujeme model 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2+. . . +𝜀𝑖, i = 1,2, ..., n. (6.7*) Pro nový vícerozměrný regresní model použijeme namísto transformace (6.10) nová transformovaná data ij i i x y y =´ , jk x x x x x ij ik ik ij ij ≠,=´, 1 =´ , i = 1,2, ..., n. (6.10*) Předpoklad 2: Rozptyl náhodné složky je přímo úměrný vysvětlující proměnné x, tj. E(i 2 ) = ixσ2 , i = 1,2, ..., n. (6.12) Transformovaný regresní model získáme tak, že regresní rovnici 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖, i = 1,2, ..., n, (6.13) vydělíme hodnotou √ 𝑥𝑖, čímž obdržíme ii ii i i ii i xβ x β x ε xβ x β x y ++ 1 =++= 101 0 , i = 1,2, ..., n, (6.14) kde pro novou náhodnou chybu i platí po dosazení z (6.12) 2 2 2 =)(=)( σ x ε EE i i i , i = 1,2, ..., n. (6.15) Provedením transformace i i i x y y =´ , ii i i xx x x =´´, 1 =´ , i = 1,2, ..., n. (6.16) obdržíme z (6.16) nový regresní model 𝑦𝑖 ´ = 𝛽0 𝑥𝑖 ´ + 𝛽1 𝑥𝑖 ´´ + 𝜗𝑖, i = 1,2, ..., n, (6.17) což je nový lineární regresní model bez úrovňové konstanty podle (6.15) však bez heteroskedasticity. Rozšíření na vícerozměrný regresní model je možné udělat analogicky jako v případě Předpokladu 1. Odstranění heteroskedasticity si prakticky vyzkoušíte v následující řešené úloze. Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 112 ŘEŠENÁ ÚLOHA 6.2 V následující tabulce jsou uvedeny příjmy a spotřební výdaje 30 rodin v tis. Kč/rok. Vytvořte lineární regresní model závislosti výdajů na příjmech, graficky a statistickým testem zjistěte přítomnost heteroskedasticity. Z původního modelu pak heteroskedasticitu odstraňte pomocí MVNČ. Použijte přitom Excel. Řešení: V Excelu vytvoříme z daných údajů graf: XY bodový a pomocí pravého tlačítka iniciujeme nabídku s volbou Přidat spojnici trendu... V podnabídce Možnosti zaklikneme 2 položky: Zvolit rovnici regrese a Zvolit koeficient spolehlivosti (tj. koeficient determinace). Obdržíme výsledek, z něhož vyplývá lineární regresní model: y = 9,29 + 0,64.x + . Dále vedle sloupce yi vytvoříme pomocí vzorce regresní rovnice sloupec teoretických hodnot Yi. Další sloupec vytvoříme jako rozdíl sloupců yi a Yi, což bude sloupec reziduí. Poslední sloupec bude druhá mocnina reziduí. Společně pak vytvoříme XY bodový graf mezi Yi a 𝑒𝑖 2 . Výsledkem je následující graf na Obr. 28, který napovídá přítomnost heteroskedasticity, neboť body v grafu netvoří pás rovnoběžný s vodorovnou osou, jako na Obr. 27 a), ale spíše kužel, jako na Obr. 27 b). č.rodiny Výdaje Příjmy č.rodiny Výdaje Příjmy 1 66 80 16 115 180 2 65 100 17 120 225 3 70 85 18 100 170 4 80 110 19 145 240 5 79 120 20 110 185 6 84 115 21 172 220 7 98 130 22 200 230 8 95 140 23 175 245 9 90 125 24 140 260 10 75 90 25 135 190 11 74 105 26 140 205 12 110 160 27 155 200 13 113 150 28 230 270 14 125 165 29 137 230 15 108 145 30 145 290 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 113 Obrázek 28: Kužel závislosti 2 ie na iY K exaktnímu prokázání heteroskedasticity použijeme Bartletův test. Podle rostoucích hodnot X – Příjmů seřadíme hodnoty reziduí a z nich vytvoříme dva stejně velké soubory e1 a e2: Budeme testovat, zda rozptyly obou souborů jsou stejné pomocí F-testu z Excelu: V menu: Data → Analýza dat → Dvouvýběrový F-test pro rozptyl zadáme umístění oblastí sloupců e1 a e2, eventuální popisky a oblast výstupu. Obdržíme výstup: Závislost e2 na Y 0,00 500,00 1000,00 1500,00 2000,00 2500,00 3000,00 3500,00 50 70 90 110 130 150 170 190 210 230 Příjmy e1 Příjmy e2 80 1,99 170 -8,09 85 -10,83 180 -29,68 90 3,03 185 -17,19 100 -1,74 190 -13,54 105 -8,65 200 -16,05 110 -0,69 205 25,28 115 4,45 220 47,37 120 -4,46 225 13,51 125 -0,60 230 -30,36 130 5,08 230 6,00 140 -4,78 240 2,14 145 -1,28 245 20,09 150 7,63 260 53,74 160 10,77 270 -15,63 165 5,58 290 -43,08 Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 114 V tomto výstupu je důležitá P-hodnota: P(F<=f) (1) = 3,89 E-07 = 0,000000389 <0,05. Na hladině  = 0,05 proto nulovou hypotézu H0: „Rozptyly obou uvažovaných souborů jsou stejné“ zamítáme. Uvažované soubory mají různý rozptyl, což znamená, že rozptyl náhodné složky regresního modelu není konstantní neboli, že heteroskedasticita je v modelu přítomna. Nakonec ukážeme, jak přítomnou heteroskedasticitu odstranit. V Obr. 28 se body grafu nacházejí v „lineárním kuželu“, proto zvolíme pro transformaci Předpoklad 2. Transformace podle (6.16): i i i x y y =´ , ii i i xx x x =´´, 1 =´ , i = 1,2, ..., 30. obdržíme nový regresní model 𝑦𝑖 ´ = 16,75𝑥𝑖 ´ +  0,591 𝑥𝑖 ´´ + 𝜗𝑖, i = 1,2, ..., 30, který je bez heteroskedasticity. Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota 0,366225 -0,366225 Rozptyl 35,88461 792,7791 Pozorování 15 15 Rozdíl 14 14 F 0,045264 P(F<=f) (1) 3,89E-07 F krit (1) 0,402621 č.rodiny y´ x´ x´´ č.rodiny y´ x´ x´´ 1 7,379 0,112 8,944 16 8,572 0,075 13,416 2 6,500 0,100 10,000 17 8,000 0,067 15,000 3 7,593 0,108 9,220 18 7,670 0,077 13,038 4 7,628 0,095 10,488 19 9,360 0,065 15,492 5 7,212 0,091 10,954 20 8,087 0,074 13,601 6 7,833 0,093 10,724 21 11,596 0,067 14,832 7 8,595 0,088 11,402 22 13,188 0,066 15,166 8 8,029 0,085 11,832 23 11,180 0,064 15,652 9 8,050 0,089 11,180 24 8,682 0,062 16,125 10 7,906 0,105 9,487 25 9,794 0,073 13,784 11 7,222 0,098 10,247 26 9,778 0,070 14,318 12 8,696 0,079 12,649 27 10,960 0,071 14,142 13 9,226 0,082 12,247 28 13,997 0,061 16,432 14 9,731 0,078 12,845 29 9,034 0,066 15,166 15 8,969 0,083 12,042 30 8,515 0,059 17,029 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 115 6.3 Co znamená autokorelace? Autokorelace je korelace mezi pozorováními uspořádanými v čase (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). Říkáme, že v regresním modelu není přítomná autokorelace, jestliže náhodné veličiny jsou vzájemně nekorelované, symbolicky to lze vyjádřit takto E(i.j) = 0, i  j, i, j = 1,2, ..., n. (6.18) Jestliže naopak existuje dvojice indexů i  j, přičemž platí E(i.j)  0, řekneme, že v regresním modelu je přítomna autokorelace. Autokorelace se nejčastěji vyskytuje v regresních modelech založených na datech ve formě časových řad. Potom indexy i, (resp. j) představují časové okamžiky t. Časovým řadám a jejich analýze se budou věnovat následující kapitoly 8 až 12, kde bude podrobněji pojednáno také o autokorelaci. Následující Obrázek 29 dává příklad dvou regresních modelů dat, z nichž jeden je správně specifikován (nelineární regresní model – černá křivka), druhý je nesprávně specifikován (lineární regresní křivka – červená přímka). Nesprávná specifikace modelu způsobuje, že rezidua jsou vzájemně korelována, což se projevuje tak, že datové body leží vždy ve větší oblasti podél vodorovné osy na jedné straně regresní křivky, zatímco v případě nekorelovaných reziduí leží datové body rovnoměrně po obou stranách regresní křivky v celé oblasti vodorovné osy (tj. nezávisle proměnné). Obrázek 29: Autokorelace: špatná a správná specifikace modelu ŘEŠENÁ ÚLOHA 6.3 – GRETL V následující tabulce jsou uvedena data týkající se největších nemocnic ve státech V4. X1 značí průměrný denní počet pacientů, X2 počet obsazených lůžek za měsíc, X3 velikost populace (v tis.) ve spádové oblasti, X4 průměrnou délku pobytu v nemocnici (ve dnech), Y počet pracovních hodin, vykázaných za měsíc. Úloha bude řešena pomocí softwaru GRETL. Testujte na hladině významnosti 𝛼 = 0,05. Správná specifikace modelu Špatná specifikace modelu Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 116 a) Zkonstruujte regresní model závislosti počtu pracovních hodin na ostatních proměnných. Do modelu zahrňte všechny proměnné a interpretujte výsledky. b) Prozkoumejte závislosti mezi proměnnými pomocí párových korelačních koefi- cientů. c) Vyberte vhodnou podmnožinu vysvětlujících proměnných a sestrojte nový regresní model. d) Určete předpověď počtu pracovních hodin pro „průměrnou“ nemocnici s průměrným denním počtem pacientů 150, s 5000 obsazenými lůžky za měsíc, se 100 tis. obyvateli ve spádové oblasti a s průměrnou délkou pobytu 6 dní. Použijte jednak původní model se všemi zařazenými proměnnými, jednak redukovaný model, a předpovědi porovnejte. e) Proveďte diagnostiku modelu, tzn. kontrolu předpokladů o heteroskedasticitě, normalitě a autokorelaci reziduí. Řešení: Prezentujeme zde řešení pomocí programu GRETL. Nejprve do programu zadáme všechny proměnné. a) V hlavním menu vybereme MODEL→Ordinary Least Squares a objeví se následující dialogové okno, kde doplníme Y (počet pracovních hodnin) jako závislou proměnnou, a X1, X2, X3, X4 jako regresory, tzn. nezávislé proměnné, jak ukazuje Obrázek 30. X1 (počet pacientů) X2 (lůžka) X3 (populace) X4 (pobyt) Y (počet pracovních hodin) 15,57 472,92 18 4,45 566,52 44,02 1339,75 9,5 6,92 696,82 20,42 620,25 12,8 4,28 1033,15 18,74 568,33 36,4 3,9 1603,62 49,2 1497,6 35,7 5,5 1611,37 44,92 1365,83 24 4,6 1613,27 55,48 1687 43,3 5,62 1854,17 59,28 1639,92 46,7 5,15 2160,55 94,39 2872,33 78,7 6,18 2305,58 128,02 3655,08 180,5 6,15 3503,93 96 2912 60,9 5,88 3571,89 131,42 3921 103,7 4,88 3741,4 127,21 3865,67 126,8 5,5 4026,52 252,9 7684,1 157,7 7 10343,81 409,2 12446,33 169,4 10,78 11732,17 463,7 14098,4 331,4 7,05 15414,94 510,22 15524 371,6 6,35 18854,45 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 117 Obrázek 30: Dialogové okno – specifikace modelu Potvrdíme tlačítkem budiž a dostáváme následující výstup, který je zobrazen na Obrázku 31. Obrázek 31: Odhad koeficientů metodou nejmenších čtverců Z tohoto výstupu vidíme, že rovnice modelu je 𝑌 = 2789,6 − 26,8𝑥1 + 2,1𝑥2 − 1,5𝑥3 − 561,2𝑥4; přičemž jediný statisticky významný koeficient je koeficient 𝑏4. To ukazuje na možnou multikolinearitu mezi proměnnými. A dává to smysl, protože počet pocientů, počet obsazených lůžek a velikost populace jistě spolu souvisí. Proto v dalším kroku vypočteme korelační matici a podíváme se na vzájemné korelační koeficienty. Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 118 b) V nabídce ZOBRAZIT vybereme KORELAČNÍ MATICE a dostaneme výsledek na Obrázku 32. Obrázek 32: Korelační matice Z tohoto výsledků vidíme, že v modelu ponecháme proměnnou 𝑥4 (doba pobytu v nemocnici) a z ostatních proměnných ponecháme proměnnou 𝑥2 (počet obsazených lůžek), protože koeficient 𝑏2 měl nejmenší p hodnotu ve výstupu regresního modelul. Multikolinearita může mít několik negativních dopadů na regresní analýzu: • Snížení interpretovatelnosti: Když jsou nezávislé proměnné mezi sebou silně korelované, je obtížnější určit, jaký vliv má každá z těchto proměnných na závislou proměnnou. Koeficienty regresního modelu mohou být nepřesné a záviset na konkrétní konfiguraci dat. • Nestabilita koeficientů: Malé změny v datech mohou vést k velkým změnám v koeficientech regresního modelu, což ztěžuje stabilitu a spolehlivost interpre- tace. • Zvýšení variancí koeficientů: Multikolinearita může způsobit zvýšení variancí odhadnutých koeficientů, což může vést k nižší přesnosti predikce a může také zhoršit schopnost modelu generalizovat na nová data. • Nepřesnost významnosti proměnných: Multikolinearita může vést k nesprávným výsledkům týkajícím se statistické významnosti nezávislých proměnných. Proměnné, které by mohly být významné, mohou být považovány za nevýznamné kvůli vzájemné korelaci s jinými proměnnými. • Zvýšení rozptylu reziduí: Multikolinearita může také způsobit, že rezidua (odchylky skutečných hodnot od předpovídaných) budou mít vyšší rozptyl, což může naznačovat, že model nepopisuje data efektivně. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 119 Jak se s multikolinearitou zachází? Existuje několik postupů: • Zpětná eliminace proměnných: Zkuste postupně vyřazovat nebo kombinovat silně korelované proměnné, abyste snížili kolinearitu a zlepšili stabilitu modelu. • Získání více dat: Větší množství dat může pomoci rozptýlit vliv multikolinearity. • Transformace proměnných: Transformace dat (např. normalizace, standardizace) může pomoci snížit multikolinearitu. Celkově je důležité identifikovat a řešit multikolinearitu, aby byly výsledky regresní analýzy spolehlivé a interpretabilní. c) Nový model tedy sestavíme bez proměnných 𝑥2 a 𝑥4. Výsledek vidíme na Obrázku 33, rovnice modelu je 𝑌 = 2585,5 + 1,2𝑥2 − 531𝑥4; a oba regresní koeficienty 𝑏2, 𝑏4 jsou statisticky významné, tzn. nenulové, a tedy proměnné 𝑥2 a 𝑥4 přispívají k vysvětlení nezávislé proměnné y (počet odpracovaných hodin v nemocnici). Koeficient determinace je vysoký (0,98), a tato hodnota říká, že 98% celkové variability je vysvětleno modelem. Také P-hodnota (F) = 1,91 ∙ 10−13 je menší než zvolená hladina významnosti 𝛼 = 0,05; proto nulovou hypotézu o nulovosti všech regresních koeficientů zamítáme, jinými slovy můžeme tvrdit, že model jako celek je zvolen správně. Obrázek 33: Odhad nového (redukovaného) modelu Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 120 d) Předpověď počtu odpracovaných hodin v nemocnici s průměrným denním počtem pacientů 150, s 5000 obsazenými lůžky za měsíc, se 100 tis. obyvateli ve spádové oblasti a s průměrnou délkou pobytu 6 dní. Původní model: 𝑌 = 2789,6 − 26,8𝑥1 + 2,1𝑥2 − 1,5𝑥3 − 561,2𝑥4 Dosadíme hodnoty a dostáváme: 𝑌 = 2789,6 − 26,8 ∙ 150 + 2,1 ∙ 5000 − 1,5 ∙ 100 − 561,2 ∙ 6 = 5752,4 hodin. Redukovaný model: 𝑌 = 2585,5 + 1,2𝑥2 − 531𝑥4 Dosadíme hodnoty a dostáváme: 𝑌 = 2585,5 + 1,2 ∙ 5000 − 531 ∙ 6 = 5399,5 hodin. Nyní se podívejme na znaménka u jednotlivých regresních koeficientů, která říkají, že s rostoucím počtem lůžek roste počet odpracovaných hodin v dané nemocnici, a s rostoucím počtem dnů, které pacienti stráví v nemocnici počet odpracovaných hodin v dané nemocnici klesá. e) Diagnostika modelu: Testy → Heteroskedasticita → Whiteův test Vyhodnocení testu hetrosdedaticity provedeme na základě vypočtené p-hodnoty. Testuje se nulová hypotéza H0: homoskedasticita reziduí (tj. konstantní rozptyl reziduí), opoti alternativní hypotéze H1: heteroskedasticita reziduí. P-hodnota = 0,135 je větší než zvolené α = 0,05; proto H0 nelze zamítnout, nebylo tedy prokázáno, že by rezidua neměla konstantní rozptyl. Obrázek 34: Test heteroskedasticity Pro testování normality vybereme ve výstupu modelu TESTY→Normalita reziduí. A dostaneme výsledek, který zachycuje Obrázek 35. Vyhodnocení provedeného testu normality je pravděpodobně nejsnazší odvodit z průběhu grafu předpokládaného normálního rozdělení v porovnání se skutečným rozdělením reziduí a analýzou p-hodnoty Chíkvadrát testu. Testuje se nulová hypotéza H0: Rezidua mají normální rozdělení, oproti Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 121 H1: Rezidua nemají normální rozdělení. P-hodnota = 0,02 je menší než zvolené α = 0,05; proto H0 zamítáme, a bylo tedy prokázáno, že rezidua nemají normální rozdělení. Obrázek 35: Test normality Pokud chceme pomocí programu GRETL testovat autokorelaci, musíme vstupní data uložit jako časovou řadu. Testuje se, zda je ut závislé na ut-1. Vybereme ve výstupu modelu záložku TESTY→Autokorelace. A dostaneme výsledek, který zachycuje Obrázek 36. Obrázek 36: Test autokorelace Testuje se nulová hypotéza H0: Rezidua nejsou autokorelována, oproti H1: Rezidua jsou autokorelována. P-hodnota = 0,209 je větší než zvolené α = 0,05; proto H0 nelze zamítnout, nebylo tedy prokázáno, že by rezidua byla autokorelována. Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 122 SAMOSTATNÉ ÚKOLY 6.1 V následující tabulce jsou uvedeny hodnoty obratu, výdajů na vědu a výzkum (VaV) a zisku za 18 průmyslových odvětví v USA v roce 2023. Vytvořte lineární regresní model závislosti zisku na obratu a výdajích na VaV. Zjistěte, zda je v modelu přítomna multikolinearita a heteroskedasticita. Použijte postupy, které jste se naučili v této kapitole. ODPOVĚDI 6.1 𝑌 = 791,54 + 0,069. 𝑥1 + 0,369. 𝑥2 x1…obrat; x2…výdaje na VaV; koeficient 36902 ,=b není statisticky významný Korelační koeficient = 0,9 je statisticky významný na hladině významnosti 0,01. V modelu je přítomna multikolinearita. Závislost zisku na obratu: 𝑌 = 862,85 + 0,08. 𝑥1 Koeficient 0,08 je statisticky významný. Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota -809,8808 809,8807591 Rozptyl 1219536 20761396,39 Pozorování 9 9 Rozdíl 8 8 F 0,058741 P(F<=f) (1) 0,000289 F krit (1) 0,290858 Obrat VaV Zisk 6375,3 62,5 185,1 11626,4 92,9 1569,5 14655,1 178,3 276,8 21869,2 258,4 2828,1 26408,3 494,7 225,9 32405,6 1083,0 3751,9 35107,7 1620,6 2884,1 40295,4 421,7 4645,7 70761,6 509,2 5036,4 80552,8 6620,1 13869,9 95294,0 3918,6 4487,8 101314,1 1595,3 10278,9 116141,3 6107,5 8787,3 122315,7 4454,1 16438,8 141649,9 3163,8 9761,4 175025,8 13210,7 19774,5 230614,5 1703,8 22626,6 293543,0 9528,2 18415,4 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 123 Nulovou hypotézu: rozptyly obou souborů jsou stejné můžeme zamítnout, a lze tvrdit, že rozptyl náhodné složky není konstantní neboli heteroskedasticita je v modelu přítomna. Závislost zisku na VaV je dána vztahem 𝑌 = 3817,11 + 1,4. 𝑥2 a koeficient 1,4 je statisticky významný. Nulovou hypotézu: rozptyly obou souborů jsou stejné nelze zamítnout, a proto rozptyl náhodné složky je konstantní neboli heteroskedasticita není v modelu přítomna. SHRNUTÍ KAPITOLY Tato kapitola se věnovala identifikaci a analýze problémů, které způsobuje nesplnění hlavních předpokladů klasického vícerozměrného lineárního regresního modelu. Jednalo se o multikolinearitu, heteroskedasticitu a autokorelaci. Multikolinearitou rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu. Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita, která spočívá v tom, že rozptyl poruchy i v populačním lineárním regresním modelu je konstantní. Autokorelace je korelace mezi pozorováními uspořádanými v čase, (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota -1348,771 1348,770762 Rozptyl 7292620 43919891,06 Pozorování 9 9 Rozdíl 8 8 F 0,166044 P(F<=f) (1) 0,010033 F krit (1) 0,290858 Základy analýzy časových řad 124 7 ZÁKLADY ANALÝZY ČASOVÝCH ŘAD RYCHLÝ NÁHLED KAPITOLY Důležitým nástrojem ke zkoumání dynamiky ekonomických procesů je analýza časových řad. Časovou řadou přitom rozumíme věcně a prostorově srovnatelná pozorování uspořádaná v čase směrem od minulosti přes přítomnost k budoucnosti. Obsahem této kapitoly je objasnit typizaci ekonomických časových řad, vysvětlit elementární charakteristiky časových řad, uvést základní modely časových řad a popsat jejich složky. Analýza časových řad je vedena snahou po vysvětlení minulosti a předvídání budoucnosti, v ekonomické oblasti se jedná o vývojové trendy ukazatelů hospodářské činnosti. Analýza časových řad jako soubor metod a postupů nabízí širokou škálu nástrojů a technik. Ke klasickým analytickým postupům založeným na regresi z předchozích kapitol a syntetickým přístupům založeným na technikách vyrovnání časových řad, přistupuje moderní, výpočetně náročnější Box-Jenkinsova metodologie. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: uvést typy ekonomických časových řad, vypočítat hodnoty očištěné časové řady, vypočítat základní charakteristiky časových řad. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 60 minut. KLÍČOVÁ SLOVA KAPITOLY Časová řada, diference časové řady, koeficient růstu, očištěná hodnota časové řady. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 125 7.1 Typy ekonomických časových řad Důležitým nástrojem ke zkoumání dynamiky ekonomických procesů je analýza časových řad. Časovou řadou přitom rozumíme věcně a prostorově srovnatelná pozorování uspořádaná v čase směrem od minulosti přes přítomnost k budoucnosti. Časové řady členíme následujícím způsobem: • podle charakteru časové řady na intervalové časové řady a okamžikové časové řady, • podle periodicity, s jakou jsou sledovány, na krátkodobé časové řady (méně než roční periodicita), střednědobé časové řady (roční periodicita) a dlouhodobé časové řady (delší, než roční periodicita), • podle druhu sledovaných ukazatelů (údajů) na časové řady absolutních ukazatelů a časové řady odvozených ukazatelů. Intervalovou časovou řadou se rozumí časová řada intervalového ukazatele ty , tj. ukazatele, jehož velikost (hodnota) závisí na délce intervalu, za který je sledován. Pro ukazatele tohoto typu je možné tvořit součty, z jejich povahy však vyplývá, že se vztahují ke stejně dlouhým časovým intervalům, jinak by byly hodnoty vzájemně nesrovnatelné. Není např. správné srovnávat výrobu za leden a únor, neboť únor je z hlediska počtu pracovních dní kratší. Abychom zajistili srovnatelnost, přepočítáváme všechna sledovaná období na stejný časový interval. Tato operace se nazývá očišťování časových řad od kalendářních variací. Údaje očištěné časové řady 𝑦𝑡 (0) dostaneme z hodnoty očišťovaného ukazatele 𝑦𝑡 takto: 𝑦𝑡 (0) = 𝑦𝑡 𝑘̄ 𝑡 𝑘 𝑡 , (7.1) kde 𝑘̄ 𝑡 je průměrný počet dnů v příslušném dílčím období, 𝑘 𝑡 je skutečný počet dnů v příslušném dílčím období t. Okamžikovou časovou řadou rozumíme časovou řadu ukazatelů, které se vztahují k určitému okamžiku, např. počátku nebo konci určitého časového intervalu (období). Protože součet za několik za sebou jdoucích okamžikových hodnot obvykle nemá reálný smysl, shrnují se řady tohoto typu pomocí chronologického průměru. Pro dané ekvidistantní (stejně vzdálené) časové okamžiky t1, t2, ..., tn, ke kterým přísluší hodnoty okamžikových ukazatelů y1, y2, ..., yn je prostý chronologický průměr definován jako aritmetický průměr z aritmetických průměrů vždy dvou po sobě jdoucích hodnot, tedy: 𝑦̄ 𝑐ℎ = 𝑦1+𝑦2 2 + 𝑦2+𝑦3 2 +...+ 𝑦 𝑛−1+𝑦 𝑛 2 𝑛−1 (7.2) Není-li délka mezi jednotlivými časovými okamžiky stejná, definujeme vážený chronologický průměr, kde vahami jsou délky jednotlivých časových intervalů dk = tk+1 - tk, k = 1,2, ..., n–1: Základy analýzy časových řad 126 121 1 1 2 32 1 21 ... 2 ... 22 − − − +++ + ++ + + + = n n nn ch ddd d yy d yy d yy y . (7.3) Časový rozdíl mezi časovými okamžiky, tedy délka časového intervalu v okamžikové časové řadě, se nazývá periodicita časové řady. Je-li periodicita ekonomických časových řad kratší než jeden rok, hovoříme o krátkodobých časových řadách. Nejčastější periodicitou je měsíční periodicita. Je-li periodicita roční, hovoříme často o střednědobých časových řadách, při delší periodicitě, např. pětileté, hovoříme o dlouhodobých časových řadách. Časovou řadou absolutních hodnot se obvykle rozumí časová řada přímo zjištěných údajů (v naturálních jednotkách) očištěná od kalendářních variací. Odvozené údaje a z nich vytvořené časové řady získáme obvykle matematickými operacemi z absolutních údajů. Většinu důležitých ekonomických časových řad tvoří časové řady ukazatelů vyjádřených v peněžní formě. Vzhledem ke změnám cenové hladiny, které jsou v tržní ekonomice přirozené, však v delší časové řadě často dostáváme posloupnost údajů, které nejsou vždy zcela souměřitelné. Proto důležitým problémem v analýze časových řad je srovnatelnost údajů, konkrétně cenová srovnatelnost. Při sestavování delší časové řady je možno v zásadě postupovat dvojím způsobem: použít běžné ceny a vyjádřit z nich absolutní objem určitého ukazatele, resp. tempa růstu, nebo vycházet ze stálých cen, tj. cen fixovaných k určitému datu. Používání stálých cen v ekonomice vede ke zmírnění negativních tendencí v účinnosti základních fondů vyplývajících z vlivu technického rozvoje na výrobu, dále vede ke zreálnění výsledků hospodářského vývoje vzhledem k mezinárodnímu srovnání. Vývoj základních ekonomických ukazatelů v České republice je možné sledovat na webových stránkách Českého statistického úřadu. Pro potřeby vrcholového řízení ve firmách a podnicích slouží především údaje o vývoji základních ukazatelů podle měsíců, neboť jde o informace s určitým vztahem k okamžité odezvě v chování ekonomických subjektů, ať už výrobců, nebo spotřebitelů. Jsou to zejména informace o inflaci (index spotřebitelských cen a indexy životních nákladů), dále informace o peněžních příjmech a výdajích obyvatelstva, o celkovém prodeji v maloobchodě, průmyslové, zemědělské a stavební výrobě a též údaje o nezaměstnanosti. Zdrojem informaci a dat jsou webové stránky Českého statistického úřadu (ČSÚ), www.czso.cz případně Statistického úřadu Evropské komise EUROSTAT: http://epp.eurostat.ec.europa.eu , Česká národní banka https://www.cnb.cz/cs/ , The world bank https://databank.worldbank.org/source/world-development-indicators#. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 127 7.2 Elementární charakteristiky časových řad Mezi elementární metody analýzy časových řad patří vizuální analýza chování ukazatele využívající grafů spolu s určováním elementárních statistických charakteristik, ke kterým patří absolutní diference různého řádu a koeficient růstu časové řady. Označíme-li yt hodnoty určitého ukazatele v čase t = 1,2, ..., n (např. v jednotlivých měsících), potom absolutní diferencí prvního řádu rozumíme rozdíl: 𝛥(1) 𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1, t = 2,3, ..., n. (7.4) Obdobně lze definovat absolutní diference vyšších řádů: 𝛥(2) 𝑦𝑡 = 𝛥(1) 𝑦𝑡 − 𝛥(1) 𝑦𝑡−1= 𝑦𝑡 − 2𝑦𝑡−1 + 𝑦𝑡−2, t = 3,4, ..., n, 𝛥(3) 𝑦𝑡 = 𝛥(2) 𝑦𝑡 − 𝛥(2) 𝑦𝑡−1= 𝑦𝑡 − 3𝑦𝑡−1 + 3𝑦𝑡−2 − 𝑦𝑡−3, t = 4,5, ..., n Další používanou elementární charakteristikou je koeficient růstu, který udává, o kolik procent vzrostla hodnota časové řady v daném časovém okamžiku oproti období v předchozím časovém okamžiku: 𝑘 𝑡 = 𝑦 𝑡 𝑦 𝑡−1 , t = 2,3, ..., n. (7.5) Při hodnocení vývoje za celou analyzovanou řadu zjišťujeme souhrnné charakteristiky – průměrný absolutní přírůstek: 𝛥̄ = 1 𝑛−1 ∑ 𝛥(1) 𝑦 = 𝑦 𝑛−𝑦1 𝑛−1 𝑡 𝑛 𝑡=2 , (7.6) a průměrný koeficient růstu: 𝑘̄ = √𝑘2 𝑘3. . . 𝑘 𝑛 𝑛−1 = √ 𝑦 𝑛 𝑦1 𝑛−1 . (7.7) Jak průměrný absolutní přírůstek, tak průměrný koeficient růstu závisí pouze na první a poslední hodnotě časové řady. Průměrný absolutní přírůstek ukazuje, o kolik by se měl ukazatel pravidelně měnit (v absolutních jednotkách), aby se hodnota ukazatele změnila z původní první hodnoty y1 na poslední hodnotu yn. Naproti tomu průměrný koeficient růstu poskytuje informaci, o kolik procent by se měla hodnota ukazatele měnit, tj. jaká by měla být rychlost růstu (poklesu), aby se hodnota ukazatele změnila z původní první hodnoty y1 na poslední hodnotu yn. Základy analýzy časových řad 128 7.3 Modely ekonomických časových řad Modelový přístup k analýze časových řad bude vycházet z předpokladu, že jediným faktorem dynamiky ukazatele v časové řadě je čas. Ostatní faktory působící na hodnotu ukazatele budeme většinou zanedbávat. Model časové řady tohoto typu můžeme zapsat ve formě: 𝑦𝑡 = 𝑓(𝑡, 𝜀𝑡), (7.8) kde yt je hodnota analyzovaného ukazatele v čase t, f je určitá funkce (typ závislosti), t je časová proměnná, 𝜀𝑡 je hodnota náhodné složky. Modely časových řad založené na výše uvedeném principu se nazývají jednorozměrné modely. Každá časová řada může obsahovat 4 složky, které vyjadřují různé druhy pohybu analyzovaného ukazatele: • trendovou složku (trend) Tt, • sezónní složku St, • cyklickou složku Ct, • náhodnou složku t . • Trendová, sezónní a cyklická složka tvoří společně systematickou (deterministickou) složku, kterou značíme Yt, tj. 𝑌𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝐶𝑡. Zpravidla se uvažuje, že složky Yt jsou v aditivním vztahu, takže model časové řady můžeme zapsat ve tvaru: 𝑦𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝐶𝑡 + 𝜀𝑡. (7.9) V tom případě mluvíme o aditivním modelu časové řady. V ekonomických časových řadách se nejčastěji setkáváme se dvěma speciálními případy modelu (7.9). U střednědobých modelů (s roční periodicitou) se obvykle předpokládá 𝑆𝑡 = 𝐶𝑡 = 0, pak model časové řady (7.9) má tvar: 𝑦𝑡 = 𝑇𝑡 + 𝜀𝑡. (7.10) U krátkodobých modelů časových řad (s čtvrtletní nebo měsíční periodicitou) se předpokládá, že 𝐶𝑡 = 0, a tedy model (7.9) má tvar: 𝑦𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝜀𝑡, (7.11) mluvíme pak o časové řadě se sezónní složkou. Vedle aditivního modelu (8.9) je multiplikativní model založen na předpokladu, že vzájemný vztah jednotlivých složek obsažených v modelu je dán vzájemným násobením: 𝑦𝑡 = 𝑇𝑡 ⋅ 𝑆𝑡 ⋅ 𝐶𝑡 ⋅ 𝜀𝑡. (7.12) Popis a kvantifikace jednotlivých složek modelu časové řady patří k hlavním úkolům analýzy časových řad. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 129 ŘEŠENÁ ÚLOHA 7.1 V tabulce jsou uvedeny průměrné měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B v letech 2015-2023. Pro tuto časovou řadu vypočítejte: a. absolutní přírůstky a průměrný absolutní přírůstek, b. koeficienty růstu a průměrný koeficient růstu. Roky 2015 2016 2017 2018 2019 2020 2021 2022 2023 Mzda 2980 3110 4500 5650 7460 8930 10670 12820 13250 Řešení: a. Absolutní přírůstky vypočítáme podle vztahu (7.4): 𝛥(1) 𝑦2 = 𝑦2 − 𝑦1 =3110 − 2980 = 130, atd. Výsledek říká, že průměrné měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B stouply v letech 2015-2016 o 130 Kč. Všechny absolutní přírůstky jsou uvedeny v následující tabulce. Průměrný absolutní přírůstek je podle (7.6): ., n yyn 751283 8 298013250 1 1 = − = − − = b. Koeficienty růstu vypočítáme podle vztahu (7.5). Např.: k y y2 2 1 3110 2980 10436= = = , . Průměrné měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B vzrostly v letech 2015- 2016 o 4,36%. Hodnoty ostatních koeficientů růstu jsou uvedeny v následující tabulce. Průměrný koeficient růstu vypočítáme podle (7.7): .205,1 2980 1325081 1 === −n n y y k Výsledek ukazuje, že měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B rostly ročně v průměru o 20,5%. Roky 2015 2016 2017 2018 2019 2020 2021 2022 2023 Mzda 2980 3110 4500 5650 7460 8930 10670 12820 13250 y)1( Δ  130 1390 1150 1810 1470 1740 2150 430 k . 1,04 1,45 1,26 1,32 1,20 1,19 1,20 1,03 SAMOSTATNÉ ÚKOLY 7.1 V tabulce jsou uvedeny počty prodaných automobilů v autocentru A+A v letech 2016 až 2023. Pro tuto časovou řadu vypočítejte: a) absolutní přírůstky a průměrný absolutní přírůstek b) koeficienty růstu a průměrný koeficient růstu. Rok 2016 2017 2018 2019 2020 2021 2022 2023 Počet 120 159 167 175 197 172 199 240 Základy analýzy časových řad 130 7.2 Uvedené údaje v tabulce zachycují zisk firmy v tis. Kč v letech 2017-2023. Pro tuto časovou řadu vypočítejte: a) absolutní přírůstky a průměrný absolutní přírůstek b) koeficienty růstu a průměrný koeficient růstu. ODPOVĚDI 7.1 Rok Počet Abs.přírůstky Koeficienty růstu 2016 120 xxx xxx 2017 159 39 1,325 2018 167 8 1,050 2019 175 8 1,048 2020 197 22 1,126 2021 172 -25 0,873 2022 199 27 1,157 2023 240 41 1,206 Průměrný absolutní přírůstek je podle (7.6): .,1417= Průměrný koeficient růstu vypočítáme podle (7.7): .,1041=k Počet prodaných automobilů rostl ročně v průměru o 10,4%. 7.2 Rok Počet Abs.přírůstky Koeficienty růstu 2017 1303,6 xxx xxx 2018 1381,1 77,5 1,059 2019 1447,7 66,6 1,048 2020 1432,8 -14,9 0,990 2021 1401,3 -31,5 0,978 2022 1390,6 -10,7 0,992 2023 1433,8 43,2 1,031 Průměrný absolutní přírůstek je podle (7.6): 7,21=Δ tis. Kč. Průměrný koeficient růstu vypočítáme podle (7.7): .016,1=k Zisk firmy rostl ročně v průměru o 1,6%. Rok 2017 2018 2019 2020 2021 2022 2023 Počet 1303,6 1381,1 1447,7 1432,8 1401,3 1390,6 1433,8 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 131 SHRNUTÍ KAPITOLY Obsahem této kapitoly bylo objasnit typizaci ekonomických časových řad, vysvětlit elementární charakteristiky časových řad, uvést základní modely časových řad a popsat jejich složky. Časová řada se dá rozložit na čtyři složky. Jedná se o složku trendovou, sezónní, cyklickou a náhodnou. Cyklickou složku v ekonomických časových řadách zanedbáváme, protože popisuje jevy, které se opakují za období delší než 1 rok. V případě, že se jednotlivé složky sčítají, tak se jedná o aditivní model, v případě násobení jednotlivých složek mluvíme o multiplikativním modelu. Analýza časových řad je vedena snahou po vysvětlení minulosti a předvídání budoucnosti, v ekonomické oblasti se jedná o vývojové trendy ukazatelů hospodářské činnosti. analýza trendu časových řad 132 8 ANALÝZA TRENDU ČASOVÝCH ŘAD RYCHLÝ NÁHLED KAPITOLY V této kapitole se budete zabývat trendovou složkou časové řady, která představuje nejdůležitější komponentu analyzované časové řady. Proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. Vycházíme přitom z předpokladu, že jediným faktorem vývoje dynamiky analyzovaného ukazatele je čas. Trendová složka totiž poskytuje rozhodující informaci pro prognózování hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Z velkého množství používaných trendových funkcí se zaměříme na několik z nich, které mají význam především v ekonomických aplikacích. Jsou to: lineární trend, parabolický trend, exponenciální trend, logistický trend a Gompertzův trend. Syntetický přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemusíte proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózování hodnot časové řady. Z existujících metod syntetického přístupu uvedeme metody klouzavého průměru a exponenciální vyrovnání. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: uvést přístupy používané k určení trendové složky, napsat lineární, kvadratickou, exponenciální a logaritmickou trendovou funkci, vztahy pro výpočet odhadů parametrů lineární trendové funkce, vypočítat koeficient determinace, vyrovnat časovou řadu klouzavými průměry, použít pro vyrovnání časové řady exponenciální vyrovnání. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 133 ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 120 minut. KLÍČOVÁ SLOVA KAPITOLY Trendová složka, lineární trendová funkce, koeficient determinace, klouzavé průměry, koeficient korelace. 8.1 Trendová složka časových řad Jak již bylo v průvodci studiem řečeno, v této kapitole vycházíme z předpokladu, že jediným faktorem vývoje dynamiky analyzovaného ukazatele je čas t. Jednoduchý způsob volby časové proměnné spočívá v jejím zavedení tak, že časová řada začíná v okamžiku 1, ke kterému se vztahuje první člen analyzované časové řady y1. Další časové okamžiky označujeme po řadě přirozenými čísly 2,3, ..., n. Symbol n označuje poslední uvažovaný časový okamžik a zároveň i počet uvažovaných časových okamžiků. Jiný jednoduchý a výhodný způsob označení časové proměnné spočívá v zavedení nové časové proměnné t´ následujícím způsobem: 𝑡′ = (𝑡 − 𝑡̄), (8.1) je-li počet členů časové řady n lichý, pak 2 1+ = n t , jak ukazuje Tabulka 12, nebo 𝑡′ = 2(𝑡 − 𝑡̄), (8.2) je-li počet členů n sudý, jak ukazuje Tabulka 13. Nová časová proměnná splňuje důležitý požadavek: ∑ 1= ′ n t t = 0. (8.3) Tabulka 12: Transformovaná proměnná při lichém časová n Rok 2017 2018 2019 2020 2021 2022 2023 t 1 2 3 4 5 6 7 t´ -3 -2 -1 0 1 2 3 Tabulka 13: Transformovaná časová proměnná při sudém n Rok 2018 2019 2020 2021 2022 2023 t 1 2 3 4 5 6 t´ -5 -3 -1 1 3 5 analýza trendu časových řad 134 Dále uvedené vztahy pro výpočet odhadů teoretických hodnot parametrů jsou uváděny po zavedení transformací v Tabulkách 12 a 13. Trendová složka představuje nejdůležitější komponentu analyzované časové řady, a proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. Trendová složka totiž poskytuje rozhodující informaci pro prognózování hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Syntetický přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě (tzv. vyrovnání) tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemusíme proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózování hodnot časové řady. Z existujících metod syntetického přístupu uvedeme metody klouzavého průměru a exponenciální vyrovnání. 8.2 Trendové funkce Z velkého množství používaných trendových funkcí se zaměříme na několik z nich, které mají význam především v ekonomických aplikacích. Jsou to: lineární trend, parabolický trend, exponenciální trend, logistický trend a Gompertzův trend. Výhodou těchto trendových funkcí je to, že je lze snadno použít pro účely prognózování. Nevýhodou je fakt, že typ trendové funkce musíme stanovit předem na základě externích, mnohdy subjektivních předpokladů a informací. Nejužívanější metodou odhadu neznámých parametrů trendové funkce je metoda nejmenších čtverců (MNČ), s níž jsme se setkali již v kapitole 3. Zde tuto metodu aplikujeme na speciální typ jednoduché regrese pro data ve formě ekonomické časové řady, tedy případ, kdy nezávisle proměnnou je čas a závisle proměnnou tvoří sledovaný ekonomický ukazatel. Kromě metody nejmenších čtverců pro nelineární trendové funkce uvedeme alternativní metodu vybraných bodů (MVB). 8.2.1 LINEÁRNÍ TREND Nejčastěji používanou trendovou funkcí je lineární trendová funkce: 𝑇𝑡 = 𝛽0 + 𝛽1 𝑡, (8.4) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 135 kde 𝛽0, 𝛽1 jsou neznámé parametry a t = 1,2, ..., n je časová proměnná. Odhady neznámých parametrů, které označujeme 𝑏0, 𝑏1, získáme metodou nejmenších čtverců, která dává nejlepší nestranné odhady. V souladu s postupem z kapitoly 3 je zapotřebí vyřešit 2 normální rovnice (3.12), kde xi nahradíme t: ∑ 𝑦𝑡 = 𝑏0 𝑛 +  𝑏1 ∑ 𝑡, (8.5) ∑ 𝑡𝑦𝑡 = 𝑏0 ∑ 𝑡 + 𝑏1 ∑ 𝑡2 . (8.6) Použijeme-li nyní časové transformace (8.1), (8.2) a s využitím vztahu (8.3) dostaneme jednoduché řešení normálních rovnic (8.5), (8.6): n y b t=0 , ( )21     = t yt b t . (8.7) Parametr b0 interpretujeme jako aritmetický průměr hodnot časové řady, parametr b1 udává, jaký přírůstek hodnoty Tt odpovídá jednotkovému přírůstku proměnné t. ŘEŠENÁ ÚLOHA 8.1 V následující tabulce jsou uvedeny počty prodaných automobilů v autocentru A+A v letech 2016 až 2023. Pro tuto časovou řadu vypočítejte: Rok 2016 2017 2018 2019 2020 2021 2022 2023 Počet 120 159 167 175 197 172 199 240 a. Trend v prodeji automobilů popište lineární trendovou funkcí. b. Jaký počet prodaných automobilů lze očekávat v roce 2024 s 95 % pravděpodobností? (Stanovte bodový odhad a 95 %-ní interval spolehlivosti prognózy.) c. Stanovte koeficient determinace a na jeho základě určete přiléhavost dat k trendové funkci. Řešení: a. Podle vztahu (8.2) zavedeme novou časovou proměnnou t (viz následující tabulka). Rok t´ yt t´2 tyt ′ Tˆ ( )2 Ty  ( )2 yy 2016 -7 120 49 -840 133,818 190,937 3436,891 2017 -5 159 25 -795 146,620 153,264 385,141 2018 -3 167 9 -501 159,422 57,426 135,141 2019 -1 175 1 -175 172,224 7,706 13,141 2020 1 197 1 197 185,026 143,377 337,641 2021 3 172 9 516 197,828 667,086 43,891 2022 5 199 25 995 210,630 135,257 415,141 2023 7 240 49 1680 223,432 274,499 3766,891 Součet 0 1429 168 1077 1629,552 8533,875 analýza trendu časových řad 136 Odhady b0, b1 parametrů 0, 1 trendové funkce: 𝑇𝑡 = 𝛽0 + 𝛽1 𝑡′ , 𝑡′ = −7, −5, −3, … vypočítáme podle vztahů: 625,178 8 1429 0 ===  n y b t , .410,6 168 1077 21 ==   =   t yt b t Odhadnutá trendová funkce má tvar: Tˆ = 178,625 + 6,41t , t = −7, −5, −3, … b. Očekávaný prodej v roce 2024 vypočítáme dosazením t´, které odpovídá roku 2024, do rovnice trendu: Tˆ = 178,625 + 6,4019  236,32. Intervalovou předpověď obdržíme dosazením potřebných hodnot do vztahu (4.8). Ve speciálním případě časové řady, kdy ti = xi, obdržíme po úpravách následující vztah pro interval spolehlivosti predikce na i časových okamžiků dopředu: [ )( iny + – t1-/2(n–2) )(iQs nR , )( iny + + t1-/2(n–2) )(iQs nR ], kde y(n + i) = Tˆ = 236,32 t1-/2(n − 2) = 2,45 sR = pn SR − )2)(1( 12)1( )1()( 2 22 2 −− +− −= nn inn RiQn , i = 1. Z tabulky obdržíte SR = 1629,552. Potom směrodatná chyba odhadu sR je sR = √ 1629,552 8−2 = 16,48. K výpočtu Qn(i) je zapotřebí znát hodnotu koeficientu determinace R2 8090 8758533 5521629 112 , , , =−=−= y R S S R . Výpočet součtu Sy je uveden v tabulce. Potom 510 378 516 1910 28164 121648 80901 ,, ))(( )( ),()( == −− +− −=iQn . Dosazením výše vypočítaných hodnot do obecného vztahu obdržíte levou (L) a pravou (P) mez intervalové předpovědi. L = 236,315 − 2,44716,48 510, = 207,52. P = 236,315 + 2,44716,48 510, = 265,11. Bodový odhad prodeje v roce 2018 je 236 automobilů. S 95 % pravděpodobností by se mělo v roce 2024 prodat mezi 208 a 265 automobily. c. Koeficient determinace byl vypočten v b: R2 = 0,809. Tato hodnota říká, že přiléhavost dat k trendové funkci je „vysoká“. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 137 8.2.2 KVADRATICKÝ TREND Rozšířením lineárního trendu o kvadratický člen dostaneme parabolickou trendovou funkci: 𝑇𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡2 , (8.8) kde 𝛽0, 𝛽1, 𝛽2 jsou neznámé parametry a t = 1,2, ..., n je časová proměnná. Odhady neznámých parametrů, které označujeme b b b0 1 2, , , získáme metodou nejmenších čtverců řešením soustavy 3 lineárních rovnic o 3 neznámých: ( )  ++= 2 210 tbtbnbyt , ( )  ++= 3 2 2 10 )( tbtbtbyt t , (8.9) ( )  ++= 4 2 3 1 2 0 2 )()()( tbtbtbyt t . Z podmínky (8.3) dostaneme z rovnice (8.9) ihned řešení: ( )21     = t yt b t . (8.10) Dosazením (8.10) do zbývajících dvou normálních rovnic obdržíme ještě řešení 𝑏0, 𝑏2: ( ) ( ) ( ) ( ) ( )( )224 224 0    − − = ttn tytty b tt , (8.11) ( ) ( ) ( ) ( )( )224 22 2    − − = ttn tytyn b tt . (8.12) 8.2.3 MOCNINNÝ TREND Mocninná trendová funkce má tvar: 𝑇𝑡 = 𝛽0 𝑡 𝛽1, (8.13) avšak namísto něj uvažujeme model, jenž vznikne logaritmováním obou stran (8.13): 𝑙𝑛𝑇𝑡 = 𝑙𝑛𝛽0 + 𝛽1 𝑙𝑛 𝑡, kde ln je přirozený logaritmus o základu e = 2,718... Použijeme analogický postup jako v případě jednoduché lineární regrese v kapitole 2.2.6. Jestliže nyní použijeme substituce tt TT ln= , tt ln= , (8.14) 00 ln  = , 11  = , (8.15) obdržíme „čárkovaný“ lineární trend: analýza trendu časových řad 138 𝑇′ 𝑡 = 𝛽′ 0 + 𝛽′ 1 𝑡″ , (8.16) jehož parametry 𝛽′ 0 , 𝛽′ 1 (regresní koeficienty) odhadneme metodou nejmenších čtverců a obdržíme tak jejich odhady 𝑏′ 0, 𝑏′ 1. Ze vztahů (8.15) vypočteme zpětně odhady 𝑏0, 𝑏1: 𝑏0 = 𝑒 𝑏′ 0,𝑏1 = 𝑏′ 1. 8.2.4 EXPONENCIÁLNÍ TREND Exponenciální trendová funkce má tvar: 𝑇𝑡 = 𝛽0 𝛽1 𝑡 , (8.17) který substitucemi: tt TT ln= , tt = , (8.18) 00 ln  = , 11 ln  = , (8.19) lze rovněž transformovat na „čárkovaný“ lineární trend, jehož parametry 𝛽′ 0 , 𝛽′ 1 odhadneme metodou nejmenších čtverců, a obdržíme tak odhady 𝑏′ 0, 𝑏′ 1. Ze vztahů (8.19) vypočteme odhady 𝑏0, 𝑏1 původního nelineárního regresního modelu (8.17): 𝑏0 = 𝑒 𝑏′ 0,𝑏1 = 𝑒 𝑏′ 1. Použití exponenciálního trendu je uvedeno v následující řešené úloze. ŘEŠENÁ ÚLOHA 8.2 V tabulce jsou uvedeny údaje o počtu vyrobených myček nádobí v letech 2017-2023. a. Trend ve výrobě tohoto výrobku popište exponenciální trendovou funkcí. b. Vypočítejte bodovou prognózu výroby na rok 2024, dále zjistěte koeficient determinace a na jeho základě zhodnoťte „přiléhavost“ dat k trendové funkci. Rok 2007 2018 2019 2020 2021 2020 2021 2022 2023 Myčky nádobí (tis. ks) 8 9 17 20 38 40 70 101 180 Řešení: Nejprve vypočítáte odhady b0, b1 parametrů exponenciální trendové funkce Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 139 𝑇𝑡 = 𝛽0 𝛽1 𝑡 . Logaritmováním této rovnice obdržíte vztah 𝑙𝑛𝑇𝑡 = 𝑙𝑛𝛽0 + 𝑡𝑙𝑛𝛽1. Zavedením substituce tt TT ln= , tt = , 00 ln  = , 11 ln  = se původní rovnice exponenciálního trendu transformuje na rovnici lineárního trendu. Zavedete novou časovou proměnnou 𝑡″ viz (8.1) a vypočítáte koeficienty 𝑏′ 0, 𝑏′ 1 4987,3 9 4886,31 0 ==  =  n y b t , 3872,0 60 2315,23 21 ==   =   t yt b t . Potom 𝑏0 = 𝑒 𝑏′ 0 = 𝑒3,4987 = 33,07, 𝑏1 = 𝑒 𝑏′ 1 = 𝑒0,3872 = 1,47. Hledaná trendová funkce má tvar 𝑇̂ 𝑡″ = 33,07 ⋅ 1,47 𝑡″ , 𝑡″ = −4, −3, −2, …. K bodovému odhadu využijeme nalezenou trendovou funkci, kam dosadíme t“ = 5, což je hodnota, která odpovídá netransformované časové hodnotě t = 2024. Koeficient determinace vyžaduje znát hodnotu celkového součtu Sy a reziduálního součtu SR (viz poslední dva sloupce v tabulce). Pro výpočet reziduálního součtu čtverců je dále třeba znát odhady teoretické hodnoty tT  ˆ , které obdržíme postupným dosazováním za t  do rovnice trendu, tedy např. pro t  = − 4: Rok t´´ y  =y lny t´´2 t´´ y T (y − T )2 ( )y y− 2 2004 -4 8 2,0794 16 -8,3178 7,0285 0,8425 2085,7489 2005 -3 9 2,1972 9 -6,5917 10,3519 1,9904 1995,4089 2006 -2 17 2,8332 4 -5,6664 15,2466 2,8771 1344,6889 2007 -1 20 2,9957 1 -2,9957 22,4558 6,2330 1133,6689 2008 0 38 3,6376 0 0 33,0737 24,3049 245,5489 2009 1 40 3,6889 1 3,6889 48,7122 74,1821 186,8689 2010 2 70 4,2485 4 8,4970 71,7452 2,1345 266,6689 2011 3 101 4,6151 9 13,8453 105,6690 16,3831 2240,1289 2012 4 180 5,1930 16 20,7718 155,6333 654,3364 15959,2689 Součet 0 490 31,4886 60 23,2315 783,2839 25458,0001 analýza trendu časových řad 140 Tˆ =33,071,47 − 4 = 7,08. Všechny hodnoty Tˆ i součtů Sy, SR najdete v tabulce. Pro koeficient determinace platí: .969,0 0001,25458 2839,783 112 =−=−= y R S S R Hodnota 0,969 říká, že přiléhavost dat k trendové křivce je vysoká. 8.2.5 LOGISTICKÝ TREND Logistická trendová funkce patří k nelineárním trendům, které se vyznačují horní asymptotou, tj. hranicí, k níž se hodnoty ukazatele přibližují pro neomezeně rostoucí hodnoty času, a jedním inflexním bodem, v němž graf logistické funkce přechází z konvexního do konkávního tvaru. Pro tvar podobný písmenu S se takovým křivkám říká S-křivky. V ekonomické oblasti, speciálně v marketingu, se tato funkce používá při modelování poptávky po zboží dlouhodobé spotřeby, ale také při modelování vývoje výroby a prodeje některých druhů výrobků. Na rozdíl od předchozích trendových funkcí, které byly definovány jednoznačně, logistická funkce bývá vyjadřována v několika různých variantách, uvedeme zde nejpoužívanější tvar: 𝑇𝑡 = 𝜅 1+𝛽0 𝛽1 𝑡, (8.20) kde 𝛽0, 𝛽1, k jsou neznámé parametry a t = 1,2, ..., n je časová proměnná, přitom se kvůli zachování tvaru S-křivky předpokládá, že 0 < , 10,0 10   . Odhady neznámých parametrů, označujeme je 10 ,bb , k lze opět získat metodou nejmenších čtverců, která dává nejlepší výsledky, i když vede na řešení soustavy nelineárních rovnic vyžadující použití složitějších výpočetních metod, např. iteračních metod. Proto zde ukážeme jinou metodu výpočtu neznámých parametrů, která sice nevede z teoretického pohledu k nejlepším odhadům, avšak její výhoda spočívá ve výpočetní nenáročnosti umožňující „ruční“ výpočet. Tato metoda se nazývá metoda vybraných bodů a spočívá v tom, že z daných údajů časové řady vybereme 3 charakteristické hodnoty (body), kterými necháme logistickou trendovou křivku procházet, jinými slovy, položíme empirické hodnoty rovny hodnotám teoretickým. Jestliže charakteristické hodnoty 𝑇𝑡1 , 𝑇𝑡2 , 𝑇𝑡3 odpovídají časovým okamžikům 𝑡1, 𝑡2, 𝑡3, kde 𝑡1 < 𝑡2 < 𝑡3, pak ze vztahu (4.33) obdržíme soustavu 3 rovnic o 3 neznámých 𝛽0, 𝛽1, k: 11 101 ttT   + = , 22 101 ttT   + = , 33 101 ttT   + = , (8.21) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 141 jejichž řešením získáme odhady neznámých parametrů 𝑏0, 𝑏1, k. Výpočty v metodě vybraných bodů můžeme usnadnit, když charakteristické body zvolíme ekvidistantně: 𝑡1 = 0, 𝑡2 = 𝛥, 𝑡3 = 2𝛥, kde  je určitý časový interval. Za tohoto předpokladu je řešení soustavy následující: 1 1 0 t t T Tk b − = , ( ) ( ) 2 12 21 1 1 t tt tt TkT TkT b         − − = , (8.22) ( ) 2 2 231 312321 2 ttt tttttt TTT TTTTTT k − +− = . (8.23) Z výše uvedeného vztahu (8.23) lze přímo vypočíst parametr k, jeho dosazením do vztahu (8.22) vypočítáme parametry 𝑏0, 𝑏1. Jak se snadno zjistí, hodnota asymptoty logistické křivky je 𝑘 1+𝛽0 , což představuje horní mez, k níž se limitně přibližuje hodnota trendové funkce při velkých hodnotách času t. ŘEŠENÁ ÚLOHA 8.3 V tabulce jsou uvedeny údaje o počtu výrobků určitého typu (v tis. ks) v letech 2015 - 2023. Nalezněte logistickou trendovou funkci, která charakterizuje trend dané časové řady. Prognózujte výrobu pomocí bodového odhadu na rok 2024. Čas 2015 2016 2017 2018 2019 2020 2021 2020 2021 2022 2023 Zjištěné hodnoty 5 6 9 16 22 25 32 34 41 44 45 Řešení: Hledáme odhady parametrů trendové funkce ve tvaru (8.20) Tt t = +   1 0 1 . Tyto odhady stanovíte metodou vybraných bodů. Abyste mohli k výpočtu použít vztahy (8.21), (8.22), (8.23), zvolíte opět novou časovou proměnnou t , viz následující tabulka. Ze všech údajů v časové řadě vyberete tři časové okamžiky, např. na počátku, uprostřed a na konci časové osy:  =  =  =t t t1 2 30 5 10, , . V těchto okamžicích (jsou vyznačeny tučně) položíte empirické hodnoty rovny hodnotám teoretickým, tedy T T Tt t t  = = =1 2 3 5 25 45, , . analýza trendu časových řad 142 t 2015 2016 2017 2018 2019 2020 2021 2020 2021 2022 2023 t 0 1 2 3 4 5 6 7 8 9 10 Zjištěné hodnoty 5 6 9 16 22 25 32 34 41 44 45 Potom ze vztahů (8.22), (8.23) postupně vypočítáte: 50 25455 455254525522 2 2 2 2 231 312321 = − +− = − +− =   )()( ttt tttttt TTT TTTTTT k , 9 5 550 1 1 0 = − = − =   t t T Tk b , 6440 55025 25505 5 11 1 2 12 21 , )( )( )( )( =      − − =         − − =    t tt tt TkT TkT b . Odhadovaný logistický trend má tvar ttT  + = 644,091 50ˆ . Obrázek 25: Logistický trend Rok 2024 odpovídá v transformované časové ose hodnotě t´ = 13. Dosazením do rovnice zjištěné trendové funkce obdržíte 4957,48 644,091 50ˆ 132008 = + =T , tj. prognózovaná výroba daného výrobku v roce 2024 je 49 tis. ks. 8.2.6 GOMPERTZŮV TREND Ve srovnání s předchozí logistickou trendovou funkcí je Gompertzův trend jiným typem S-křivky: 𝑇𝑡 = 𝑘𝛽0 𝛽1 𝑡 , (8.24) kde opět 𝛽0, 𝛽1, k jsou neznámé parametry a t = 1,2, ..., n je časová proměnná, přitom se kvůli zachování tvaru S-křivky předpokládá, že 0 𝑝2, 𝑆 𝑇 (2) > 𝑆 𝑇 (1) . Statistika (8.27) má přibližně Fisherovo rozdělení F s 𝑝1 − 𝑝2 a 𝑛 − 𝑝1 stupni volnosti. V případě, že vypočítaná hodnota statistiky padne do kritického oboru, lze na zvolené hladině významnosti  usuzovat, že model s větším počtem parametrů přináší výrazné zlepšení oproti jednoduššímu modelu. 8.4 Klouzavé průměry Podstata vyrovnání časové řady pomocí klouzavých průměrů spočívá v tom, že posloupnost hodnot časové řady nahradíme novou řadou průměrů vypočítaných s kratších úseků časové řady, přičemž tyto kratší úseky postupně posouváme (kloužeme) směrem od začátku ke konci časové řady, a současně vypočítáváme dílčí průměry, tzv. klouzavé průměry. Vzniká důležitý problém, který je nutno předem řešit: jaký má být počet členů klouzavé části průměru. Klouzavou částí průměru budeme tedy rozumět časový interval určité délky, který se posunuje po časové ose vždy o jednotku. Volba rozsahu klouzavé části závisí na věcném (ekonomickém) charakteru časové řady a nelze ji obvykle stanovit na podkladě exaktních statistických metod. V praxi jsou u ekonomických neperiodických časových řad voleny většinou klouzavé části menší liché délky, např. 3, 5 nebo 7 časových jednotek, což souvisí se snadnější interpretací výsledků, neboť pak můžeme hodnotu klouzavého průměru přiřadit prostřednímu časovému okamžiku klouzavé části. U periodických časových řad se volí délka klouzavých části totožná s délkou periody (sezóny, cyklu). Uvažujme časovou řadu 𝑦1, 𝑦2, 𝑦3, . . . 𝑦𝑛. Prosté klouzavé průměry získáme tak, že úseky časové řady o délce 𝑚 = 2𝑝 + 1, přičemž m  n, p  1, celé číslo, vyrovnáme lineárním trendem s využitím metody nejmenších čtverců. Výsledkem je vzorec pro hodnoty vyrovnané časové řady ve formě aritmetického průměru: Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 145 12 ... 12 1 11 + ++++ = + = +−++−− −= + p yyyy y p y ptptptpt p pt itt , (8.28) kde 𝑡 = 𝑝 + 1, 𝑝 + 2, . . . , 𝑛 − 𝑝. Přitom p hodnot na začátku a p hodnot na konci časové řady zůstává nevyrovnáno. Kromě prostých klouzavých průměrů se někdy používají složitější vážené klouzavé průměry, případně centrované klouzavé průměry. Ty získáme tak, že namísto lineárního trendu v každém úseku použijeme polynomický trend vyššího řádu, tj. kvadratickou parabolu, kubickou parabolu apod. Metodou nejmenších čtverců obdržíme poměrně složité vzorce pro výpočet vyrovnaných hodnot. Vzhledem k poměrně řídkému použití těchto složitějších klouzavých průměrů se jimi zde nebudeme dále zabývat. Zájemce odkazujeme na literaturu, např. Seger (1998). 8.5 Exponenciální vyrovnání Další metodou vyhlazování časové řady, tedy syntetického stanovení trendu, je exponenciální vyrovnání. Při něm se nová vyrovnaná hodnota stanoví na základě exponenciálně váženého průměru současné hodnoty a všech předchozích hodnot časové řady. Přitom se používá systém koeficientů, které nazýváme váhy, kdy novější hodnota má vždy větší váhu (tj. důležitost), než hodnota starší. Nechť 𝑦𝑡 značí pozorovanou hodnotu v časovém okamžiku t, w je váha přiřazená současné hodnotě, přičemž 0  w  1, 𝑦̂ 𝑡 je vyrovnaná hodnota v čase t. Metoda exponenciálního vyrovnání začíná tím, že první vyrovnanou hodnotu časové řady 𝑦̂1 (v čase 1) položíme rovnu pozorované hodnotě 𝑦1, tedy 𝑦̂1 = 𝑦1. Následující vyrovnané hodnoty definujeme rekurentním vztahem: 𝑦̂ 𝑡 = 𝑤𝑦𝑡 + (1 − 𝑤)𝑦̂ 𝑡−1, t = 2,3, ..., n, (8.29) který umožňuje postupně vypočítat všechny vyrovnané hodnoty dané časové řady. Ze vztahu (8.28) lze snadno odvodit vztah: 𝑦̂ 𝑡 = 𝑤𝑦𝑡 + 𝑤(1 − 𝑤)𝑦𝑡−1 + 𝑤(1 − 𝑤)2 𝑦𝑡−2 + ⋯ + 𝑤(1 − 𝑤) 𝑡−1 𝑦1. Z posledního vztahu je vidět, že vyrovnaná hodnota časové řady v čase t závisí na všech předchozích nevyrovnaných hodnotách s tím, že do celkového součtu vstupují starší hodnoty s menší vahou 𝑤𝑡−𝑖 = 𝑤(1 − 𝑤)𝑖 , (8.30) analýza trendu časových řad 146 kde i = 0,1, ..., t–2. Vzhledem k tomu, že platí 0  w  1, je zřejmé, že se hodnota 𝑤𝑡−𝑖 exponenciálně zmenšuje s rostoucím i, tj. rostoucím „stářím“ dat. Váhu w nazýváme koeficient exponenciálního zapomínání. Ze vztahu (8.30) vyplývá, že čím vyšší je koeficient zapomínání, tím menší je hodnota (1 − 𝑤), a tedy také (1 − 𝑤)𝑖 , což znamená, že váha, tedy význam starších dat klesá, starší data se rychleji zapomínají. Je-li např. 𝑤 = 0,9, tedy koeficient zapomínání je 90, potom za jednotku času se vliv hodnoty 𝑦𝑡−𝑖 zmenší na (1 − 𝑤)𝑦𝑡−𝑖 = 0,1𝑦𝑡−𝑖, což znamená, že se „zapomene“ 90 hodnoty. V praxi se používají obvykle váhy z intervalu 0,7 až 1,0. Pro výpočet exponenciálně vyrovnaných hodnot časové řady je ovšem výhodnější rekurentní vztah (8.29). Kromě výše uvedené metody se v praxi využívají i složitější postupy exponenciálního vyrovnání, které se zařazují do skupiny metod, kterým se říká adaptivní metody. Zájemce odkazujeme např. na práce Seger (1998), Cipra (1986). ŘEŠENÁ ÚLOHA 8.4 V následující tabulce jsou uvedeny údaje o spotřebě pitné vody v jednotlivých dnech tří po sobě jdoucích týdnů. a. Stanovte odpovídající interval klouzavého průměru a vyrovnejte tuto řadu prostými klouzavými průměry. b. Vyrovnejte časovou řadu pomocí metody exponenciálního vyrovnání, použijte koeficient zapomínání w = 0,7. Řešení: a. Z charakteru dat vyplývá, že pro analyzovanou časovou řadu budou vhodné klouzavé průměry o délce m = 7 pozorování, tj. v rámci týdne. Použijete proto prosté7-členné klouzavé průměry, které vypočítáte podle vztahu (8.28): 896,0 7 05,122,199,066,093,078,064,0 7 721 1 = ++++++ = +++ = yyy y  . Tuto hodnotu přiřadíte prostřednímu časovému okamžiku klouzavé části, tj. ke čtvrté hodnotě dané časové řady. Po 0,64 0,75 0,54 Út 0,78 0,63 0,61 St 0,93 0,82 0,7 Čt 0,66 0,63 0,56 Pá 0,99 1,3 0,79 So 1,22 0,65 1,3 Ne 1,05 1,3 1,24 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 147 Druhý klouzavý průměr vypočítáte analogicky posunutím o jeden den a přiřadíte jej k páté hodnotě původní časové řady: .911,0 7 75,005,122,199,066,093,078,0 7 832 2 = ++++++ = +++ = yyy y  Ostatní klouzavé průměry vypočítáte obdobně postupným klouzáním směrem ke konci časové řady. Empirické hodnoty jakož i klouzavé průměry ukazuje Obrázek 26. b. Exponenciální vyrovnání se provede podle (8.29): 𝑦̂1 = 𝑦1, 𝑦̂ 𝑡 = 𝑤𝑦𝑡 + (1 − 𝑤)𝑦̂ 𝑡−1, t = 2,3, ..., n, kde w = 0,7. Obrázek 37: Klouzavé průměry a exponenciální vyrovnání Proto: 𝑦̂1 = 0,64, 𝑦̂2 = 0,7y2 + (1 − 0,7) 𝑦̂1 = 0,70,78 + 0,30,64 = 0,738. Další hodnoty 𝑦̂ 𝑡 vypočítáme rekurentně, viz následující tabulka. 0 0,2 0,4 0,6 0,8 1 1,2 1,4 Po Út St Čt Pá So Ne Po Út St Čt Pá So Ne Po Út St Čt Pá So Ne Spotřeba vody Klouzavé průměry Exponenciální vyrovnání analýza trendu časových řad 148 Je zřejmé, že koeficient zapomínání w = 0,7 ještě nevyhlazuje původní data dostatečně, k většímu vyhlazení by byla zapotřebí menší hodnota koeficientu zapomínání. SAMOSTATNÉ ÚKOLY 8.1 V tabulce jsou údaje o počtu vyrobených kuchyňských robotů v letech 2015 až 2023. Rok 2015 2016 2017 2018 2019 2020 2021 2020 2021 2022 2023 Kuchyňské roboty (tis. ks) 5 4 8 16 35 32 40 56 100 120 195 a. Trend ve výrobě tohoto výrobku popište exponenciální trendovou funkcí. b. Jaké množství vyrobených kuchyňských robotů lze očekávat v roce 2024? c. Znaménkovým testem (bude vysvětlen v následující kapitole) ověřte na hladině významnosti  = 0,05 náhodnost reziduí. 8.2 Časová řada představuje počet vyrobených pneumatik Barum v letech 2014 až 2023. Rok 2014 2015 2016 2017 2018 2019 2020 2021 2020 2021 2022 2023 Pneumatiky (mil. ks) 0,8 1,6 1,5 2,4 5 3,88 4,47 3,88 6,89 7,69 5,83 8,25 a. Nalezněte lineární trend časové řady. b. Jaké množství vyrobených pneumatik lze očekávat v roce 2024? Stanovte bodový i intervalový odhad na hladině významnosti  = 0,05. Den Spotřeba vody (m3 /os.) Klouzavé průměry Exponenciální vyrovnání Po 0,64 0,640 Út 0,78 0,738 St 0,93 0,872 Čt 0,66 0,896 0,724 Pá 0,99 0,911 0,910 So 1,22 0,890 1,127 Ne 1,05 0,874 1,073 Po 0,75 0,870 0,847 Út 0,63 0,914 0,695 St 0,82 0,833 0,783 Čt 0,63 0,869 0,676 Pá 1,30 0,839 1,113 So 0,65 0,836 0,789 Ne 1,30 0,819 1,147 Po 0,54 0,809 0,722 Út 0,61 0,736 0,644 St 0,70 0,829 0,683 Čt 0,56 0,820 0,597 Pá 0,79 0,867 0,732 So 1,30 1,130 Ne 1,24 1,207 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 149 ODPOVĚDI 8.1 a) Tˆ ,,,,,, 3454715529 −−−== tt . b) v roce 2024, tzn. t = 8; 31644,ˆ =T . c) S = 5; testové kritérium U = 0; obor přijetí A = (-1,96; 1,96); přijímáme nulovou hypotézu o náhodném uspořádání reziduí 8.2 a) Tˆ ,,,,.,, 7911320354 −−−=+= tt b) v roce 2024, tzn. t = 13; 𝑇̂ = 8,5 mil. ks; 95 %intervalový odhad (5,97; 11,05) SHRNUTÍ KAPITOLY Zopakujme si získané poznatky této kapitoly: trendová složka poskytuje rozhodující informaci pro prognózování hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů. V této kapitole jsme se zabývali lineárním trendem, parabolickým trendem, exponenciálním trendem, logistickým trendem a Gompertzovým trendem. Z metod syntetického přístupu byly uvedeny metody klouzavého průměru a exponenciální vyrovnání. sezónní složka, náhodná složka 150 9 SEZÓNNÍ SLOŽKA, NÁHODNÁ SLOŽKA RYCHLÝ NÁHLED KAPITOLY Při analýze ekonomických časových řad se setkáváme téměř vždy s existencí sezónních vlivů, reprezentovaných v modelu časové řady sezónní složkou. Sezónními vlivy rozumíme soubor příčin, které se pravidelně opakují v důsledku koloběhu přírody. Pokud se u časových řad vyskytují podobné vlivy v delším časovém horizontu, hovoříme o cyklické složce časové řady, v kratším časovém horizontu, hovoříme o sezónní složce časové řady. Souhrnně se sezónní a cyklické složky označují jako periodické složky časové řady. Úkolem modelování periodické složky časové řady je nalézt její vhodné vyjádření, které by umožnilo periodickou (nejčastěji sezónní) složku vhodně identifikovat a následně použít k predikci chování časové řady v budoucnu. Naučíte se aplikovat metody konstantní sezónnosti se schodovitým a lineárním trendem a metodu proporcionální sezónnosti. V závěru se budete věnovat analýze náhodné složky. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: popsat sezónní a náhodnou složku, použít metodu konstantní sezónnosti se schodovitým trendem, použít metodu konstantní sezónnosti s lineárním trendem, testovat vlastnosti náhodné složky. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 151 KLÍČOVÁ SLOVA KAPITOLY Sezónní složka, náhodná složka, model konstantní sezónnosti se schodovitým trendem, model konstantní sezónnosti s lineárním trendem, znaménkový test, Durbin-Watsonův test. 9.1 Model konstantní sezónnosti se schodovitým trendem Označení časové proměnné t = 1,2, ..., n, budeme používat pro označení časových intervalů (např. roků), které se člení na dalších r dílčích časových období, které nazýváme sezóny (např. měsíce nebo čtvrtletí) a označujeme j = 1,2, ..., r (např. v případě, že sezóny jsou měsíce je r = 12, v případě že sezóny představují kvartály, platí r = 4). Model časové řady lze zapsat ve tvaru: 𝑦𝑡𝑗 = 𝑇𝑡𝑗 + 𝑃𝑡𝑗 + 𝜀𝑡𝑗, t = 1,2, ..., n, j = 1,2, ..., r. (9.1) U modelu konstantní sezónnosti se vychází z předpokladu, že: 𝑃𝑡𝑗 = 𝛾𝑗 pro sezónu j v letech t = 1,2, ..., n, (9.2) kde 𝛾𝑗 jsou neznámé sezónní parametry, o nichž dále předpokládáme, že splňují rovnost: ∑ 𝛾𝑗 = 0𝑟 𝑗=1 . (9.3) Předpoklady (9.2) a (9.3) vycházejí z představy, že v důsledku pravidelného (ročního) koloběhu sezónních vlivů se v j-té sezóně opakují sezónní výkyvy 𝛾𝑗, které se mezi léty neliší, to je podmínka (9.2). Dále se tyto vlivy během roku (r sezón) vykompenzují, takže jejich roční součet je nulový, což odpovídá podmínce (9.3). Nejprve budeme předpokládat, že trendová složka tjT nabývá ve všech sezónách hodnotu roku t hodnotu t , takže posloupnost těchto hodnot v letech t = 1,2, ..., n představuje schodovitý trend. Model (9.1) pak bude mít tvar: 𝑦𝑡𝑗 = 𝛼 𝑡 + 𝛾𝑗 + 𝜀𝑡𝑗, t = 1,2, ..., n, j = 1,2, ..., r. (9.4) Odhady 𝑎 𝑡, 𝑐𝑗 n + r parametrů tohoto modelu získáme metodou nejmenších čtverců: t r j tjt yy r a == =1 1 ,  = == −= n t r j tj n t tjj y rn y n c 1 11 11 . (9.5) sezónní složka, náhodná složka 152 Všimněte si v prvním vzorci, že odhadem výšky schodu v roce t je průměr hodnot v roce t. Z druhého vzorce pak vyplývá, že hodnota sezónního vlivu cj, tzv. j-tého sezónního koeficientu, je představována průměrnou hodnotou vypočítanou z j-tých sezón ve všech letech po odečtení celkového průměru ze všech hodnot v celé časové řadě. Například sezónní koeficient c1 se vypočítá jako průměr ze všech lednových hodnot v časové řadě měsíčních údajů po odečtení celkového průměru ze všech hodnot v celé časové řadě. V tomto případě je měsíc leden uvažován jako první sezóna z 12 měsíčních sezón. 9.2 Model konstantní sezónnosti s lineárním trendem Při popisu trendové složky v předchozím odstavci jsme používali posloupnost časové proměnné t = 1,2, ..., n, o trendové funkci jsme předpokládali, že je konstantní během všech sezón daného roku t, tj. ttjT = pro j = 1,2, ..., r. Přitom hodnota αt mohla být v každém roce jiná a tvořila výšku „schodu“ v roce t. Model časové řady bude opět aditivní, tedy 𝑦𝑡𝑗 = 𝑇𝑡 + 𝛾𝑗 + 𝜀𝑡𝑗, t = 1,2, ..., n, j = 1,2, ..., r, (9.6) kde stejně jako v modelu (9.1) jsou 𝛾𝑗 neznámé sezónní parametry, o nichž dále předpokládáme, že splňují podmínku ∑ 𝛾𝑗 = 0𝑟 𝑗=1 . Nyní budeme předpokládat, že trendová složka tjT má lineární tvar, potom model (9.6) bude mít tvar: 𝑦𝑡𝑗 = 𝛼 + 𝛽(𝑡 − 𝑡̄) + 𝛾𝑗 + 𝜀𝑡𝑗, t = 1,2, ..., n, j = 1,2, ..., r. (9.7) Odhady jcba ,, z (r +2) parametrů tohoto modelu získáme metodou nejmenších čtverců, řešení má komplikovaný tvar, který zde neuvádíme, zájemce odkazujeme na Segera (1998). 9.3 Model proporcionální sezónnosti Nyní budeme používat t = 1,2, ..., n, k označení časových intervalů (např. roků), které se člení na dalších r dílčích časových období, které nazýváme sezóny (např. měsíce nebo čtvrtletí) a označujeme j = 1,2, ..., r (např. v případě, že sezóny jsou měsíce je r = 12, v případě že sezóny představují kvartály, platí r = 4). Regresní model lze s použitím uvedené symboliky zapsat ve tvaru: 𝑦𝑡𝑗 = 𝑇𝑡𝑗 + 𝑃𝑡𝑗 + 𝜀𝑡𝑗, t = 1,2, ..., n, j = 1,2, ..., r. (9.8) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 153 U modelu proporcionální sezónnosti se vychází z předpokladu, že periodická složka je proporcionální (tj. přímo úměrná) velikosti trendové složky: 𝑃𝑡𝑗 = 𝐶𝑗 𝑇𝑡𝑗 pro sezónu j v letech t = 1,2, ..., n, (9.9) tedy po dosazení (9.9) do (9.8) obdržíte 𝑦𝑡𝑗 = (1 + 𝐶𝑗)𝑇𝑡𝑗 + 𝜀𝑡𝑗. (9.10) Aplikací MNČ obdržíme cj odhad koeficientů Cj takto   = = =+ n i i n i iij j y yy c 1 2 1 1 , j = 1,2, ..., r. (9.11) Dosazením do (9.10) obdržíte konečnou podobu modelu proporcionální sezónnosti tjtjn i i n i iij tj T y yy y +=   = = 1 2 1 , t = 1,2, ..., n, j = 1,2, ..., r. (9.12) Přitom ∑ 1= 1 = r j iji y r y je aritmetický průměr yij přes j. V konkrétním případě můžeme uvažovat, že trendová složka má lineární tvar, tedy například 𝑇𝑡𝑗 = 𝛼 + 𝛽(𝑡 − 𝑡̄). (9.13) 9.4 Analýza náhodné složky Náhodnou složku 𝜀𝑡 lze v modelu (9.8) vyjádřit v tvaru: t = yt – Yt, t = 1,2, ..., n, (9.14) kde Yt = Tt + Pt. Jedná se zde o vyjádření blíže nespecifikovaných náhodných vlivů. Zdrojem této složky jsou obvykle nepodchycené drobné vzájemně nezávislé náhodné vlivy. Chceme-li zajistit spolehlivé předpovědi na základě modelu časové řady, potom je třeba mít zajištěny některé předpoklady o náhodné složce. Konkrétně je výhodné, když jsou splněny předpoklady klasického lineárního regresního modelu, které jsme uvedli v kapitole 3.5. Byly to předpoklady 1. až 3., které pro přehlednost zopakujeme, avšak při současném označení, kdy nezávisle proměnná x je nyní čas t. Jedná se tedy o tyto předpoklady: 1. Hodnoty vysvětlující proměnné t se volí předem, obvykle t = 1,2, ..., n. 2. Náhodné složky t mají normální rozdělení pravděpodobnosti se střední hodnotou 0 a (neznámým) rozptylem 2 . Konstantnost rozptylu nazýváme homoskedasticita. sezónní složka, náhodná složka 154 3. Náhodné složky jsou nekorelované, tj. Cov(t,t´) = 0 pro každé t  t´, t, t´= 1,2, ..., n. Jak již bylo řečeno v kapitole 3.5, v praxi jsou podmínky klasického modelu často splněny. Nejsme-li si však jejich platností jisti, můžeme provést testy hypotéz jak o normalitě rozdělení náhodné složky (např. Chi-kvadrát test dobré shody), tak i testy homoskedasticity (Bartleyův test). Při ověřování těchto předpokladů zjišťujeme, zda jsou všechny systematické složky z časové řady eliminovány. Jakákoliv nenáhodnost u reziduí naznačuje nevhodnost zvoleného modelu časové řady. Jednoduchým nástrojem, kterým lze ověřit náhodnost reziduí, je znaménkový test. Při tomto testu vyčíslíme počet případů, kdy rozdíl sousedních reziduí 𝑒𝑡 − 𝑒𝑡−1 je kladný, jejich počet označíme S. Přitom je: 𝑒𝑡 = 𝑦𝑡 − 𝑌𝑡, (9.15) kde 𝑌𝑡 = 𝑇𝑡 + 𝑃𝑡 je odhad teoretické hodnoty časové řady, 𝑇𝑡 je odhad trendu (s regresními koeficienty získanými např. metodou nejmenších čtverců), 𝑃𝑡 je odhad periodické složky, např. (9.11), kde parametry 𝛼𝑗, 𝛽𝑗 jsou rovněž odhadnuty metodou nejmenších čtverců. Náhodné složky t, které jsou dány (9.14), jsou tedy náhodné veličiny, zatímco rezidua et, (9.15), jsou realizacemi, jsou to odhady těchto náhodných veličin. Je-li posloupnost reziduí et náhodně uspořádána, potom pro střední hodnotu S platí: 𝐸(𝑆) = 𝑛−1 2 . Testujeme proto nulovou hypotézu: 𝐻0 : 𝐸 (𝑆) = 𝑛−1 2 , proti alternativní hypotéze 𝐻1 : 𝐸 (𝑆) ≠ 𝑛−1 2 . Použijeme testové kritérium: 1 )1( 2 1 12 +       −− = n nS U , (9.16) které má již pro 13n přibližně normované normální rozdělení. Pro stanovení kritických hodnot tedy použijeme kvantily normovaného normálního rozdělení 𝑢1−𝛼/2. Vlastnost časových řad, která často způsobuje porušení předpokladů 1. až 3. se nazývá autoregrese náhodných složek, viz též kapitola 6.5, která znamená, že mezi náhodnými složkami platí následující vztah: 𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑢 𝑡, (9.17) kde 0 < 𝜌 < 1 je autokorelační koeficient a 𝑢 𝑡splňuje předpoklady 1. až 3. Nulovou hypotézu: 𝐻0 : 𝜌 = 0 (což je totéž, jako 𝜀𝑡 = 𝑢 𝑡) testujeme proti alternativní hypotéze 𝐻1 : 𝜌 ≠ 0 pomocí testového kritéria: ( )   = = −− = n t t n t tt e ee D 1 2 2 2 1 . (9.18) Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 155 Funkce D, nazývaná Durbin-Watsonova statistika, bývá tabelována pro různé hladiny významnosti  , viz např. Gujarati (2003). Test založený na této statistice nazýváme Durbin-Watsonův test autokorelace. ŘEŠENÁ ÚLOHA 9.1 Data v tabulce představují objem přepravy po vodních tocích ČR v jednotlivých čtvrtletích pěti po sobě jdoucích let. a. Nalezněte pro tuto časovou řadu model konstantní sezónnosti se schodovitým trendem. b. Na hladině významnosti  = 0,05 ověřte náhodnost reziduí. Řešení: a. Úkolem je nalézt odhady parametrů t, j modelu 𝑦𝑡𝑗 = 𝛼 𝑡 + 𝛾𝑗 + 𝜀𝑡𝑗, t = 1,2, ..., n, j = 1,2, ..., r, kde t je trendová složka, j je sezónní složka. Odhady jt ca , n + r parametrů tohoto modelu vypočítáme ze vztahů (9.5): a r y yt tj j r t= = =  1 1 ,  = == −= n t r j tj n t tjj y rn y n c 1 11 11 . Všechny potřebné součty a průměry jsou uvedeny v tabulce, jejich dosazením do daných vztahů obdržíte: trendová složka: a1 = 126 a2 = 131,25 a3 = 152,5 a4 = 165,75 a5= 188,5 sezónní složka: c1 = 143 − 152,8 = −9,8 c2 = 161−152,8 = 8,2 c3 = 163,2 − 152,8 = 10,4 c4 = 144−152,8 = −8,8. Výsledky ukazují, že působení sezónních vlivů klesl v prvním čtvrtletí objem přepravy o 9,8 tun a ve čtvrtém čtvrtletí o 8,8 tuny. Tento pokles je vykompenzován růstem přepravy ve zbylých dvou čtvrtletích o 8,2 a 10,4 tun, tj. ve čtvrtletích pro říční přepravu klimaticky příznivějších. Z vývoje ročních průměrů at je zřejmé, že se průměrný roční objem přepravy neustále zvyšoval. b. Nejdříve vypočítáte odhady teoretických hodnot 𝑌̂dané časové řady tak, že odhadnete trendovou i sezónní složku. Např.: t/j Čtvrtletí Roky 1 2 3 4 Součet Průměr 1 120 138 132 114 504 126,00 2 118 138 150 119 525 131,25 3 149 161 155 145 610 152,50 4 150 173 181 159 663 165,75 5 178 195 198 183 754 188,50 Součet 715 805 816 720 3056 Průměr 143 161 163,2 144 152,80 sezónní složka, náhodná složka 156 𝑌̂1,1 = 𝑎1 + 𝑐1 = 126 + (−9,8) = 116,2 𝑌̂1,2 = 𝑎1 + 𝑐2 = 126 + 8,2 = 134,2 Všechny hodnoty 𝑌̂𝑡,𝑗 jsou uvedeny v následující tabulce. Dále vypočítáme hodnoty reziduí. Např.: 𝑒1,1 = 𝑦1,1 − 𝑌̂1,1 = 120 − 116,2 = 3,8, 𝑒1,2 = 𝑦1,2 − 𝑌̂1,2 = 138 − 134,2 = 3,8. Hodnoty všech reziduí jsou uvedeny v následující tabulce: t/j 1 2 3 4 1 3,80 3,80 –4,40 –3,20 2 –3,45 –1,45 8,35 –3,45 3 6,30 0,30 –7,90 1,30 4 –5,95 –0,95 4,85 2,05 5 –0,70 –1,70 –0,90 3,30 K testu náhodnosti reziduí použijeme znaménkový test. Je proto třeba určit počet případů S, kdy je rozdíl sousedních reziduí et − et − 1 kladný. Např.: e1,2 − e1,1 = 3,8 − 3,8 = 0, e1,3 − e1,2 = −4,4 − 3,8 = −8,2. V následující tabulce jsou případy, kdy et − et − 1> 0, označeny „+“, ostatní „−“. t/j 1 2 3 4 1  − − + 2 − + + − 3 + − − + 4 − + + − 5 − − + + Z tabulky vidíme, že S = 9. Hodnotu testového kritéria vypočítáme podle (9.16): 378,0 120 )120( 2 1 912 1 )1( 2 1 12 −= +       −− = +       −− = n nS U . V tabulce normovaného normálního rozdělení nalezneme u1 −/2, tj.: u0,975 = 1,96. t/j 1 2 3 4 1 116,20 134,2 136,4 117,2 2 121,45 139,5 141,7 122,5 3 142,70 160,7 162,9 143,7 4 155,95 174,0 176,2 157,0 5 178,70 196,7 198,9 179,7 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 157 Protože hodnota testového kritéria −0,378 leží v oboru přijetí A = (−1,96;1,96), lze na zvolené hladině významnosti přijmout nulovou hypotézu, tj. hypotézu o náhodném uspořádání reziduí. SAMOSTATNÉ ÚKOLY 9.1 V následující tabulce jsou uvedeny měsíční tržby jedné obchodní organizace za posledních 60 měsíců od ledna 2019 až do prosince 2023. a. Nalezněte model konstantní sezónnosti se schodovým trendem. b. Pro rok 2024 uvažujte s růstem 5% (tj. výška schodu). Prognózujte tržby na rok 2024. 9.2 Použijte data z řešené úlohy 9.1. Nalezněte pro tuto časovou řadu model konstantní sezónnosti s lineárním trendem. 9.3 Je dána reziduální složka, která obsahuje tyto hodnoty: 0,652 0,767 -1,667 2,579 -0,254 0,963 0,188 -0,936 0,572 -2,863. Proveďte: a) znaménkový test náhodnosti reziduí, b) Durbin – Watsonův test autokorelace. ODPOVĚDI 9.1 a) a1 = 7280,6; a2 = 7630,6; a3 = 8322,4; a4 = 8755,3; a5 = 9381,7; a6 = 9850,8 c1 = –823,3; c2 = –1286,7; c3 = –915,7; c4 = –429,9; c5 = 130,1; c6 = 223,9; c7 = 155,3; c8 = 403,1; c9 = 314,9; c10 = 467,5; c11 = 744,7; c12 = 1243,1 b) 1 2 3 4 5 6 7 8 9 10 11 12 6489 5971 6272 6944 7217 7448 7259 7602 7651 8064 7952 8498 13 14 15 16 17 18 19 20 21 22 23 24 6930 6391 6979 7315 7798 7861 7994 7798 8022 8155 8694 8764 25 26 27 28 29 30 31 32 33 34 35 36 7560 7182 7077 7847 8603 8659 8827 8855 8337 8379 8834 9709 37 38 39 40 41 42 43 44 45 46 47 48 7833 7406 7791 8190 8869 8988 8736 9254 9240 9380 9422 9954 49 50 51 52 53 54 55 56 57 58 59 60 8442 7987 8673 8925 9534 9534 9331 9877 9695 9730 10192 10661 leden 2024 9027,51 červenec 2024 10006,1 únor 2024 8564,11 srpen 2024 10253,9 březen 2024 8935,11 září 2024 10165,7 sezónní složka, náhodná složka 158 9.2 Yt = 6782,2 + 49,536.t + cj c1 = –569,8; c2 = –1082,7; c3 = –761,3; c4 = –325; c5 = 185,4; c6 = 229,7; c7 = 111,6; c8 = 309,8; c9 = 172,1; c10 = 275,2; c11 = 502,8; c12 = 951,7 leden 2024 9234,1 červenec 2024 10212,7 únor 2024 8770,7 srpen 2024 10460,5 březen 2024 9141,7 září 2024 10372,3 duben 2024 9627,5 říjen 2024 10524,9 květen 2024 10187,5 listopad 2024 10802,1 červen 2024 10281,3 prosinec 2024 11300,5 9.3 a) Počet kladný hodnot S =4; U = -0,522. Protože hodnota –0,522 leží v oboru přijetí A = (−1,96;1,96), lze na zvolené hladině významnosti přijmout nulovou hypotézu, tj. hypotézu o náhodném uspořádání reziduí. b) Hodnota Durbin – Watsonova koeficientu 368,2=D . Protože 1=k a 10=n najdeme pro 05,0= v tabulkách 32,1;879,0 == UL dd . Nelze zamítnout nulovou hypotézu, což znamená, že v modelu nebyla prokázána statisticky významná autokorelace. SHRNUTÍ KAPITOLY V této kapitole jste se zabývali časovými řadami, jejichž hodnoty se periodicky opakují, tzv. sezónními časovými řadami. Nejprve jste si objasnili význam sezónní složky časové řady. Poté jste se naučili aplikovat jednoduché metody konstantní sezónnosti se schodovitým a lineárním trendem a rovněž metodu proporcionální sezónnosti. Dále zde byly uvedeny metody testování náhodné složky (znaménkový test, Durbin-Watsonův test autokore- lace). duben 2024 9420,91 říjen 2024 10318,3 květen 2024 9980,91 listopad 2024 10595,5 červen 2024 10074,7 prosinec 2024 11093,9 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 159 10 MODELY TYPU ARIMA A PREDIKCE ČASOVÝCH ŘAD RYCHLÝ NÁHLED KAPITOLY Nejprve se budete zabývat časovými řadami typu ARIMA. Box-Jenkinsova metodologie, která se modely analýzy časových řad typu ARIMA zabývá, klade důraz nikoliv na konstrukci jedno-rovnicového nebo vícerovnicového modelu, jak je tomu např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČŘ. Postupně se seznámíte s vlastnostmi autoregresivních procesů AR, procesů pohyblivých průměrů MA, integračních procesů I, jakož i procesů vzniklých jejich kombinací: ARIMA. Dále lze tyto procesy rozšířit též na sezónní procesy. Úkolem pak je pro časovou řadu nalézt vhodný model typu ARIMA a nalezený model použít pro účely prognózy (predikce, extrapolace) hodnot dané časové řady. Celý postup tvorby prognózy ČŘ autoři metody ARIMA formulovali ve 4 krocích, které nazýváme Box-Jenkinsova metodologie prognózování ČŘ. Jednotlivé kroky jsou (1) Identifikace modelu, (2) Odhad modelu, (3) Verifikace modelu a (4) Prognóza pomocí modelu, a budou ilustrovány na příkladu časové řady čtvrtletního HDP České republiky s pomocí statistického programu GRETL. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: nalézt vhodný model typu ARIMA použít model pro účely predikce časové řady, formulovat 4 kroky Box-Jenkinsovy metodologie, použít pro výpočet ARIMA modelu časové řady program GRETL. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 120 minut. Modely typu arima a predikce časových řad 160 KLÍČOVÁ SLOVA KAPITOLY ARIMA model, Box-Jenkinsova metodologie, identifikace modelu, odhad modelu, verifikace modelu, predikce pomocí modelu, program GRETL. 10.1 Program GRETL GRETL (Gnu Regression, Econometrics and Time-series Library) je open-source statistický software navržený pro analýzu dat, ekonometrii, regresní analýzu a analýzu časových řad. Software je vyvinut v rámci projektu GNU a je k dispozici zdarma pro všechny uživa- tele. Klíčové rysy a funkce softwaru GRETL jsou tyto: • Ekonometrické funkce: GRETL poskytuje širokou škálu funkcí pro ekonometrickou analýzu, včetně lineární regrese, logit a probit modelů, ARIMA modelů pro analýzu časových řad, panelových datových modelů a dalších. • Uživatelské rozhraní: Software nabízí grafické uživatelské rozhraní (GUI), což umožňuje uživatelům provádět analýzu dat bez nutnosti psaní kódu. Nicméně je také možné používat skriptovací jazyk GRETL pro vytvoření vlastních analýz a scénářů. • Import a export dat: GRETL umožňuje importovat data z různých formátů, včetně textových souborů, Excelu a databází. Také umožňuje exportovat výsledky analýz do různých formátů. • Grafy: Software obsahuje nástroje pro vytváření grafů a vizualizaci dat. Uživatelé mohou vytvářet grafy pro zobrazení vztahů mezi proměnnými a vizualizaci výsledků analýzy. • Dokumentace a podpora: GRETL je doprovázeno podrobnou dokumentací a nápovědou, která uživatelům pomáhá pochopit jeho funkce a použití. Také existuje uživatelská komunita a fóra, kde lze získat pomoc a diskutovat o různých aspektech softwaru. • Rozšiřitelnost a platformní nezávislost: Software je navržený tak, aby byl rozšiřitelný pomocí doplňků a skriptů. Uživatelé mohou vytvářet vlastní funkce, modely a rozšíření, což umožňuje přizpůsobit GRETL specifickým potřebám. GRETL je dostupný pro různé operační systémy Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 161 Celkově lze GRETL považovat za užitečný nástroj pro analýzu dat, zejména v oblasti ekonometrie a analýzy časových řad. Díky kombinaci grafického rozhraní a možnosti skriptování je vhodný jak pro začátečníky, tak i pro pokročilé uživatele se znalostmi statistiky a ekonometrie. Prognózování (předvídání, předpovídání) je důležitou součástí ekonomických (ekonometrických) analýz, dá se říci, že z určitého pohledu nejdůležitější. Jak prognózovat budoucí hodnoty ekonomických veličin, jako jsou HDP, inflace, kurzy měn, ceny akcií, míra nezaměstnanosti, počet nově nakažených osob a dalších? Jednu klasikou metodu již znáte: lineární, (resp. nelineární) regresní analýza, s níž jste se seznámili již v kapitolách 3 a 4. V této kapitole se dozvíte o nové metodě, která se stala v posledních letech velmi populární: tzv. modely autoregresivních a integrovaných procesů a klouzavých průměrů ARIMA (Auto Regresive Integrated Moving Average), která je známa také pod názvem Box-Jenkinsova metodologie (podle autorů metody G.P.E. Boxe a G.M. Jenkinse). Téma ekonomického prognózování je velmi široké a existuje k němu množství specializovaných knih a dalších publikací. My zde chceme podat pouze stručný vhled do problematiky. Naštěstí k problematice prognózování ekonomických ČŘ existuje nejen vhodná literatura, její přehled lze nalézt např. u Arlta (1999), u Gujaratho (2003) aj., ale též příslušný specializovaný SW v podobě programových balíků, jakými jsou GRETL, SPSS, EViews, STATISTICA, SAS a další. V této kapitole budeme využívat konkrétně program GRETL. Jak jsme již dříve zmínili, k analýze časových řad existuje řada různých metod a přístupů. Kromě již zmíněné (1) jednoduché regresní analýzy a (2) metody ARIMA, které jsou předmětem tohoto textu, je zapotřebí ještě jmenovat (3) metody exponenciálního vyrovnání (Holtova-Wintersova metoda a jejich varianty), (4) metody simultánních rovnic a (5) vektorové autoregresivní metody VAR, (6) metody ARCH a GARCH a další. S nimi se zájemci mohou blíže seznámit např. v Seger (1998). 10.2Modelování časových řad pomocí ARIMA modelu Podle svých autorů známa jako Box-Jenkinsova metodologie, avšak technicky nazývaná ARIMA metodologie klade důraz nikoliv na konstrukci jednorovnicového nebo vícerovnicového modelu, jak je tomu např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČŘ podle filosofie „ať data hovoří sama za sebe“. V regresních modelech je závisle proměnná Y vysvětlována několika vysvětlujícími proměnnými – regresory, zatímco v ARIMA metodách je závisle proměnná Y v čase t vysvětlována hodnotami téže Y v minulých časových okamžicích a zároveň chybovými členy v sou- Modely typu arima a predikce časových řad 162 časných anebo minulých okamžicích. Na rozdíl od regresních modelů a modelů simultánních rovnic, které jsou založeny na ekonomické teorii, nejsou modely ARIMA na teorii přímo závislé. Teoretické závislosti jsou u nich vyjádřeny zprostředkovaně skrze sledované hodnoty v minulých časových okamžicích. 10.2.1 AUTOREGRESIVNÍ PROCES (AR) Budeme předpokládat, že Yt se chová podle vztahu (Yt – ) = 1(Yt-1 – ) + ut, (10.1) kde  je střední hodnota Yt a ut je bílý šum, 1 je konstanta. V tom případě říkáme, že ČŘ Yt je autoregresivní proces 1. řádu neboli AR (1). Podle modelu (10.1) je prognóza Y–  v čase t je přímo úměrná Y– v čase (t–1) prostřednictvím koeficientu úměry 1 plus/mínus náhodná chyba (bílý šum). Pokud pro konstantu v modelu (10.1) platí –1 < 1 <1, pak se dá ukázat, že proces AR (1) je stacionární. Dále si všimněte, že speciálně při 1 = 0 je z (10.1) proces AR (1) bílý šum a při 1 = 1 je z (10.1) proces AR (1) náhodná procházka. Také pro 1  1 nebo 1 <–1 je proces AR (1) nestacionární (Arlt, 1999). Podobně autoregresivní proces 2. řádu neboli AR (2) má tvar (Yt – ) = 1(Yt-1 – ) +2(Yt-2 – ) + ut. (10.2) Analogicky autoregresivní proces p-tého řádu, neboli AR(p) má tvar (Yt – ) = 1(Yt-1 – ) +2(Yt-2 – ) +...+p (Yt-p – ) + ut. (10.3) Otázka stacionarity procesů AR(p) pro p >1 je složitější problém, kterým se zde zabývat nebudeme. Eventuální zájemce odkazujeme na literaturu, např. knihu Arlt (1999). Všimněte si, že kromě hodnot Y v různých časových okamžicích se ve výše uvedených modelech nevyskytují jiné regresory. V tomto smyslu říkáme, že „data hovoří sama za sebe“. 10.2.2 PROCES KLOUZAVÝCH PRŮMĚRŮ (MA) Výše uvedený AR proces není jediný, kterým lze generovat hodnoty Y. Nyní budeme předpokládat, že Yt se chová podle vztahu (Yt –) = ut – 1ut-1, (10.4) kde  je střední hodnota Yt a ut je bílý šum. V tom případě říkáme, že ČŘ Yt je proces klouzavých průměrů 1. řádu neboli MA (1). Podle modelu (10.4) je prognóza Y– v čase Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 163 t je přímo úměrná náhodné chybě v čase (t–1) prostřednictvím koeficientu úměry –1 plus/mínus náhodná chyba (bílý šum). Podobně proces klouzavých průměrů 2. řádu neboli MA (2) má tvar (Yt – ) = ut – 1ut-1 – 2ut-2, (10.5) Analogicky proces klouzavých průměrů q-tého řádu neboli MA(q) má tvar (Yt – ) = ut – 1ut-1 – 2ut-2 – ... – qut-q. (10.6) Jednoduše řečeno, proces klouzavých průměrů je lineární kombinací minulých náhodných chyb bílého šumu. Na rozdíl od AR procesů jsou procesy MA (q) pro všechna q  1 stacionární nezávisle na hodnotách koeficientů i. 10.2.3 AUTOREGRESIVNÍ PROCES KLOUZAVÝCH PRŮMĚRŮ (ARMA) Časová řada, která má charakteristiky jak AR, tak MA procesů, je ARMA proces. Konkrétně ARMA proces 1. řádu, tj. ARMA (1,1) má tvar Yt =  +1Yt-1 + ut – 1ut-1, (10.7) kde  je konstantní člen. Analogicky můžete uvažovat procesy ARMA (p, q), které mají p autoregresivních a q klouzavých členů. Vzhledem ke stacionaritě procesu MA(q) je podmínka stacionarity procesu ARMA (p, q) totožná s podmínkou stacionarity procesu AR(p). Jinak řečeno, proces ARMA (p, q) je stacionární, právě když je stacionární proces AR(p). 10.2.4 AUTOREGRESIVNÍ A INTEGROVANÝ PROCES KLOUZAVÝCH PRŮMĚRŮ (ARIMA) Časové procesy, které jste doposud poznali, byly vesměs za určitých podmínek stacionární. Dobře však víte, že mnohé ekonomické časové řady jsou nestacionární. Říkáme, že časová řada Yt, tj. stochastický proces Yt je integrovaný 1. řádu neboli je to I (1) proces, jestliže 1. diference této časové řady je stacionární. Jinak řečeno, ČŘ Yt je integrovaná 1. řádu, jestliže Yt = Yt – Yt-1 je stacionární ČŘ. Analogicky lze zavést pojem integrované časové řady d-tého řádu, jestliže d-tá diference této ČŘ je stacionární neboli d Yt = d-1 Yt – d-1 Yt-1 je stacionární, přitom 1 = . Stacionární proces se této symbolice označuje jako I(0) proces. Proto když nejprve proces d-krát diferencujeme a poté obdržíme ARMA (p, q) proces, nazývá se původní proces ARIMA (p, d, q). V tomto symbolickém vyjádření znamenají např. ARIMA (p, 0, q) a ARMA (p, q) stejný proces, stejně tak ARIMA (0, 0, q) = MA (q), ARIMA (p, 0, 0) = AR (p), ARMA (p, 0) = AR (p), apod. Modely typu arima a predikce časových řad 164 10.3Box – Jenkinsova metodologie prognózování časových řad Představte si, že máte analyzovat nějakou časovou řadu, jako třeba čtvrtletní HDP ČR. Jak zjistíte, o který typ procesu se jedná? Jde o realizaci AR procesu, nebo snad MA procesu, či jejich kombinaci ARMA? Může být konkrétní časová řada realizaci více různých typů procesu, např. jak AR (1), tak současně MA (1)? V této souvislosti hledáme model časové řady a hned je třeba říci, že konkrétní časová řada může mít několik „správných“ modelů. Box-Jenkinsova metodologie, známá také jako ARIMA (AutoRegressive Integrated Moving Average) modelování, je přístup používaný pro analýzu, modelování a prognózování časových řad. Tato metodologie byla vyvinuta v 60. letech Georgeem E.P. Boxem a Gwilymem M. Jenkinsem. Je široce využívána v oblasti statistiky a ekonometrie pro práci s neperiodickými časovými řadami. ARIMA modelování kombinuje tři základní komponenty: AutoRegressive (AR) složka: Tato složka zahrnuje autoregresní členy, což znamená, že hodnota časové řady v daném okamžiku závisí na předchozích hodnotách řady. Autoregresní modely zachycují korelaci mezi aktuální hodnotou a jejími minulými hodnotami. Integrated (I) složka: Integrovaná složka zahrnuje diferencování dat, což může pomoci přeměnit nestacionární časovou řadu na stacionární. Diference odstraňují trend a sezónní složky, čímž zjednodušují analýzu. Moving Average (MA) složka: Tato složka zahrnuje klouzavý průměr reziduí, což jsou odchylky mezi aktuální hodnotou a hodnotou předpovězenou autoregresní částí modelu. ARIMA model se tedy označuje jako ARIMA (p, d, q), kde: • p značí řád autoregresní složky (počet předchozích hodnot zahrnutých do mo- delu), • d značí stupeň diferencování potřebný k dosažení stacionarity, • q značí řád klouzavého průměru složky (počet reziduí zahrnutých do modelu). Samotný proces Box-Jenkinsovy metodologie zahrnuje několik kroků: 1. Identifikace modelu: Na základě analýzy časové řady se pokoušíme identifikovat potenciální hodnoty p, d a q pro ARIMA model. Využívá se tvarů funkcí ACF a PACF. 2. Odhad parametrů: Následuje odhad parametrů modelu na základě historických dat. 3. Kontrola reziduí: Provádíme analýzu reziduí modelu, abychom ověřili, zda jsou náhodně rozložená. Pokud rezidua nejsou náhodně rozložená, může být třeba provést další úpravy modelu. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 165 4. Prognóza: Nakonec použijeme model k prognózování budoucích hodnot časové řady. Je důležité mít na paměti, že Box-Jenkinsova metodologie vyžaduje určitý stupeň odbornosti a zkušeností v oblasti časových řad a statistiky, ačkoli existují i softwary, které mohou asistovat v procesu identifikace a odhadu modelu. Aplikaci jednotlivých kroků s využitím programu GRETL si ukážeme na konkrétním příkladu v závěru této kapitoly. Ještě předtím se seznámíte s dalšími nástroji a metodami, které se využívají v prvním kroku při identifikaci modelu ČŘ. Významným nástrojem ke stanovení typu modelu (AR, MA, I, ARMA, ARIMA) je autokorelační funkce k, k = 1, 2, …, (ACF) a korelogram, resp. výběrová autokorelační funkce 𝜌̂ 𝑘, k = 1,2, ..., a výběrový korelogram. Korelace mezi 2 náhodnými veličinami je často způsobena tím, že obě tyto veličiny jsou korelovány s veličinou třetí. Velká část korelace mezi veličinami Yt a Yt-k může být zapříčiněna jejích korelací s mezilehlými veličinami Yt-1, Yt-2, …, Yt-k+1. Pojem parciální autokorelace zachycuje korelaci mezi veličinami Yt a Yt-k očištěnou o vliv veličin mezi nimi. Parciální autokorelační koeficient kk, k = 0,1,2, ..., (2 indexy kk) je analogií k pojmu parciální regresní koeficient. Uvažujte k-násobnou lineární regresi Yt s regresory Yt-1, Yt-2, …, Yt-k Yt = k1 Yt-1+ k2 Yt-2+...+kk Yt-k + et. (10.8) Regresní koeficient kk je ve (10.8) právě parciální autokorelační koeficient. Vztahu (10.8) se využívá k výpočtu výběrového parciálního autokorelačního koeficientu 𝜌̂ 𝑘𝑘, viz Arlt (1999). Důležitou roli hraje tzv. parciální autokorelační funkce (PACF) stochastického procesu ρkk pro k = 0,1,2, …, PACF má následující vlastnosti: ρ00 = 1, –1 ≤ ρkk ≤ 1 pro k = 1,2, … ρkk = ρ-k,-k pro k = 1,2,…, tj. PACF je symetrická kolem k = 0. Grafickým znázorněním PACF je parciální korelogram. Vzhledem k uvedeným vlastnostem stačí, aby parciální korelogram zobrazoval hodnoty pro posuvy k>0. Při identifikaci typu procesu ARIMA a jeho řádů využíváme charakteristických tvarů ACF a PACF. Různé typy procesů ARIMA mají charakteristické tvary korelogramů a parciálních korelogramů. V programu GRETL využíváme nabídku: Proměnná → Korelogram. Jednotlivé typy procesů mají následující charakteristiky: a. Proces AR(p): Prvních p hodnot PACF je „velkých“, další = 0 a „rychlý“ pokles (v absolutních hodnotách) ACF. Modely typu arima a predikce časových řad 166 Obrázek 38: Příklady korelogramů AR (1) b. Proces MA(q): Prvních q hodnot ACF je „velkých“, další = 0 a „rychlý“ pokles (v absolutních hodnotách) PACF. Obrázek 39: Příklady korelogramů MA (1) c. Proces I(d): „Pomalý“ pokles ACF, prvních d hodnot PACF je „velkých“, další = 0. Obrázek 40: Příklady korelogramů I (1): „Náhodná procházka“ d. Proces ARMA (p, q): Prvních q hodnot ACF je „velkých“, další = 0 a prvních p hodnot PACF je „velkých“, další = 0. Lag Number 16151413121110987654321 ACF 1,0 0,5 0,0 -0,5 -1,0 AR1 Lower Confidence Limit Upper Confidence Limit Coefficient Lag Number 16151413121110987654321 PartialACF 1,0 0,5 0,0 -0,5 -1,0 MA1 Lower Confidence Limit Upper Confidence Limit Coefficient Lag Number 16151413121110987654321 ACF 1,0 0,5 0,0 -0,5 -1,0 I1 Lower Confidence Limit Upper Confidence Limit Coefficient Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 167 Obrázek 41: Příklady korelogramů ARMA (1,1) ŘEŠENÁ ÚLOHA 10.1 Uvažujte časovou řadu „Čtvrtletní HDP České republiky“ v mil. Kč (zdroj Český statistický úřad). Hodnoty časové řady jsou uvedeny v následující Tabulce 14 a zobrazeny v grafu na Obrázku 42. Tabulka 14: HDP ČR v mil. Kč v letech 2005–2023 Najděte vhodný ARIMA model této časové řady a pomocí něj prognózujte čtvrtletní hodnoty HDP až do konce roku 2024. 1Q/2005 801 486 1Q/2010 978 222 1Q/2015 1 119 947 1Q/2020 1 438 206 2Q/2005 803 815 2Q/2010 988 348 2Q/2015 1 135 893 2Q/2020 1 446 467 3Q/2005 813 013 3Q/2010 992 387 3Q/2015 1 147 260 3Q/2020 1 418 529 4Q/2005 836 035 4Q/2010 990 361 4Q/2015 1 153 639 4Q/2020 1 451 908 1Q/2006 849 444 1Q/2011 998 308 1Q/2016 1 181 683 1Q/2021 1 497 225 2Q/2006 865 904 2Q/2011 1 003 298 2Q/2016 1 185 584 2Q/2021 1 526 632 3Q/2006 888 564 3Q/2011 1 008 390 3Q/2016 1 195 161 3Q/2021 1 530 072 4Q/2006 905 632 4Q/2011 1 019 675 4Q/2016 1 203 410 4Q/2021 1 592 640 1Q/2007 942 051 1Q/2012 1 017 859 1Q/2017 1 224 225 1Q/2022 1 635 908 2Q/2007 944 126 2Q/2012 1 014 883 2Q/2017 1 256 656 2Q/2022 1 679 421 3Q/2007 967 813 3Q/2012 1 011 265 3Q/2017 1 277 280 3Q/2022 1 696 463 4Q/2007 979 829 4Q/2012 1 014 942 4Q/2017 1 293 581 4Q/2022 1 748 070 1Q/2008 991 805 1Q/2013 1 013 154 1Q/2018 1 306 933 2Q/2008 1 005 646 2Q/2013 1 015 088 2Q/2018 1 317 350 3Q/2008 1 017 012 3Q/2013 1 020 879 3Q/2018 1 374 997 4Q/2008 996 313 4Q/2013 1 047 879 4Q/2018 1 428 474 1Q/2009 993 972 1Q/2014 1 054 375 1Q/2019 1 414 353 2Q/2009 974 788 2Q/2014 1 070 196 2Q/2019 1 443 994 3Q/2009 971 644 3Q/2014 1 086 133 3Q/2019 1 432 287 4Q/2009 983 089 4Q/2014 1 101 830 4Q/2019 1 435 590 Modely typu arima a predikce časových řad 168 Řešení: K řešení využijeme Box-Jenkinsovu metodologii prognózování ČŘ formulovanou ve 4 krocích popsaných v subkapitole 10.3. Použijeme k tomu statistický program GRETL. Nejprve sestrojíme graf časové řady HDP. Označíme proměnnou HDP a v nabídce ZOBRAZIT → Vyskreslit zadané proměnné → Vykreslit časové řady… a dostaneme graf zobrazený na Obrázku 42. Z prostého pohledu na spojnicový graf na Obrázku 42 lze usoudit, že se jedná o nestacionární časovou řadu. Tento předpoklad potvrdíme analýzou korelogramů ACF a PACF. Obrázek 42: HDP ČR v mil. Kč v letech 2005–2023 Krok 1: Identifikace modelu procesu ARIMA. V menu: PROMĚNNÁ → KORELOGRAM → maximální počet zpoždění = 8, a ve výstupu obdržíme korelogramy, které zachycuje Obrázek 43. Obrázek 43: Korelogramy HDP ČR V korelogramu hodnoty ACF pomalu klesají, v PACF je „velká“ první hodnota. Z toho vyvozujeme, že se jedná o nestacionaritu 1. řádu, tj. typu I (1). Stacionarizujeme proto časovou řadu jedním diferencováním. Dále vypočteme diferencovaé hodnoty proměnné Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 169 HDP, označíme proměnnou HDP a dále v menu vybereme PŘIDAT→ První diference vybraných proměnných. Následně sestrojíme opět korelogramy této diferencované proměnné a na základě tvarů ACF a PACF vybereme model ARIMA (1, 1, 1). Krok 2: Odhad parametru modelu – výpočet koeficientů provedeme v menu: MODEL→ Univariate time series → ARIMA, Závisle proměnná: HDP viz. Obrázek 34, který ukazuje zadání modelu ARIMA (1, 1, 1) a jeho výstup, což je odhad koeficientů. Na Obrázku 34 vidíme, že koeficienty jsou statisticky významné, hodnota koeficientu determinace je 0,99. Obrázek 34: Zadání modelu ARIMA modelu (1, 1, 1) a odhad parametrů Krok 3: Verifikace modelu – spočívá v ověření předpokladu, že reziduum je bílým šumem. Ve výstupu modelu vybereme v menu GRAFY → Korelogram reziduí → potvrdíme a dostáváme Obrázek 35. Modely typu arima a predikce časových řad 170 Obrázek 35: Korelogramy reziduí časové řady HDP ČR Uvedené korelogramy potvrzují, že ACF i PACF jsou nulové, Krok 4: Prognózu odhadneme do konce roku 2024. Výsledky ukazuje Graf 36, který zobrazuje hodnoty původní časové řady a hodnoty modelované časové řady. Graf sestrojíme tak, že v menu modelu vybereme ANALÝZA → Předpovědi. Obrázek 36: Grafické zobrazení původní a odhadnuté časové řady SAMOSTATNÉ ÚKOLY 10.1 Uvažujte časovou řadu počtu vyrobených součástek v tis. ks v letech 2005-2022. Hodnoty časové řady jsou uvedeny v následující tabulce. Najděte vhodný ARIMA model této Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 171 časové řady a pomocí něj prognózujte čtvrtletní hodnoty až do konce roku 2023. Použijte přitom 4 kroky Box-Jenkinsovy metodologie. 1Q/2005 2872,8 1Q/2010 3154 1Q/2015 3830,8 1Q/2020 4221,8 2Q/2005 2860,3 2Q/2010 3190,4 2Q/2015 3732,6 2Q/2020 4254,8 3Q/2005 2896,6 3Q/2010 3249,9 3Q/2015 3733,5 3Q/2020 4309 4Q/2005 2873,7 4Q/2010 3292,5 4Q/2015 3808,5 4Q/2020 4333,5 1Q/2006 2942,9 1Q/2011 3356,7 1Q/2016 3860,5 1Q/2021 4390,5 2Q/2006 2947,4 2Q/2011 3369,2 2Q/2016 3844,4 2Q/2021 4387,7 3Q/2006 2966 3Q/2011 3381 3Q/2016 3864,5 3Q/2021 4412,6 4Q/2006 2980,8 4Q/2011 3416,3 4Q/2016 3803,1 4Q/2021 4427,1 1Q/2007 2927,3 1Q/2012 3466,4 1Q/2017 3756,1 1Q/2022 4460 2Q/2007 3089,7 2Q/2012 3525 2Q/2017 3771,1 2Q/2022 4515,3 3Q/2007 3125,8 3Q/2012 3574,4 3Q/2017 3754,4 3Q/2022 4559,3 4Q/2007 3175,5 4Q/2012 3567,2 4Q/2017 3759,6 4Q/2022 4625,5 1Q/2008 3253,3 1Q/2013 3591,8 1Q/2018 3783,5 2Q/2008 3267,6 2Q/2013 3707 2Q/2018 3886,5 3Q/2008 3264,3 3Q/2013 3735,6 3Q/2018 3944,4 4Q/2008 3289,1 4Q/2013 3779,6 4Q/2018 4012,1 1Q/2009 3259,4 1Q/2014 3780,8 1Q/2019 4089,5 2Q/2009 3267,6 2Q/2014 3784,3 2Q/2019 4144 3Q/2009 3239,1 3Q/2014 3807,5 3Q/2019 4166,4 4Q/2009 3226,4 4Q/2014 3814,6 4Q/2019 4194,2 10.2 Z následujících grafů časových řad se pokuste určit stacionaritu a z korelogramů určete identifikační body, od kterých se hodnoty již statisticky významně neliší od nuly, a identifikujte řád autoregresního procesu AR (p) a řád procesu klouzavých průměrů MA (q). a) Modely typu arima a predikce časových řad 172 b) c) ODPOVĚDI 10.1 a) Identifikace modelu Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 173 Na základě tvaru korelačních funkcí diferencované časové řady vybíráme model ARIMA (0, 1, 0) x (1, 1, 0). 1. b) Odhad parametrů modelu Koeficient SAR1= – 0,423 je statisticky významný na hladině významosti 0,01 (protože hodnota signifikance = 0,000 je mneší než 0,01). c) Verifikace modelu Korelogramy potvrzují, že ACF i PACF reziduální složky jsou nulové. Modely typu arima a predikce časových řad 174 d) Predikce počtu vyrobených výrobků do 4. čtvrtletí 2023 Období Bodový odhad Intervalový odhad (95%) Q1/ 2023 4671,3 4560,2 4782,4 Q2/2023 4704,7 4547,6 4861,8 Q3/2023 4743,3 4550,9 4935,7 Q4/2023 4790,3 4568,2 5012,5 10.2 a) Časová řada nebude stacionární, musíme odstranit exponenciální trend. Počáteční model AR (1) – ACF exponenciálně klesá, PACF má významnou pouze první hodnotu. Model ARIMA (1, 1, 0). Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 175 b) Časová řada bude stacionární, má nulovou střední hodnotu, a rozptyl neroste. Počáteční modely AR (1) – ACF exponenciálně klesá, PACF má významnou pouze první hodnotu, MA (2) – PACF exponenciálně klesá, ACF má významné pouze první dvě hodnoty, model ARIMA (1, 0, 1). c) Časová řada není stacionární. Počáteční model AR (1) – ACF exponenciálně klesá, PACF má významnou pouze první hodnotu. Model ARIMA (1, 1, 0). SHRNUTÍ KAPITOLY V této závěrečné kapitole jste se seznámili s časovými řadami typu ARIMA. Box-Jenkinsova metodologie, která se touto problematikou zabývá, klade důraz nikoliv na konstrukci jednorovnicového nebo vícerovnicového modelu, jak tomu bylo např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČŘ. Postupně jste se seznámili s vlastnostmi autoregresivních procesů AR, procesů pohyblivých průměrů MA, integračních procesů I, jakož i procesů vzniklých jejich kombinací ARIMA. Dále byly tyto procesy rozšířeny též na sezónní procesy. Úkolem pak bylo pro konkrétní časovou řadu nalézt vhodný konkrétní model typu ARIMA a nalezený model použít pro účely prognózy (predikce, extrapolace) hodnot dané časové řady. Celý postup tvorby prognózy ČŘ autoři metody ARIMA formulovali ve 4 krocích, které nazýváme Box-Jenkinsova metodologie prognózování ČŘ. Jednotlivé kroky jsou (1) Identifikace modelu, (2) Odhad modelu, (3) Verifikace modelu a (4) Prognóza pomocí modelu. Jednotlivé kroky Box-Jenkinsovy metodologie byly ilustrovány na příkladu časové řady čtvrtletního HDP České republiky s pomocí statistického programu GRETL. Modely typu arima a predikce časových řad 176 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 177 Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 178 LITERATURA ANDĚL,Jiří, 2007. Statistické metody. 4. upr. vyd. Praha: Marfyzpress, 299 s. ISBN 80- 7378-003-8. ARLT, Josef, 1999. Moderní metody modelování ekonomických časových řad. 1.vyd. Praha: Grada Publishing, 307 s. ISBN 80-716-9539-4. CIPRA,Tomáš, 1986. Analýza časových řad s aplikacemi v ekonomii. 1.vyd. Praha: Státní nakladatelství technické literatury, 246 s. GUJARATI, Damodar N, c2003. Basic econometrics. 4th ed. Boston: McGraw-Hill, xxix, 1002 s. ISBN 978-0-07-233542-2. HÁTLE, Jaroslav a LIKEŠ, Jiří, 1974. Základy počtu pravděpodobnosti a matematické statistiky. 2. vyd. Praha: SNTL. 463 s. HINDLS, Richard, SEGER, Jan a HRONOVÁ, Stanislava, 2002. Statistika pro ekonomy. 1. vyd. Praha: Professional Publishing, 415 s. ISBN 80-864-1926-6. KAŇKA, Miloš, 1998. Vybrané partie z matematiky pro ekonomy. 1.vyd. Praha: VŠE, 231 s. ISBN 80-707-9537-9. MAREK, Luboš a kol., 2007. Statistika pro ekonomy: aplikace. 2. vyd. Praha: Professional Publishing. 485 s. ISBN 978-80-86946-40-5. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2000. Statistika A. Vyd. 3., rozš. a upr. V Opavě: Slezská univerzita, Obchodně podnikatelská fakulta v Karviné, 162 s. ISBN 80- 7248-097-9. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2000. Statistika B. Vyd. 2., rozš. a upr. V Opavě: Slezská univerzita, Obchodně podnikatelská fakulta v Karviné, 143 s. ISBN 80- 724-8099-5. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2003. Kvantitativní metody B: statistika. Vyd. 1. Karviná: Slezská univerzita v Opavě, Obchodně podnikatelská fakulta v Karviné, 206 s. ISBN 80-724-8198-3. SEGER, Jan, HRONOVÁ, Stanislava a HINDLS, Richard, 1998. Statistika v hospodářství. 1.vyd. Praha: ETC Publishing, 636 s. ISBN 80-860-0656-5. Jaroslav Ramík, Radmila Krkošková - Statistické zpracování dat 179 SHRNUTÍ STUDIJNÍ OPORY Tento text slouží jako pomocný materiál pro studium všech akreditovaných magisterských programů na Slezské univerzitě, konkrétně na Obchodně podnikatelské fakultě v Karviné. Předmět Statistické zpracování dat navazuje na bakalářský předmět Statistika, který se vyučuje na SU OPF, nebo na podobný předmět základů statistiky na bakalářské úrovni na jiných ekonomických fakultách v České republice. Tento text představuje ninovaci oproti původnímu studijnímu materiálu. V rámci tohoto předmětu je klíčový důraz kladen na praktické využití statistických metod při zpracování ekonomických dat v oblastech aplikované ekonomie, zejména v oblastech marketingu a managementu. Tato studijní opora umožňuje studentům plnohodnotnou a současně samostatnou studijní práci. Tento materiál je rozdělen do deseti tematických kapitol. Vysokoškolské studium tohoto předmětu, Statistické zpracování dat, vyžaduje od studentů značné úsilí věnované pravidelnosti a trpělivosti při studiu a samostudiu, schopnost soustředění na téma, aktivní přístup, který zahrnuje samostatné řešení úloh. Tato studijní opora by měla studentům pomoci v těchto oblastech. Dalšími doplňkovými zdroji pro studium mohou být tradiční učebnice, skripta a doporučená literatura. 180 PŘEHLED DOSTUPNÝCH IKON Čas potřebný ke studiu Cíle kapitoly Klíčová slova Nezapomeňte na odpočinek Průvodce studiem Průvodce textem Rychlý náhled Shrnutí Tutoriály Definice K zapamatování Případová studie Řešená úloha Věta Kontrolní otázka Korespondenční úkol Odpovědi Otázky Samostatný úkol Další zdroje Pro zájemce Úkol k zamyšlení Název: Statistické zpracování dat Autor: Prof. RNDr. Jaroslav Ramík, CSc., Mgr. Radmila Krkošková Vydavatel: Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné Určeno: studentům SU OPF Karviná Počet stran: 18180 Tato publikace neprošla jazykovou úpravou.