Statistické zpracování dat Distanční studijní opora Jaroslav Ramík, Radmila Stoklasová Karviná 2017 Obor: Statistika. Klíčová slova: Analýza rozptylu, jednoduchá regresní analýza, vícerozměrná regresní analýza, analýza časových řad, ARIMA modely. Anotace: Publikace představuje studijní oporu předmětu Statistické zpracování dat pro navazující studium na vysoké škole ekonomického zaměření. Obsahově pokrývá základní témata: analýza rozptylu – 1 faktor, analýza rozptylu – 2 faktory, jednoduchá a vícerozměrná regresní analýza, analýza časových řad. Autor: Prof. RNDr. Jaroslav Ramík, CSs. Mgr. Radmila Stoklasová, Ph.D. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 3 Obsah ÚVODEM............................................................................................................................6 RYCHLÝ NÁHLED STUDIJNÍ OPORY...........................................................................7 1 ANALÝZA ROZPTYLU (ANOVA) – JEDEN FAKTOR........................................8 1.1 Nezávislý a závislý faktor..................................................................................10 1.2 Předpoklady analýzy rozptylu s jedním faktorem .............................................11 1.3 Postup při analýze rozptylu s jedním faktorem..................................................12 1.4 Míra těsnosti závislosti ......................................................................................15 1.5 Analýza rozptylu v programu GRETL ..............................................................16 1.6 Samostatné úkoly...............................................................................................22 1.7 Řešení úkolů, výsledky......................................................................................24 2 ANALÝZA ROZPTYLU (ANOVA) – DVA A VÍCE FAKTORŮ .........................25 2.1 Analýza rozptylu se dvěma faktory ...................................................................25 2.2 Předpoklady analýzy rozptylu se dvěma faktory...............................................28 2.3 Kruskal – Wallisova analýza rozptylu ...............................................................38 2.4 Samostatné úkoly...............................................................................................40 2.5 Řešení úkolů, výsledky......................................................................................41 3 RESGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ LINEÁRNÍ REGRESE............42 3.1 Regresní analýza ................................................................................................43 3.2 Jednoduchá regresní analýza..............................................................................44 3.3 Metoda nejmenších čtverců ...............................................................................44 3.4 Míra variability, koeficient determinace............................................................46 3.5 Klasický lineární model .....................................................................................47 3.6 Samostatné úkoly...............................................................................................52 3.7 Řešení úkolů, výsledky......................................................................................53 4 REGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ: INTERVALY SPOLEHLIVOSTI, TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE ..............................54 4.1 Intervaly spolehlivosti........................................................................................55 4.2 Testy hypotéz.....................................................................................................56 4.3 Nelineární regresní analýza................................................................................57 4.4 Parabolická regrese ............................................................................................58 4.5 Törnquistovy funkce ..........................................................................................59 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 4 4.6 Metoda vybraných bodů ....................................................................................61 4.7 Samostatné úkoly...............................................................................................72 4.8 Řešení úkolů, výsledky......................................................................................73 5 REGRESNÍ ANALÝZA - VÍCEROZMĚRNÁ.........................................................75 5.1 Vícerozměrná regresní analýza..........................................................................76 5.2 Metoda nejmenších čtverců ...............................................................................76 5.3 Náhodný vektor a jeho charakteristiky ..............................................................78 5.4 Klasický lineární model .....................................................................................78 5.5 Míry variability a koeficient determinace..........................................................79 5.6 Intervaly spolehlivosti a testy hypotéz...............................................................80 5.7 Individuální T-testy o hodnotách regresních koeficientů...................................81 5.8 F-test hypotézy o hodnotách regresních koeficientů .........................................81 5.9 Samostatné úkoly...............................................................................................88 5.10 Řešení úkolů, výsledky......................................................................................90 6 REGRESNÍ ANALÝZA – VÍCEROZMĚRNÁ: MULTIKOLINEARITA, HETEROSKEDASTICITA, AUTOKORELACE.............................................................92 6.1 Co je multikolinearita?.......................................................................................93 6.2 Co je heteroskedasticita?....................................................................................96 6.2.1 Jak zjišťovat heteroskedasticitu? ...................................................................97 6.2.2 Jak odstraňovat heteroskedasticitu?...............................................................99 6.3 Co je autokorelace?..........................................................................................103 6.4 Samostatné úkoly.............................................................................................104 6.5 Řešení úkolů, výsledky....................................................................................105 7 ZÁKLADY ANALÝZY ČASOVÝCH ŘAD .........................................................106 7.1 Typy ekonomických časových řad...................................................................107 7.2 Elementární charakteristiky časových řad .......................................................109 7.3 Modely ekonomických časových řad...............................................................110 7.4 Samostatné úkoly.............................................................................................112 7.5 Řešení úkolů, výsledky....................................................................................112 8 ANALÝZA TRENDU ČASOVÝCH ŘAD ............................................................114 8.1 Trendová složka časových řad.........................................................................115 8.2 Trendové funkce ..............................................................................................116 8.2.1 Lineární trend...............................................................................................116 8.2.2 Kvadratický trend.........................................................................................119 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 5 8.2.3 Mocninný trend............................................................................................119 8.2.4 Exponenciální trend .....................................................................................120 8.2.5 Logistický trend ...........................................................................................121 8.2.6 Gompertzův trend ........................................................................................124 8.3 Volba vhodného modelu trendu.......................................................................124 8.4 Klouzavé průměry............................................................................................125 8.5 Exponenciální vyrovnání .................................................................................126 8.6 Samostatné úkoly.............................................................................................129 8.7 Řešení úkolů, výsledky....................................................................................129 9 ANALÝZA SEZÓNNÍ SLOŽKY A NÁHODNÉ SLOŽKY..................................130 9.1 Model konstantní sezónnosti se schodovitým trendem ...................................131 9.2 Model konstantní sezónnosti s lineárním trendem...........................................132 9.3 Model proporcionální sezónnosti.....................................................................132 9.4 Analýza náhodné složky ..................................................................................133 9.5 Samostatné úkoly.............................................................................................137 9.6 Řešení úkolů, výsledky....................................................................................138 10 MODELY TYPU ARIMA A PROGNÓZOVÁNÍ ČASOVÝCH ŘAD..................139 10.1 Program SPSS..................................................................................................140 10.2 Modelování časových řad pomocí ARIMA modelu........................................141 10.2.1 Autoregresivní proces (AR).....................................................................141 10.2.2 Proces klouzavých průměrů (MA)...........................................................142 10.2.3 Autoregresivní proces klouzavých průměrů (ARMA) ............................142 10.2.4 Autoregresivní a integrovaný proces klouzavých průměrů (ARIMA) ....142 10.3 Box – Jenkinsova metodologie prognózování časových řad ...........................143 10.3.1 Identifikace procesů ARIMA pomocí ACF a PACF...............................144 10.4 Samostatné úkoly.............................................................................................150 10.5 Řešení úkolů, výsledky....................................................................................151 LITERATURA ................................................................................................................154 SHRNUTÍ STUDIJNÍ OPORY.......................................................................................155 PŘEHLED DOSTUPNÝCH IKON.................................................................................156 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 6 ÚVODEM Tento text představuje studijní oporu pro studium všech akreditovaných studijních programů v navazujícím magisterském studiu na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné. Předmět Statistické zpracování dat navazuje na předmět Statistika z bakalářského studia. V opoře je kladen důraz především na uplatnění statistických metod při zpracování ekonomických dat v aplikovaných ekonomických disciplínách, jako jsou zejména marketing a management. Samotný učební text je rozčleněn do 10 tematických kapitol. Jednotlivé kapitoly jsou přibližně stejně obsahově rozsáhlé a obtížné. Takový rozsah učiva odpovídá klasické dvouhodinové přednášce v prezenčním studiu na vysoké škole ekonomického zaměření. V prezenčním studiu je ovšem na rozdíl od kombinované formy studia přednáška doplněna seminářem, kde se probraná látka aplikuje na konkrétní číselné příklady, které se řeší až k požadovanému výsledku pomocí počítače. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 7 RYCHLÝ NÁHLED STUDIJNÍ OPORY Vysokoškolské studium v případě předmětu Statistické zpracování dat vyžaduje enormní úsilí studenta zaměřené na pravidelnost a vytrvalost ve studiu i samostudiu, schopnost koncentrace na předmět, aktivní přístup spočívající v samostatném řešení příkladů. V tom všem by tato studijní opora měla studentům kombinované formy studia pomoci nahradit kvalitní prezenční výuku i úlohu učebnic a skript. Studijní opora je k tomu účelu vybavena určitými nástroji, o jejichž funkcích byste měli být informováni a mohli je tudíž účelně využívat ve svůj prospěch. Pro lepší zvládnutí látky jsou vám v elektronické verzi kurzu Statistické zpracování dat k dispozici ještě doplňkové materiály v elektronické podobě. Dalšími podpůrnými zdroji ke studiu mohou být klasické učebnice a skripta a další doporučená litera- tura. Předpokladem pro úspěšné zvládnutí tohoto předmětu Statistické zpracování dat je zvládnutí bakalářského předmětu Statistika na SU OPF nebo odpovídajícího základního bakalářského kurzu Pravděpodobnosti – Statistiky, a to podle typu bakalářského studia na některé VŠ v ČR. Obsahem kapitol 1 a 2 je analýza rozptylu - ANOVA, kapitoly 3 až 6 jsou věnovány regresní analýze - jednoduché i vícerozměrné, zbývající kapitoly 7 až 10 se věnují analýze ekonomických časových řad, ty jsou v ekonomických disciplínách mimořádně významné. Získané vědomosti vám umožní snadněji pochopit a osvojit si praktické zásady analýzy informací, jimiž jsme všichni dnes zahlceni a v nichž je nám určeno žít. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 8 1 ANALÝZA ROZPTYLU (ANOVA) – JEDEN FAKTOR RYCHLÝ NÁHLED KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závislost hodnot znaků Y na faktoru X, pro něž jsou k dispozici příslušná data, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Cílem, k němuž směřujeme, je buď přijmout nulovou hypotézu o vzájemné nezávislosti Y na X, nebo ji zamítnout (na zvolené hladině významnosti). Jedná se tedy o běžný statistický postup nazývaný testování statistických hypotéz, známý ze základního kurzu statistiky. V případě přijetí nulové hypotézy vyvozujeme nezávislost hodnot Y na X, v opačném případě konstatujeme, že Y na X závisí. V této kapitole se naučíte, jak tento test statistické hypotézy konkrétně provést: jak vypočítat hodnotu testového kritéria a příslušnou kritickou hodnotu a jak vyvodit z těchto hodnot příslušný závěr týkající se eventuální závislosti nebo nezávislosti hodnot znaku Y na faktoru X. CÍLE KAPITOLY Po prostudování této kapitoly budete umět:  vypočítat hodnotu testového kritéria,  najít příslušnou kritickou hodnotu z tabulek Fisherova rozdělení,  zkonstruovat tabulku ANOVA,  přijmout nebo zamítnout nulovou hypotézu o nezávislosti hodnot znaku Y na faktoru X. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 9 KLÍČOVÁ SLOVA KAPITOLY Analýza rozptylu, testové kritérium, kritická hodnota, ANOVA tabulka. Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů na hospodářský proces charakterizovaný kvantitativním statistickým znakem. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu na dílčí rozptyly příslušející jednotlivým vlivům, podle nichž jsou data roztříděna. Kromě dílčích rozptylů je jednou složkou celkového rozptylu tzv. reziduální rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Všeobecně používané označení ANOVA je akronymem anglických slov „ANalysis Of VAriance“ (doslovný překlad: analýza rozptylu). Klasická ANOVA vychází, jak uvidíte, z předpokladu normality rozdělení hodnot daného faktoru. Pokud je takový předpoklad neudržitelný, lze použít analýzu rozptylu jiného typu, konkrétně Kruskal-Wallisovu verzi ANOVA. Jednofaktorovou ANOVA se zabývá tato kapitola, vícefaktorová a Kruskal-Wallisova ANOVA je obsahem kapitoly následující. V tomto studijním textu předpokládáme, že čtenář má k dispozici verzi Excel 2010, eventuálně vyšší. Pro zjednodušení práce je vhodné mít aktivovaný doplňky „Analýza dat“ a „Řešitel“ ve složce „Data“ (viz Obrázek 1). Obrázek 1: Doplněk Analýza dat V případě, že tyto doplňky nejsou ve složce „Data“, lehce je nainstalujete tímto postupem: „Tlačítko Soubor“  „Možnosti“  „Doplňky“  „Přejít…“ a v dialogovém okně zaškrtnout položky „Analytické nástroje“ a „Řešitel“ (viz Obrázek 2). Analýza rozptylu (ANOVA) – JEDEN FAKTOR 10 Obrázek 2: Doplňky 1.1 Nezávislý a závislý faktor Často se vyskytuje situace, kdy máme k nezávislých náhodných výběrů které obecně nemusí pocházet z jednoho základního souboru, nebo jinak řečeno, nemusí být stejného typu, s rozsahy, tj. počty prvků knnn ,...,, 21 . Číslo k může být libovolné podle konkrétní situace, např. 2, 3, 4, ... Tyto rozsahy výběrů rovněž nemusí být stejné, v každém z nich budiž znám průměr ix , a také rozptyl 2 is , i = 1,2,...,k. V praktických situacích obvykle tyto výběry vzniknou tak, že základní soubor rozdělíme podle určitého statistického znaku X do k skupin, např. věkových, v každé z nich pak máme in prvků, i = 1,2,...,k. Znak X pak označujeme jako nezávislý faktor, jehož hodnoty předem stanovíme, stanovíme např. věkové skupiny takto: do 18 let, 19 až 29 let, 30 až 59 let, 60 a více let, v tomto příkladu je k = 4. Hovoříme proto často o faktoru kontrolovaném. Další příklady faktorů: velikost rodiny, měsíční příjem rodiny, velikost podniku, typ ekonomické činnosti, apod. Hodnotami faktoru X jsou obvykle kvalitativní (nečíselné) veličiny, označujeme je symbolicky kxxx ,...,, 21 . Tyto hodnoty mohou, ale nemusejí být nutně vzájemně uspořádány. Faktor X, jež nabývá k kvalitativních hodnot, může, ale nemusí ovlivňovat hodnoty statistického znaku Y, o kterém předpokládáme, že má na rozdíl od X kvantitativní (tedy číselnou) povahu. Cílem ANOVA je právě prokázat, že hodnoty kvalitativního znaku X ovlivňují hodnoty kvantitativního znaku Y- závislého faktoru. Hodnoty znaku Y, které přísluší hodnotě ix faktoru X, označujeme iinii yyy ,...,, 21 . Pro analýzu rozptylu je výhodné uspořádat výchozí údaje do přehledné tabulky, viz Tabulka 1. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 11 Tabulka 1: Schéma výchozí tabulky analýzy rozptylu pro jeden faktor Princip metody ANOVA, kterou prokazujeme závislost Y na X, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. 1.2 Předpoklady analýzy rozptylu s jedním faktorem Předpokládáme, že faktor X má k úrovní (hodnot ix ), s účinkem na znak Y, který lze vyjádřit vztahem: ii αμμ += , i = 1,2,...,k, kde iμ je průměr znaku Y v i-té skupině (příslušné k hodnotě faktoru ix ),  je celkový průměr znaku Y, iα je efekt hodnoty faktoru ix na znak Y. Formulujeme nyní nulovou hypotézu H0, že všechny výběry pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X nemají na hodnoty znaku Y žádný efekt (vliv). Budeme dále předpokládat, že hodnoty iα pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem 2 . Formulujeme nulovou hypotézu: H0 : ( ) ( ) ( )kαEαEαE =...== 21 = 0 , proti alternativní hypotéze, že H0 neplatí, že alespoň pro dvě položky, např. i a j, platí: H1 : ( ) ( )ji αEαE ≠ . Symbolem ( )iαE označujeme střední hodnotu náhodné veličiny iα . Předpoklad konstantního rozptylu pro všechny veličiny iα je podstatný, je ho možno ověřit statistickým testem, a to buď tzv. Bartlettovým testem, s nímž se seznámíte později. Normalitu rozdělení veličin iα lze taktéž ověřit příslušným testem, např. Chi-kvadrát testem dobré shody, známým ze základního kurzu statistiky, viz Ramík (2003). V praxi obvykle předpokládáme Číslo výběru Zjištěné hodnoty sledovaného znaku Počet prvků Průměr Rozptyl 1 1111211 nj y,...,y,...,y,y 1n 1y 2 1s 2 2222221 nj y,...,y,...,y,y 1n 2y 2 2s      i iinijii y,...,y,...,y,y 21 in iy 2 is      k kknkjkk y,...,y,...,y,y 21 kn ky 2 ks Celkem n y 2 s Analýza rozptylu (ANOVA) – JEDEN FAKTOR 12 (na podkladě věcné znalosti problému), že zmíněné dva předpoklady jsou automaticky splněny a při aplikaci ANOVA je již obvykle neověřujeme. Cílem, k němuž směřujeme, je buď přijmout nulovou hypotézu H0, nebo H0 zamítnout (na zvolené hladině významnosti). Jedná se tedy o běžný statistický postup nazývaný testování statistických hypotéz, známý ze základního kurzu statistiky, viz Ramík (2003). V případě přijetí nulové hypotézy vyvozujeme nezávislost hodnot faktoru Y na faktoru X, jinak řečeno: faktor Y na faktoru X nezávisí. V opačném případě (při zamítnutí H0), konstatujeme, že faktor Y na faktoru X závisí, neboli faktor X ovlivňuje Y. 1.3 Postup při analýze rozptylu s jedním faktorem Celkovou variabilitu znaku Y změříme výběrovým rozptylem   1 2 2     n yy s i j ij . (1.1) V souvislosti s analýzou rozptylu se budeme zabývat pouze čitatelem výše uvedeného zlomku, totiž součtem čtverců odchylek zjištěných hodnot ijy od celkového průměru y , přičemž průměr vypočítáme podle známého vztahu: sečteme všechny hodnoty a výsledek podělíme jejich počtem, tedy ∑∑ 1= 1= 1 = k i n j ij i y n y . Tento celkový součet čtverců budeme označovat symbolem yS , tj.     k i n j ijy i yyS 1 1 2 . (1.2) Celkovému součtu čtverců přísluší počet stupňů volnosti dfy = n – 1. Variabilitu mezi skupinami budeme měřit meziskupinovým součtem čtverců myS , , který definujeme následovně    k i iimy yynS 1 2 , . (1.3) Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfm = k – 1. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 13 Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme přitom označení vyS , , přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto     k i n j iijv,y i yyS 1 1 2 . (1.4) Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = n – k. Aritmetickými úpravami výše uvedených vzorců lze snadno dokázat základní vztah analýzy rozptylu, totiž, že celkový součet čtverců je roven sumě meziskupinového a vnitroskupinového součtu čtverců, symbolicky: vymyy SSS ,,  . (1.5) Pro ověření nulové hypotézy H0 použijeme statistiku: v vy m my vy my df S df S kn S k S F , , , , 1    , (1.6) která má při platnosti nulové hypotézy Fisherovo rozdělení  kn,kF 1 . Kritické hodnoty Fisherova rozdělení  21 df,dfF jsou tabelovány pro různé hodnoty hladiny významnosti  a různé hodnoty parametrů (stupňů volnosti: degree of freedom) df1 a df2 . Někdy se namísto kritických hodnot tabelují kvantily Fisherova rozdělení  211 df,dfF k  . Vztah mezi kritickými hodnotami a kvantily je jednoduchý:  21 df,dfF =  211 df,dfF k  . Např. 5-ti procentní kritická hodnota je rovna 95-ti procentnímu kvantilu při stejných hodnotách parametrů df1 a df2. Pro výpočet kritických hodnot lze využít Excelu. Postupuje se přitom takto: v hlavním menu postupně vybíráte: Vložit  Funkce  Statistické  FINV(;df1 ; df2). Postup testování hypotézy H0 charakterizujeme následujícími 3 kroky: Krok 1. Zvolte hladinu významnosti , která představuje chybu 1. druhu, tj. pravděpodobnost zamítnuti správné hypotézy. Praktické hodnoty hladiny významnosti  jsou: 0,1 , 0,05 , 0,01 , nebo-li v procentech: 10%, 5%, 1%. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 14 Krok 2. Vypočtěte hodnotu statistiky F podle vzorce (1.6), přičemž pro hodnoty meziskupinového součtu čtverců myS , a pro výpočet vnitroskupinového součtu čtverců vyS , použijte vzorce (1.3) a (1.4). Výpočetně výhodnější, např. pro výpočet na kalkulačce, jsou následující vzorce: 2 1 1 1 1 2 1               k i n j k i n j ijijy i i y n yS , (1.7) 2 1 1 1 2 , 1              k i k i n j ijiimy i y n ynS . (1.8) K výpočtu vyS , lze využít základního vztahu (1.5) a právě uvedených vztahů (1.7) a (1.8): myyvy SSS ,,  . Krok 3. Porovnejte hodnotu statistiky F vypočtené v Kroku 2 s kritickou hodnotou  kn,kF 1 . Výsledek tohoto porovnání může být dvojí: I. Platí F   kn,kF 1 . Potom se nulová hypotéza H0 přijímá (nezamítá) a tudíž se konstatuje, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv (na zvolené hladině významnosti). Jinak řečeno, faktor X je neúčinný. II. Platí F   kn,kF 1 . Potom se nulová hypotéza H0 zamítá, přijímá se hypotézu alternativní H1, a tudíž se konstatuje, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv. Jinak řečeno, faktor X je účinný. Podaří-li se výše uvedeným testem prokázat, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv, mohou nás zajímat další informace o tom, které skupiny se významně odlišují od průměru, eventuálně jak skupinové průměry seřadit, případně zařadit do společných celků. V krajním případě by se totiž mohlo stát, že významnost rozdílnosti k skupin způsobuje jediná skupina a ostatní skupiny se navzájem neliší. Touto problematikou se zabývají metody tzv. simultánního testování, z nichž nejznámější je metoda Shaffeho. Vy se touto problematikou zde nezabývat nebudete, zájemce odkazujeme na literaturu, viz např. Anděl (2007). Metoda analýzy rozptylu je založena na předpokladech shody rozptylů v jednotlivých k skupinách. Pokud jsou předpoklady splněny, pak popsaná metoda ANOVA poskytuje nejlepší výsledky – je nejúčinnější. Není-li tento předpoklad splněn, pak použití výše uvede- Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 15 ného testu může poskytnout nesprávný výsledek. V takovém případě lze použít jiné metody, např. Kruskal-Wallisova ANOVA, která používá Chi-kvadrát test, s níž se seznámíte v příští kapitole. V Excelu jsou k dispozici funkce, které umožňují řešit jednofaktorové i vícefaktorové úlohy ANOVA. Naleznete je v hlavním menu: Nástroje  Analýza dat  ANOVA: jeden faktor. 1.4 Míra těsnosti závislosti Variabilita podmíněných (skupinových) průměrů iy kolem celkového průměru y je způsobena závislostí znaku Y na znaku X. Tuto variabilitu jsme vyjádřili meziskupinovým součtem čtverců myS , . Variabilita znaku Y uvnitř jednotlivých skupin – vyjádřena vnitroskupinovým (reziduálním) součtem čtverců vyS , , je způsobena jinými (neuvažovanými) činiteli. Čím větší je myS , , tím větší je těsnost závislosti znaků X a Y. Protože však jsou jednotlivé součty čtverců vzájemně vázány vztahem (1.5), lze míru těsnosti závislosti vyjádřit jako podíl meziskupinového a celkového součtu čtverců. Zavádíme proto jako míru těsnosti závislosti znaku Y na znaku X poměr determinace P2 takto: y my S S P ,2 = . (1.9) Odmocninu z poměru determinace P nazýváme poměr korelace. Poměr determinace nabývá hodnot z intervalu [0,1]. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k 1, tím více se také vnitroskupinový součet čtverců blíží k celkovému součtu čtverců, přičemž meziskupinový součet čtverců se blíží k nule. Naopak, čím více se poměr determinace blíží k 0, tím menší část z celkového součtu čtverců tvoří meziskupinový součet čtverců (na úkor vnitroskupinového), a tím menší je těsnost závislosti znaku Y na X. Způsob výpočtu determinačního a korelačního poměru si procvičíte na numerických příkladech. V Excelu bohužel funkce pro výpočet poměru determinace nebo korelace chybí, musí se proto k výpočtu použít vzorce (1.9). Uvědomte si však, že poměr determinace P2 je náhodná veličina (jakožto podíl dvou veličin – součtu čtverců, které jsou samy náhodnými veličinami), proto může být výsledkem kladné číslo i v případě, že výsledkem ANOVA je fakt, že zkoumaný faktor není statistický významný, neboli sledovaná veličina na faktoru nezávisí. V takovém případě by logicky mělo platit, že poměr determinace P2 je nulový, tj. P2 = 0. Tento zdánlivý rozpor vysvětlujeme statistickým přístupem: testem statistické hypotézy. Nulová hypotéza H0: P2 = 0. Jako testové kritérium se použije statistika F ze vzorce (1.6). Analýza rozptylu (ANOVA) – JEDEN FAKTOR 16 Pokud platí F   kn,kF 1 , potom se nulová hypotéza H0 přijímá (a tudíž konstatujeme, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv na zvolené hladině významnosti) a poměr determinace (samozřejmě i poměr korelace) je roven nule, jinak řečeno, je statisticky nevýznamný. V opačném případě se nulová hypotéza zamítá a poměr determinace je statisticky významný. Hodnota poměru determinace i poměru korelace je nenulová. V tom případě má smysl hovořit o síle závislosti veličiny Y na faktoru X. 1.5 Analýza rozptylu v programu GRETL GRETL je volně dostupný produkt se zaměřením na statistické metody, které podporují ekonometrické analýzy. Název je akronymem pro GNU Regression, Econometristic and Time-series Library. Systém GRETL se dá používat dvěma způsoby. Snaha tvůrců systému od začátku směřovala k přiblížení ekonometrie široké veřejnosti a bylo vytvořeno grafické uživatelské rozhraní (GUI – Graphical User Interface), které je pro většinu běžných uživatelů přijatelnější. Po spuštění programu se objeví hlavní okno (Obrázek 3). V horní části je hlavní menu a v dolní části se nachází panel nástrojů. Obrázek 3: Hlavní okno programu GRETL Po instalování program obsahuje velký počet datových souborů, které se dají otevřít z hlavního menu – Soubor – Otevřít data – Vzorový soubor. Je zde možno vybírat z databáze Ramanathan, Greene, Stock and Watson. Záložka Data poskytuje velký prostor na přizpůsobení databáze podmínkám modelování. Na následujícím příkladu si ukážeme, jak se zadávají data do programu GRETL. Tabulka 2 uvádí, kolik dnů po příletu trvá adaptace na časový posun (JETLAG). Na hladině významnosti 5 % ověříme, má-li směr letu vliv na délku adaptace (zotavení). Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 17 Tabulka 2: Doba adaptace ve dnech Směr Doba adaptace ve dnech Západ 2 1 3 3 Východ 6 4 6 8 Stejný 1 0 1 Nulová hypotéza tvrdí, že doba adaptace nezávisí na časovém posunu. Alternativní hypotéza tvrdí, že doba adaptace závisí na časovém posunu. V hlavním menu vybereme nový soubor dat – počet pozorování=11. Struktura souboru dat = průřezová. Kvantitativní proměnnou jsme pojmenovali doba a jednotlivé varianty kvalitativního znaku (směr) musí být přirozená čísla (1-západ, 2-východ, 3-stejný). Obrázek 4: Zadávání hodnot do GRETLU Dále vybereme posloupnost příkazů: Model – Další lineární modely – ANOVA. Obrázek 5: Analýza rozptylu v GRETLU – zadání Zadání hodnot potvrdíme tlačítkem Budiž a dostáváme následující výsledek. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 18 Obrázek 6: Analýza rozptylu v GRETLU - výstup Protože p-hodnota = 0,0009 je menší než hladina významnosti (0,05), nulovou hypotézu zamítáme. Můžeme tedy z 95 % tvrdit, že doba adaptace závisí na časovém posunu. Tato skutečnost byla dokonce prokázána i na hladině významnosti 0,01. ŘEŠENÁ ÚLOHA 1.1 Na testovacím okruhu byla testována průměrná spotřeba tří automobilů téže třídy různých výrobců Škoda, Renault a Fiat. Řidič absolvoval s každým automobilem 5 testovacích jízd. Tabulka ukazuje spotřebu benzínu na 100 kilometrů v jednotlivých jízdách. Na hladině významnosti  = 0,05 zjistěte, zda má typ automobilu vliv na spotřebu benzínu. V kladném případě vypočtěte determinační a korelační poměr. Řešení: Chceme zjistit závislost znaku Y (průměrná spotřeba) na jediném znaku X (výrobce automobilu). Provedeme proto jednofaktorovou analýzu rozptylu. Faktor X má tři hodnoty: x1 = Škoda, x2 = Renault, x3 = Fiat, tzn. k = 3, s počty hodnot n1 = n2 = n3 = 5 v každé z nich budeme testovat nulovou hypotézu H0: E(1) = E(2) = E(2) = 0, tj. průměrná spotřeba je u všech vozidel stejná. Alternativní hypotéza H1 je negací nulové hypotézy. Nejprve vypočítáme podmíněné průměry 21, yy , y3 Automobil Spotřeba Škoda 7,4 7,8 6,8 7,6 8,1 Renault 6,7 7,2 8,3 7,1 7,5 Fiat 6,8 6,9 7,3 7,9 7,6 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 19 3,7 5 6,79,68,6 5 36,7 5 5,72,77,6 5 54,7 5 1,88,74,7 5 5 1 3 3 5 1 2 2 5 1 1 1                   j j j j j j y y y y y y a celkový průměr znaku Y y y n ij        7 4 7 8 7 6 15 7 4 , , , ,  . Dále vypočítáme pomocí vztahů (1.2), (1.3), popř. (1.7), (1.8) součty Sy a Sym. S y yy ij ji                           ( ) ( , , ) ( , , ) (8, , ) ( , , ) ( , , ) ( , , ) ( , , ) ( , , ) , 2 1 5 2 2 2 1 3 2 2 2 2 2 7 4 7 4 7 8 7 4 1 7 4 6 7 7 4 7 2 7 4 7 5 7 4 6 8 7 4 7 6 7 4 3 4    S n y y y y y y y yym i ij i            ( ) ( ) ( ) ( )2 1 2 2 2 3 2 1 3 5 5 5       5 7 54 7 4 5 7 36 7 4 5 7 3 7 4 0162 2 2 ( , , ) ( , , ) ( , , ) , . Součet Sym má k - 1 stupňů volnosti, v našem případě dfm = 3 – 1 = 2. Pomocí součtů Sy a Sym dopočítáme součet Syv, neboť Sy = Syv + Sym. Proto Syv = Sy – Sym = 3,4 – 0,16 = 3,24. Součet Syv má n – k stupňů volnosti, proto dfv = 15 – 3 = 12. Testové kritérium F vypočítáme podle vztahu (1.6): 296,0 12 24,3 2 16,0 1    kn S k S F yv ym . Pro stanovení kritického oboru C najdeme v tabulkách kritických hodnot F(k – 1, n – k) kritickou hodnotu F0,05(2, 12) = 3,89 (ověřte v Excelu pomocí funkce FINV). Kritický obor je proto interval od 3,89 do nekonečna, tj. ),,  893(C .Zřejmě platí 0,296 < 3,89, tzn. F  C, proto nulovou hypotézu H0 přijímáme. Znamená to, že faktor X-výrobce automobilu je neúčinný nebo-li, že průměrná spotřeba benzínu není statisticky významně ovlivněna výrobcem automobilu. Poměr determinace i korelace je tedy 0. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 20 ŘEŠENÁ ÚLOHA 1.2 Rozhodněte, zda velikost výnosů petržele (faktor Y) závisí na použitém druhu hnojiva (faktor X). Pokud závisí, pak pomocí determinačního poměru zjistěte těsnost této závislosti. Data jsou uvedena v následující tabulce, použijte hladinu významnosti 0,05. Hnojivo Výnosy (1kg/10 m2) A 40 42 45 40 44 47 B 76 75 82 68 C 60 58 62 64 70 Řešení: U tohoto příkladu si ukážeme řešení s pomocí Excelu. Nejprve však příklad vyřešíme klasickým postupem. K výpočtu hodnot součtů čtverců Sym a Sy, potřebujeme znát celkový průměr y a podmíněné průměry 321 yyy ,, . .2,58 15 58,62425,75643 ,8,62;25,75 ,43 6 474240 3 1 32 1 6 1 1 1            n yn y yy n y y i ii j j  Nyní již můžeme vypočítat součty Sym a Sy, podle vztahů (1.2), (1.3)        3 1 2222 22 22 222 .85,2654)2,588,62(5)2,5825,75(4)2,5843(6)( .4,2878)2,5870()2,5860( )2,5868()2,5876( )2,5847()2,5840()( i iiym ij ijy yynS yyS    Hodnota testového kritéria je 26,71 12 85,26544,2878 2 85,2654 1      kn S k S F yv ym . Kritická hodnota je F0,05(2, 12) = 3,89 a je mnohem menší než hodnota testového kritéria F. Proto nulovou hypotézu zamítáme a konstatujeme, faktor hnojiva významně ovlivňuje hodnoty výnosů petržele. Hodnotu determinačního poměru P2 zjistíme dosazením hodnot Sym a Sy do vztahu (1.9). .92,0 4,2878 85,26542 P Hodnoty determinačního poměru blízké 1 svědčí o vysoké závislosti faktoru Y na faktoru X. Hodnota 0,92 proto znamená, že závislost výnosů petržele na použitém druhu hnojiva je vysoká. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 21 Řešení pomocí Excelu: Nejprve je zapotřebí připravit v Excelu data. Jednotlivé hodnoty yij pro faktoru Y pro hodnotu xi faktoru X uspořádáme do řádků, podobně jako v tabulce v zadání. V prvním sloupci umístíme kvůli lepší orientaci název hodnoty faktoru (popisky) xi, v tomto případě název hnojiva: A, B, C. Data ve worksheetu Excelu vypadají tedy například takto: Data je možné uspořádat také do sloupců, přitom do prvního řádku umístíme názvy hodnot faktoru X (popisky). To je výhodné zejména u velkého množství dat, tj. pro velkou hodnotu počtu dat n. Dále otevřeme v hlavním menu postupně položky: Data  Analýza dat...  ANOVA: jeden faktor Pokud se tam položka Analýza dat nevyskytuje je ji zapotřebí doinstalovat (viz začátek této kapitoly). Zvolíte-li pak první položku ANOVA: jeden faktor, otevře se zadávací okno, kde postupně zadáte: Vstupní oblast: $A$1:$G$3 Sdružit: zakliknete tlačítko Řádky (je možné uspořádat data do sloupců, pak ovšem zakliknete tlačítko Sloupce Popisky v prvním sloupci – zakliknete Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit) Výstupní oblast: $A$5 (levý horní roh výstupní oblasti) Potvrdíte OK A B C D E F G H 1 A 40 42 45 40 44 47 2 B 76 75 82 68 3 C 60 58 62 64 70 4 Analýza rozptylu (ANOVA) – JEDEN FAKTOR 22 V první tabulce s názvem Faktor jsou uvedeny základní statistické údaje o datech: Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA, jednotlivé položky mají následující význam: Mezi výběry = meziskupinový Všechny výběry = vnitroskupinový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF – Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium = 71,25 Hodnota P = Signifikance (p-hodnota) = 0,000000219 < 0,05 =  F krit = kritická hodnota rozdělení F = 3,89 Hodnoty získané řešením v Excelu jsou stejné jako při použití „ručního“ výpočtu, proto i závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. signifikanci), která, pokud je menší než zvolená hladina významnosti , znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu nezamítáme (přijímáme). SHRNUTÍ KAPITOLY Formálně vzato je ANOVA, ať jednofaktorová nebo vícefaktorová, testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Cílem ANOVA je prokázat, že hodnoty kvalitativního znaku X ovlivňují hodnoty kvantitativního znaku Y- závislého faktoru. Princip metody ANOVA, kterou prokazujeme závislost Y na X, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. 1.6 Samostatné úkoly 1.1 Pan Novák může jet do zaměstnání čtyřmi různými trasami. Čtyřikrát projel jednotlivé trasy a zaznamenal si dobu, po kterou jel do zaměstnání. Na hladině významnosti  = 0,01 zjistěte, zda záleží na tom, kterou trasou pojede. Cesta 1 Cesta 2 Cesta 3 Cesta 4 22 27 26 28 26 29 33 30 25 26 25 32 30 28 30 26 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 23 1.2 Učitel fyziky zkoumal, jaký vliv má druh zkušebního testu na jeho úspěšnost. Vytvořil tři typy stejně obtížných testů a náhodně je rozdal mezi studenty ve třídě. Tabulka uvádí bodové zisky studentů v jednotlivých testech. Na hladině významnosti  = 0,05 zjistěte, zda má typ testu vliv na úspěšnost studentů. Typ testu T1 T2 T3 75 72 64 90 78 78 70 94 70 90 78 90 85 50 1.3 Ve vepříně zjišťovali, jestli váhové přírůstky vepřů závisí na použitém druhu krmiva, či nikoli. Na hladině významnosti  = 0,05 rozhodněte, zda jsou váhové přírůstky pro různá krmiva různé, eventuálně zjistěte, který druh krmiva dává nejmenší váhové přírůstky. Krmivo A B C 21,5 19,9 23,7 22,8 24,3 22,5 26,3 20,1 20,6 24,2 20,9 21,4 25,6 21,1 28,1 1.4 Výroba součástek může v podniku probíhat na jednom ze čtyř rozdílných strojů. I když každý stroj provádí stejné operace, má každý svá specifika. Na hladině významnosti  = 0,01 testujte hypotézu o tom, že počet vyrobených součástek není ovlivněn volbou stroje. Stroj A B C D 93 108 123 133 98 153 143 163 80 123 150 168 88 158 165 145 60 143 140 130 1.5 Školský úřad Karviná chtěl srovnat úroveň znalostí maturantů gymnázií okresu Karviná. Za tímto účelem byl vytvořen test zahrnující otázky ze všech oblastí učiva a zadán náhodně vybraným studentů jednotlivých škol. Bodové výsledky studentů jsou uvedeny v následující tabulce. Analýza rozptylu (ANOVA) – JEDEN FAKTOR 24 Gymnázium Karviná Gymnázium Český Těšín Gymnázium Bohumín Gymnázium Orlová Gymnázium Havířov 79 62 74 73 86 86 54 81 67 52 49 88 64 59 61 72 76 a. Na hladině významnosti  = 0,05 zjistěte, je-li průměrná úroveň maturantů jednotlivých škol stejná. b. Jak ovlivní výsledek průzkumu změna hladiny významnosti na 0,01? 1.7 Řešení úkolů, výsledky 1.1 F = 1,0 F krit = 5,95 p-hodnota = 0,43 – H0 přijímáme (doba nezávisí na trase). 1.2 F = 1,43 F krit = 3,98 p-hodnota = 0,28 – H0 přijímáme (typ testu nemá vliv na úspěch). 1.3 F = 4,7 F krit = 3,89 p-hodnota = 0,03 – H0 zamítáme (krmivo má vliv, nejvíce A). 1.4 F =15,02 F krit = 5,29 p-hodnota = 0,000 – H0 zamítáme (typ stroje má vliv). 1.5 a) F = 0,12 F krit = 3,26 p-hodnota = 0,97 – H0 přijímáme (škola nemá vliv). b) F = 0,12 F krit = 5,41 p-hodnota = 0,97 – H0 přijímáme (škola nemá vliv). Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 25 2 ANALÝZA ROZPTYLU (ANOVA) – DVA A VÍCE FAKTORŮ RYCHLÝ NÁHLED KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závislost znaků (faktorů) Y na X, pro něž jsou k dispozici příslušná data, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Cílem, k němuž směřujeme nyní, je situace, kdy budeme uvažovat, že se kromě třídění do skupin vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: pomocí Excelu vypočítat analýzu rozptylu se dvěma faktory, pomocí GRETLU vypočítat analýzu rozptylu se dvěma faktory, použít Kruskal-Wallisovu verzi analýzy rozptylu. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Analýza rozptylu se dvěma faktory, Kruskal-Wallisova ANOVA. 2.1 Analýza rozptylu se dvěma faktory ANOVA vychází z předpokladu normality rozdělení hodnot uvažovaných faktorů. Pokud U analýzy rozptylu s jedním faktorem jste uvažovali výsledky tříděné podle jistého Analýza rozptylu (ANOVA) – dva a více faktorů 26 kvalitativního znaku X do několika (konkrétně do k) skupin o rozsazích knnn ,...,, 21 . Proto v tomto případě hovoříme také o ANOVA při jednoduchém třídění, neboli třídění podle jednoho faktoru. V této kapitole budeme uvažovat situaci, kdy se kromě třídění do skupin, vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná situace vzniká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Tato tzv. klasická je takový předpoklad neudržitelný, lze použít jiného typu ANOVA, tedy neparametrického testu statistické hypotézy (tento pojem si připomeňte ze základního kurzu statistiky). Konkrétně se v této kapitole seznámíte s Kruskal-Wallisovou verzi ANOVA, která využívá Chi-kvadrát test statistické hypotézy. U analýzy rozptylu s jedním faktorem jsme uvažovali výsledky tříděné podle jistého kvalitativního znaku X do několika (konkrétně do k) skupin o rozsazích knnn ,...,, 21 . V tomto odstavci budeme uvažovat situaci, kdy se kromě třídění do skupin, vyskytuje další faktor, podle něhož výsledky (tj. hodnoty znaku Y) rovněž třídíme, říkáme, že je třídíme do bloků. Začneme výklad příkladem známým již z předchozí kapitoly. Příklad 1. Testovacími jízdami na zkušebním okruhu se zjišťuje průměrná spotřeba paliva automobilu Octavia při použití benzínu od různých výrobců (např. Aral, Shell, Benzina, Slovnaft). Všechny testy provede jeden řidič, když s každým druhem benzínu uskuteční několik testovacích jízd, a to tak, že pro každou značku benzínu uskuteční jiný počet jízd. Zjištěné výsledky testů, tj. změřené průměrné spotřeby na 100 km, podrobíme jednofaktorové analýze rozptylu, která nám umožní zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu. Příklad 2. Nyní budeme uvažovat podobnou situaci, kdy výsledky testů byly získány různými řidiči (např. A, B, C, D, E, F), a to tak, že každý řidič uskutečnil jednu testovací jízdu s každou značkou benzínu. Výsledky testů proto budeme členit nejen podle značky benzínu - do skupin (1. faktor), ale také podle testovacích řidičů - do bloků (2. faktor). Podle předpokladů je nyní počet výsledků ve všech skupinách stejný a je roven počtu řidičů (každý řidič jel s jednou značkou benzínu jedenkrát). Zjištěné výsledky podrobíme dvoufaktorové analýze rozptylu, která umožní jednak zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu, jednak zjistit, zda různí řidiči mají vliv na tuto spotřebu. Příklad 3. Nyní budeme uvažovat stejnou situaci jako v příkladu 2, přitom výsledky testů byly získány různými řidiči (např. A, B, C, D, E, F), a to tak, že každý řidič uskutečnil tři testovací jízdy s každou značkou benzínu. Zjištěné výsledky podrobíme dvoufaktorové analýze rozptylu s opakováním, která umožní jednak zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu, jednak zjistit, zda různí řidiči mají vliv na tuto spotřebu. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 27 Na konci této kapitoly budou všechny tři příklady podrobně analyzovány na konkrétních číselných datech. Nyní budeme postupovat ve výkladu s obecnými daty, nejprve pro případ popsaný v příkladu 2. Taková data, podobně jako u jednofaktorové analýzy rozptylu, uspořádáme do přehledné Tabulky 3. Tabulka 3: Schéma výchozí tabulky analýzy rozptylu pro dva faktory V Tabulce 3 značíme symbolem •iy průměr v i-té skupině, symbolem jy• označujeme průměr hodnot v j-tém bloku, symbolem y značíme celkový průměr. Celkový součet čtverců (celkovou variabilitu) označujeme stejně, jako v (1.2), tedy:  S y yy ij j r i k     2 11 . (2.1) Variabilitu mezi skupinami budeme měřit meziskupinovým součtem čtverců myS , , který definujeme následovně:  S r y yy m i i k ,     2 1 . (2.2) Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfm = k – 1. Variabilitu mezi bloky budeme měřit meziblokovým součtem čtverců byS , , který definujeme následovně:  S k y yy b j j r ,     2 1 . (2.3) Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfb = r –1. Hodnoty sledovaného znaku Číslo bloku Číslo skupiny 1 2 ... j ... r Průměr skupiny 1 y11 y12 ... y1j ... y1r 1y 2 y21 y22 ... y2j ... y2r y2         i yi1 yi2 ... yij ... yir yi         k yk1 yk2 ... ykj ... ykr yk Průměr bloku y1 y2 ... y j ... y r y Analýza rozptylu (ANOVA) – dva a více faktorů 28 Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme přitom označení vyS , , přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto  S y y y yy v ij i j j r i k ,        2 11 . (2.4) Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = (k – 1)(r – 1). Aritmetickými úpravami výše uvedených vzorců lze dokázat totiž, že celkový součet čtverců je roven sumě meziskupinového, vnitroskupinového a blokového součtu čtverců, symbolicky v,ym,yy SSS  + Sy b, . (2.5) Tento vztah se nazývá základní vztah dvoufaktorové analýzy rozptylu. 2.2 Předpoklady analýzy rozptylu se dvěma faktory Předpokládáme, že faktor X1 má k úrovní, faktor X2 má r úrovní s efektem na znak Y, který lze vyjádřit vztahem    ij i j   , i = 1,2,...,k, j = 1,2,...,r, (2.6) kde ij je průměr znaku Y v i-té skupině a j-tém bloku,  je celkový průměr znaku Y, i je efekt hodnoty faktoru X1 na znak Y, j je efekt hodnoty faktoru X2 na znak Y. V modelu (2.6) nejprve předpokládáme, že efekty obou faktorů na znak Y jsou aditivní a vzájemně nezávislé, tj. bez vzájemných interakcí. Tento předpoklad nám umožní oddělit od sebe hypotézy o efektech jednotlivých faktorů. Formulujeme nejprve nulovou hypotézu, že všechny skupiny pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X1 nemají na hodnoty znaku Y žádný efekt (vliv). Budeme tedy v nulové hypotéze předpokládat, že i pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem 2 . Formulujeme nulovou hypotézu H0 :      kEEE   ...21 = 0 , proti alternativní hypotéze, že H0 neplatí, že alespoň pro dvě hodnoty, např. i a j, platí: H1 :    ji EE   . Cílem, k němuž směřujeme, je přijmout nulovou hypotézu H0, eventuálně H0 zamítnout (na zvolené hladině významnosti). Pro ověření nulové hypotézy H0 použijeme statistiku: )1)(1( 1 , , 1   rk S k S F vy my , (2.7) Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 29 která má při platnosti nulové hypotézy Fisherovo rozdělení )))((( 111  rkkF , . Kritické hodnoty lze nalézt v tabulkách, nebo lze využít funkce z Excelu: FINV(;k – 1;(k – 1)(r – 1)). Dále formulujeme nulovou hypotézu, že všechny bloky pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X2 nemají na hodnoty znaku Y žádný efekt. Budeme tedy v nulové hypotéze předpokládat, že j pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem 2 . Formulujeme nulovou hypotézu H0´ : E E r( ) ... ( ) 1 0   , proti alternativní hypotéze, že H0´ neplatí, že alespoň pro dvě hodnoty, např.   i i , platí H1´ : E Ei i( ) ( )   . Pro ověření nulové hypotézy H0´ použijeme statistiku: )1)(1( 1 , , 2   rk S r S F vy by , (2.8) která má při platnosti nulové hypotézy Fisherovo rozdělení F r k r( ,( )( ))  1 1 1 . Zásadní rozdíl mezi dvoufaktorovou a jednofaktorovou analýzou rozptylu spočívá v tom, že u jednofaktorové ANOVA neuvažujeme působení dalšího faktoru, zatímco u dvoufaktorové ANOVA tak činíme. Tento rozdíl je vyjádřen ve výpočtu testového kritéria (2.7) a (2.8), kde se ve jmenovateli zlomku vyskytuje člen (k – 1)(r – 1). Kdybychom na stejnou situaci aplikovali pouze jednofaktorovou ANOVA, pak by ve výpočtu hodnoty testového kritéria podle vztahu (1.6) byl na stejném místě člen (n – k) nebo člen (n – r), podle toho, zda bychom brali v úvahu skupiny nebo bloky. Tento rozdíl může zapříčinit rozdílné výsledky získané jednofaktorovou nebo dvoufaktorovou ANOVA! ŘEŠENÁ ÚLOHA 2.1 Testovacími jízdami na zkušebním okruhu se zjišťuje průměrná spotřeba benzínu Natural 95 automobilu Octavia při použití benzínu od různých výrobců (Aral, Shell, Benzina, Slovnaft). Bylo vybráno 6 řidičů A, B, C, D, E, F, z nichž každý absolvoval s každým typem benzínu jednu zkušební jízdu. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na tom, který řidič s vozem jel. Řidiči Značka benzínu A B C D E F Aral 7,5 6,9 7,9 7,3 6,9 7,8 Shell 7,6 7,2 7,5 8,0 7,3 8,2 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 Slovnaft 7,0 7,3 7,2 7,5 8,2 7,7 Analýza rozptylu (ANOVA) – dva a více faktorů 30 Řešení: Máte za úkol prozkoumat závislost průměrné spotřeby (znak Y) na typu použitého benzínu (znak X1) a na řidiči (znak X2), který s vozem jel. Znak X1 má k = 4 skupiny, znak X2 má r = 6 bloků. Pro faktor X1 formulujeme nulovou hypotézu: H0: E(1)=E(2)=E(3)=E(4), (2.9) proti H1: neplatí (2.9), tj. průměrná spotřeba závisí na použitém druhu benzínu. Pro faktor X2 formulujeme nulovou hypotézu H0  : E(1)=E(2)=…=E(6), (2.10) proti alternativní hypotéze H1  : neplatí (2.10), tj. průměrná spotřeba benzínu závisí na řidiči, který s vozem jel. Pro ověření těchto hypotéz, tj. pro výpočet testových kritérií, musíme znát hodnotu součtů Sy,m, Sy,v a Sy. Nejdříve vypočítáme podmíněné průměry yi. , i = 1, 2, 3, 4, y j. , j = 1, 2, …, 6 a také celkový průměr y . 38,7 6 8,79,65,7 .1     y , další průměry y y y2 3 4. . ., , vypočítáme analogicky, viz Tabulka 4. 33,7 4 72,76,75,7 1.   y , další průměry 6.2. ,, yy  vypočítáme analogicky. Celkový průměr je 50,7 24 7,79,65,7     y . Hodnoty všech průměrů jsou uvedeny v tabulce. Nyní lze přistoupit k výpočtu jednotlivých součtů:      21,05,748,75,738,76)( 22 4 1 2 .,    i imy yyrS .        35,05,738,75,733,74 22 6 2 .,    j jby yykS . Potřebujeme znát i hodnotu součtu Sy,v, z praktického hlediska je však výhodnější vypočítat hodnotu součtu Sy. Součet Sy,v pak snadno dopočítáme, neboť Sy = Sy,m+Sy,v+Sy,b.               .79,35,77,75,72,85,76,7 5,78,75,79,65,75,7 222 222 4 1 6 1 2 ,       i j jiy yyS Potom vypočítáme Sy,v = Sy – Sy,m – Sy,b = 3,79 – 0,21 – 0,36 = 3,22. Pro ověření hypotézy H0 určíme testové kritérium F1 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 31    32,0 53 22,3 3 21,0 11 1 , , 1      rk S k S F vy my . V tabulce kritických hodnot F-rozdělení nebo pomocí Excelu najdeme F0,05(3,15) = FINV(0,05; 3,15) = 3,29. Protože 0,32 < 3,29, přijímáme H0, což znamená, že použitá značka benzínu nemá na průměrnou spotřebu vliv. Pro ověření hypotézy  0H určíme testové kritérium F2    33,0 53 22,3 5 36,0 11 1 , , 2      rk S r S F vy by . V tabulce kritických hodnot F-rozdělení nebo pomocí Excelu najdeme F0,05(5,15) = FINV(0,05; 5,15) = 2,9. Protože 0,33 < 2,9, přijímáme i hypotézu  0H , tzn., že ani volba řidiče nemá na průměrnou spotřebu statisticky významný vliv. Na rozdíl od jednofaktorové ANOVA jsme zde v obou situacích uvažovali současné působení dvou faktorů! Tabulka 4: Podmíněné průměry Řidiči Zn. benzínu A B C D E F Průměry Aral 7,5 6,9 7,9 7,3 6,9 7,8 7,38 Shell 7,6 7,2 7,5 8,0 7,3 8,2 7,63 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 7,57 Slovnaft 7,0 7,3 7,2 7,5 8,2 7,7 7,48 Průměry 7,33 7,38 7,6 7,6 7,55 7,65 7,50 Nakonec si ještě ukážeme řešení pomocí Excelu. Využijeme přitom funkci menu: Nástroje  Analýza dat...  ANOVA: dva faktory bez opakování Nejprve je zapotřebí připravit v Excelu data. Jednotlivé hodnoty yij pro faktoru Y pro hodnoty faktorů X1 = benzín a X2 = řidič uspořádáme do řádků a sloupců, podobně jako v tabulce v zadání. Data ve worksheetu Excelu vypadají tedy například takto: Dále otevřeme v hlavním menu postupně položky: Data  Analýza dat...  ANOVA :dva faktory bez opakování A B C D E F G I 1 benzin/řidič A B C D E F 2 Aral 7,5 6,9 7,9 7,3 6,9 7,8 3 Shell 7,6 7,2 7,5 8 7,3 8,2 4 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 5 Slovnaft 7 7,3 7,2 7,5 8,2 7,7 6 Analýza rozptylu (ANOVA) – dva a více faktorů 32 Po volbě třetí položky ANOVA: dva faktory bez opakování, se otevře zadávací okno: Vstupní oblast: $A$1:$G$5 Popisky – zakliknete Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit). Potvrdíte OK. V první tabulce jsou uvedeny základní statistické údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory bez opakování, jednotlivé položky mají následující význam: Řádky = meziskupinový Sloupce = vnitroskupinový Chyba = meziblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF – Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium Hodnota P = Signifikance (p-hodnota) F krit = kritická hodnota rozdělení F Hodnoty získané řešením v Excelu jsou stejné jako při použití „ručního“ výpočtu, proto i závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. signifikanci), která, pokud je menší než zvolená hladina významnosti , znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přijímáme. V předchozích úvahách jsme měli situaci právě jednoho výskytu všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvoval jedinou jízdu s každým typem benzínu. Dále budeme uvažovat situaci vícenásobného opakování Anova: dva faktory bez opakování Faktor Počet Součet Průměr Rozptyl Aral 6 44,3 7,383333 0,185667 Shell 6 45,8 7,633333 0,154667 Benzina 6 45,4 7,566667 0,194667 Slovnaft 6 44,9 7,483333 0,181667 A 4 29,3 7,325 0,075833 B 4 29,5 7,375 0,2625 C 4 30,4 7,6 0,1 D 4 30,4 7,6 0,086667 E 4 30,2 7,55 0,323333 F 4 30,6 7,65 0,296667 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Řádky 0,21 3 0,07 0,325581 0,806868 3,287383 Sloupce 0,358333 5 0,071667 0,333333 0,884913 2,901295 Chyba 3,225 15 0,215 Celkem 3,793333 23 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 33 všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvuje několik jízd (například 3 jízdy – viz následující příklad 2.2) s každým typem benzínu, přitom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto výsledky odlišují výrazně či nikoliv, se opět zjišťuje statistickým testem. Podrobnou analýzu situace, která je analogická analýze případu bez opakování, již zde uvádět nebudeme. Omezíme se pouze na řešení příkladu s využitím Excelu, konkrétně položky ANOVA: dva faktory s opakováním. ŘEŠENÁ ÚLOHA 2.2 Podobně jako v příkladu 2.1 se zjišťuje průměrná spotřeba benzínu Natural 95 automobilu Octavia při použití benzínu od různých výrobců (Aral, Shell, Benzina, Slovnaft). Bylo vybráno 6 řidičů A, B, C, D, E, F, z nichž každý absolvoval s každým typem benzínu tři zkušební jízdy. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na řidiči. Údaje jsou uvedeny v následující Tabulce 5. Tabulka 5: Analýza rozptylu se dvěma faktory s opakováním Řešení: Data ve worksheetu Excelu vypadají přesně tak jako v Tabulce 5, jsou umístěny např. v poli A1 až E19. Dále otevřeme v hlavním menu postupně položky: Data  Analýza dat...  ANOVA: dva faktory s opakováním Po volbě druhé položky ANOVA: dva faktory s opakováním, se otevře zadávací okno, kde postupně zadáte: Vstupní oblast: $A$1:$E$19 Řádků na výběr: 3 (tj. počet opakování) Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit) benzin/řidičAral Shell Benzina Slovnaft A 7,5 7,6 7,2 7 7,7 7,4 7,6 7,4 8 7,3 8,1 7,7 B 6,9 7,2 8,1 7,3 6,7 7,4 8,5 7,6 6,6 7,6 8,8 7,8 C 7,9 7,5 7,8 7,2 8 7,8 7,7 7,1 8,3 8,1 7,6 7 D 7,3 8 7,6 7,5 7,2 8 7,8 7,7 7,1 7,9 8 7,8 E 6,9 7,3 7,8 8,2 6,8 7,2 8 8,1 6,7 7 8,1 8 F 7,8 8,2 6,9 7,7 7,7 8,4 7,5 7,7 7,5 8,5 7,9 7,7 Analýza rozptylu (ANOVA) – dva a více faktorů 34 Výstupní oblast: např. $L$1 (levý horní roh výstupní oblasti) Potvrdíte OK. Obdržíte následující výstup, kterého “levý horní roh” začíná v buňce L1 nadpisem ANOVA: dva faktory s opakováním. V první tabulce jsou uvedeny základní statistické údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory s opakováním. Anova: dva faktory s opakováním Faktor Aral Shell Benzina Slovnaft Celkem A Počet 3 3 3 3 12 Součet 23,2 22,3 22,9 22,1 90,5 Průměr 7,73 7,43 7,63 7,37 7,54 Rozptyl 0,06 0,02 0,20 0,12 0,10 B Počet 3 3 3 3 12 Součet 20,2 22,2 25,4 22,7 90,5 Průměr 6,73 7,40 8,47 7,57 7,54 Rozptyl 0,02 0,04 0,12 0,06 0,46 C Počet 3 3 3 3 12 Součet 24,2 23,4 23,1 21,3 92 Průměr 8,07 7,80 7,70 7,10 7,67 Rozptyl 0,04 0,09 0,01 0,01 0,16 D Počet 3 3 3 3 12 Součet 21,6 23,9 23,4 23 91,9 Průměr 7,200 7,967 7,800 7,667 7,658 Rozptyl 0,010 0,003 0,040 0,023 0,103 E Počet 3 3 3 3 12 Součet 20,4 21,5 23,9 24,3 90,1 Průměr 6,80 7,17 7,97 8,10 7,51 Rozptyl 0,01 0,02 0,02 0,01 0,33 F Počet 3 3 3 3 12 Součet 23 25,1 22,3 23,1 93,5 Průměr 7,67 8,37 7,43 7,70 7,79 Rozptyl 0,02 0,02 0,25 0,00 0,19 Celkem Počet 18 18 18 18 Součet 132,6 138,4 141 136,5 Průměr 7,37 7,69 7,83 7,58 Rozptyl 0,28 0,20 0,19 0,13 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Výběr 0,69 5 0,14 2,64 0,03 2,41 Sloupce 2,08 3 0,69 13,23 0,00 2,80 Interakce 10,23 15 0,68 12,99 0,00 1,88 Dohromady 2,52 48 0,05 Celkem 15,53 71 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 35 Jednotlivé položky mají následující význam: Výběr = meziskupinový Sloupce = vnitroskupinový Interakce = meziblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF – Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium Hodnota P = Signifikance (p-hodnota) F krit = kritická hodnota rozdělení F Hodnoty získané řešením v Excelu jsou analogické jako v příkladu 2.1, tedy v případě ANOVA bez opakování. Navíc je tu p-hodnota uvedená v řádku Interakce, která se týká testu vzájemné závislosti faktorů. Nulová hypotéza předpokládá, že faktoru jsou vzájemně nezávislé. Pokud je tato hodnota menší než zvolená hladina významnosti , znamená to, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přijímáme. V této kapitole jsme uvažovali situaci, kdy se kromě třídění do skupin vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná situace vzniká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Nejprve jsme měli situaci právě jednoho výskytu všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvoval jedinou jízdu s každým typem benzínu. Poté jsme uvažovali situaci vícenásobného opakování všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvuje několik jízd s každým typem benzínu, přitom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto výsledky odlišují výrazně či nikoliv, se opět zjistilo statistickým testem. K řešení příkladů jsme použili Excel, konkrétně položku Analýza dat. V další řešené úloze si ukážeme řešení dvoufaktorové analýzy rozptylu v programu GRETL. ŘEŠENÁ ÚLOHA 2.3 Ve třech městech okresu Karviná jsme v jednotlivých dnech sledovali průměrnou spotřebu pitné vody (v m3 ) na jednoho obyvatele. Zjistěte, zda je průměrná spotřeba vody závislá na dni v týdnu, a je-li spotřeba v různých městech různá. Uvažujte hladinu významnosti 0,05. Zjištěné údaje jsou uvedeny v Tabulce 6. Analýza rozptylu (ANOVA) – dva a více faktorů 36 Tabulka 6: Spotřeba pitné vody (m3) Řešení: Formulace první dvojice hypotéz: H0: spotřeba pitné vody nezávisí na dnu v týdnu, H1: spotřeba pitné vody závisí na dnu v týdnu. Formulace druhé dvojice hypotéz: H0: spotřeba pitné vody nezávisí na městě, H1: spotřeba pitné vody závisí na městě. Obrázek 7 zachycuje zadávání hodnot do programu GRETL. V prvním sloupci je kvantitativní proměnná spotřeba vody, druhý sloupec zobrazuje město (1,2,3) a třetí sloupec je proměnná den (1,2,3,4,5,6,7). Kvalitativní proměnné musí být přirozená čísla. Obrázek 7: Zadávání hodnot do programu GRETL Karviná Petřvald Bohumín Po 0,6 0,7 0,5 Út 0,7 0,6 0,6 St 0,9 0,8 0,7 Čt 0,6 0,6 0,5 Pá 1 1,3 0,8 So 1,2 1,6 1,3 Ne 1 1,2 1,3 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 37 Testování první dvojice hypotéz. Obrázek 8: Testování první dvojice hypotéz Obrázek 9: Výsledek testování první dvojice hypotéz Výsledek: p-hodnota = 4,42.10-5 a tato hodnota je menší než hladina významnosti 0,05, proto nulovou hypotézu o nezávislosti spotřeby pitné vody na dnu v týdnu zamítáme. Můžeme tedy tvrdit, že spotřeba pitné vody z 95 % závisí na dnu v týdnu. Testování druhé dvojice hypotéz. Obrázek 10: Testování druhé dvojice hypotéz Analýza rozptylu (ANOVA) – dva a více faktorů 38 Obrázek 11: Výsledek testování druhé dvojice hypotéz Výsledek: p-hodnota = 0,123 a tato hodnota není menší než hladina významnosti 0,05, proto nulovou hypotézu o nezávislosti spotřeby pitné vody na městě nelze zamítnout. Z 95 % nebylo prokázáno, že by spotřeba pitné vody závisela na městě. 2.3 Kruskal – Wallisova analýza rozptylu Analýza rozptylu předpokládá ve své parametrické podobě normalitu rozdělení a homoskedasticitu (identické rozptyly). Pokud tyto podmínky nejsou splněny, je třeba použít neparametrický Kruskal-Wallisův test, který je obdobou jednofaktorového třídění v analýze rozptylu. Na rozdíl od parametrického testu nepředpokládá normalitu rozdělení, jeho nevýhodou je pak menší citlivost. Kruskal-Wallisův test je vícevýběrovým testem mediánů. Nechť tyto náhodné výběry pochází ze spojitých rozdělení stejného typu a stejných rozptylů (homoskedasticita): (X11 , X12, …, X1n1); (X21 , X22, …, X2n2); …; (Xk1 , Xk2, …, Xknk); kde ni je rozsah jednotlivých výběrů. Testujeme nulovou hypotézu: H0: kxxx ~=...=~=~ 21 , proti alternativní hypotéze: H1: neplatí H0. Všechny veličiny Xij tvoří dohromady sdružený náhodný výběr o rozsahu ∑ 1= = k i inN . Z tohoto výběru vytvoříme uspořádaný výběr (rostoucí posloupnost) a určí se pořadí Rij každé veličiny Xij. Tato pořadí uspořádáme do tabulky a určíme tzv. součty pořadí pro jednotlivé výběry Ti, kde ∑ 1= = nj j iji RT . Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 39 Testová statistika je: )1+.(3. )1+.( 12 = ∑ 1= 2 N n T NN Q k i i i . Hodnotu Q porovnáváme s kritickou hodnotou ( )12 kχα . ŘEŠENÁ ÚLOHA 2.4 V následující tabulce jsou uvedeny ceny bytů v závislosti na počtu pokojů. Pomocí Kruskal-Wallisovy analýzy rozptylu zjistěte, zda je cena bytu závislá na počtu pokojů v bytě. Uvažujte hladinu významnosti 0,05. Počet pokojů Cena bytu v tis.Kč 1 200 210 220 2 320 310 330 340 3 500 520 540 510 4 600 620 610 Řešení: V další tabulce se zapíše pořadí Rij každé veličiny Xij a dále určíme tzv. součty pořadí pro jednotlivé výběry Ti. Tabulka pro výpočet testového kritéria Ti Ti 2 Ti 2 / ni 6 36 12 22 484 121 38 1444 361 39 1521 507 SUMA 1001 Dosadíme do testové statistiky 2,12=)1+14.(31001. )1+14.(14 12 =Q . Kritická hodnota ( ) 81,7=)3;05,0(=32 05,0 CHIINVχ . Protože hodnota testové statistiky Q = 12,2 leží v kritickém oboru, tak nulovou hypotézu o nezávislosti znaků zamítáme. Můžeme tedy z 95 % tvrdit, že cena bytu závisí na počtu pokojů v bytě. Počet pokojů Rij Ti ni 1 1 6 3 6 3 2 5 22 6 7 22 4 3 8 38 11 9 38 4 4 12 39 13 39 3 Analýza rozptylu (ANOVA) – dva a více faktorů 40 SHRNUTÍ KAPITOLY V této kapitole jsme uvažovali situaci, kdy se kromě třídění do skupin, vyskytovaly další faktory, říkáme jim bloky. Když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. V této kapitole jste se také seznámili s Kruskal-Wallisovou verzi ANOVA, která využívá Chi-kvadrát test statistické hypotézy. 2.4 Samostatné úkoly Řešte v Excelu. 2.1 Ve čtyřech městech okresu Karviná jsme v jednotlivých dnech sledovali průměrnou spotřebu pitné vody (v m3 ) na jednoho obyvatele. Zjistěte, zda je průměrná spotřeba vody závislá na dni v týdnu, a je-li spotřeba v různých městech různá. Uvažujte hladinu významnosti 0,01. Zjištěné údaje jsou uvedeny v tabulce. Karviná Orlová Bohumín Český Těšín Po 0,64 0,75 0,54 0,76 Út 0,78 0,63 0,61 0,83 St 0,93 0,82 0,7 0,91 Čt 0,66 0,62 0,56 0,62 Pá 0,99 1,3 0,79 0,99 So 1,22 1,65 1,3 0,98 Ne 1,05 1,3 1,24 1,1 2.2 Výroba součástek může v podniku probíhat na jednom ze čtyř rozdílných strojů. I když každý stroj provádí stejné operace, má svá specifika. U každého stroje pracuje jeden dělník. Na hladině významnosti  = 0,01 testujte hypotézu o tom, že počet vyrobených součástek není ovlivněn volbou stroje ani dělníkem, který na něm pracuje. Stroj Dělník A B C D 1 93 108 123 133 2 98 153 143 163 3 80 123 150 168 4 88 158 165 145 5 60 143 140 130 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 41 2.5 Řešení úkolů, výsledky 2.1 DNY: F = 12,95 F krit = 4,01 p-hodnota = 0,000 – H0 zamítáme (průměrná spotřeba pitné vody závisí na dnu v týdnu) MĚSTO: F = 2,07 F krit = 5,1 p-hodnota = 0,14 – H0 přijímáme (nebyla prokázána závislost průměrné spotřeby pitné vody na městě). 2.2 DĚLNÍK: F = 2,45 F krit = 5,41 p-hodnota = 0,1 – H0 přijímáme (nebyla prokázána závislost počtu součástek na dělníkovi, který na stroji pracuje). STROJ: F = 20,47 F krit = 5,95 p-hodnota = 0,000 – H0 zamítáme (počet vyrobených součástek závisí na stroji). Resgresní analýza – jednorozměrná lineární regrese 42 3 RESGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ LINEÁRNÍ RE- GRESE RYCHLÝ NÁHLED KAPITOLY Analýzu rozptylu z první kapitoly je možné chápat jako analýzu závislosti kvantitativního znaku (proměnné) na kvalitativním znaku - faktoru (proměnné). Naproti tomu závislostí kvantitativního znaku na kvantitativním znaku (nebo více kvantitativních znacích) se zabývá regresní analýza. V případě závislosti dvou znaků mluvíme o jednorozměrné regresi (případně jednoduché regresi), u znaku závislém na více kvantitativních veličinách hovoříme o vícerozměrné regresi (vícenásobné regresi). V této kapitole budeme vyšetřovat nejprve nejjednodušší lineární závislost dvou znaků, v další kapitole se budeme zabývat i nelineárními závislostmi dvou znaků důležitých z hlediska ekonomických aplikací. CÍLE KAPITOLY Po prostudování této kapitoly budete umět:  vypočítat regresní koeficienty,  vysvětlit metodu nejmenších čtverců,  vypočítat koeficient determinace a koeficient korelace,  vyjmenovat podmínky klasického lineárního regresního modelu. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Regresní přímka, metoda nejmenších čtverců, koeficient determinace, koeficient kore- lace. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 43 3.1 Regresní analýza V regresní analýze studujeme vztah mezi jedinou proměnnou (hodnotami statistického znaku) nazývanou závisle proměnnou (někdy vysvětlovanou proměnnou), označujeme ji Y, a obecně několika proměnnými (hodnotami statistických znaků), které nazýváme nezávisle proměnné (někdy vysvětlující proměnné), a označujeme je symboly X1, X2,.... Pokud se zabýváme jedinou nezávisle proměnnou X, hovoříme o jednoduché regresi, pokud je nezávisle proměnných více než jedna, mluvíme o vícrozněrnéné (vícenásobné) regresi (někdy též mnohonásobné regresi). V této a následující kapitole se věnujeme jednoduché regresi. Závisí-li veličina Y na veličině X, pak to matematicky vyjadřujeme zápisem Y = f(X). (3.1) V našem případě jsou Y a X statistické znaky (náhodné veličiny), pak hovoříme o statistické závislosti, funkční vztah (3.1) přejde v regresní vztah (regresní model) y = f(x) +  , (3.2) kde y, resp. x, představují hodnoty znaku Y, resp. X,  je náhodná složka, funkci f nazýváme regresní funkce. Jestliže je regresní funkce f lineární, což značí, že má tvar regresní přímky xxf 10)(   , (3.3) potom hovoříme o jednoduché lineární regresi, nemá-li regresní funkce lineární tvar, hovoříme o jednoduché nelineární regresi. Ve vzorci (3.3) jsou 10  , parametry regresní funkce neboli regresní koeficienty. Mezi nejpoužívanější nelineární regresní funkce patří: regresní parabola: 2 10)( xxf   , (3.4) regresní hyperbola: x xf 1 )( 10   , (3.5) regresní logaritmická funkce: xxf log)( 10   . (3.6) regresní mocninná funkce: 1 0)(   xxf  , (3.7) regresní exponenciální funkce: x xf 10)(  . (3.8) Výše uvedené nelineární regresní funkce lze převést na lineární vhodnou transformaci, jak uvidíme v následující kapitole. Kromě výše uvedených příkladů nelineárních regresních funkcí existuje celá řada dalších významných nelineárních funkcí, např. Törnquistovy funkce, které nelze na lineární funkci jednoduše převést. Budeme se jimi zabývat v následující kapitole. Resgresní analýza – jednorozměrná lineární regrese 44 3.2 Jednoduchá regresní analýza Představte si výběr párových hodnot (y1, x1), (y2, x2), (y3, x3),..., (yn, xn), získaných (např. změřených) na statistických jednotkách základního souboru. Zde jsou yi hodnotami závisle proměnné Y a xi jsou hodnotami nezávisle proměnné X. Zmíněné párové hodnoty můžeme získat zejména dvojím způsobem: (A) Hodnoty nezávisle proměnné xi jsme předem pevně zvolili a k nim jsme „změřili“ příslušné hodnoty yi. V této situaci jsou hodnoty znaku X pevné (nenáhodné), zatímco hodnoty znaku Y považujeme za náhodné veličiny. (B) Párové hodnoty (yi, xi) „změříme“ na n náhodně zvolených jednotkách základního souboru. V této situaci jak hodnoty znaku X, tak hodnoty znaku Y považujeme za náhodné veličiny. Výše uvedený datový soubor párových hodnot můžeme geometricky znázornit v rovině bodovým grafem, kde na vodorovnou osu „x“ nanášíme hodnoty nezávisle proměnné a na svislou osu „y“ příslušné hodnoty závisle proměnné. Výsledkem je geometrické znázornění n bodů v rovině, z jejichž vzájemné polohy můžeme soudit na regresní závislost znaku Y na X. Úkolem jednoduché lineární regrese je „proložit“ danými body přímku (tj. nalézt lineární regresní funkci), která nejlépe charakterizuje polohu daných n bodů. Z předchozího odstavce víme, že tato regresní funkce má tvar xxf 10)(   , kde 10, jsou zatím neznámé hodnoty parametrů regresní přímky. Regresní model (3.2) má nyní tvar yi = ix10   + i , i = 1, 2,..., n. (3.9) Odhady 10 b,b těchto neznámých parametrů – regresní koeficienty získáme metodou nejmenších čtverců. Této metodě, která patří mezi nejdůležitější metody používané ve statistice, bude věnován následující odstavec. 3.3 Metoda nejmenších čtverců Uvažujte data ve formě párových hodnot – bodů: (y1, x1), (y2, x2), (y3, x3),..., (yn, xn). Úkolem jednoduché regrese je najít regresní funkci, která „nejlépe charakterizuje polohu“ daných n bodů. Nejprve budeme uvažovat obecný tvar regresní funkce ),;( 10 xf se dvěma parametry 10, (nemusí to být nutně regresní přímka). Speciálními případy této regresní funkce je lineární funkce (3.3) a také nelineární funkce (3.4) – (3.8). Postup metody nejmenších čtverců bude vždy stejný, tj. nezávislý na konkrétním tvaru regresní funkce. Odhady 10,bb neznámých parametrů 10, získáme tak, že nalezneme hodnoty 10,bb , pro něž nabývá své minimální hodnoty reziduální součet čtverců odchylek hodnot závisle proměnné yi od teoretické hodnoty ),;( 10 bbxfY ii  , tj. SR =       n i ii n i ii bbxfyYy 1 2 10 1 2 ),,( . (3.10) Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 45 Jak je známo z matematické analýzy, své minimum funkce SR (zde je to funkce proměnných 10 b,b ) vždy nabývá pro ty hodnoty 10 b,b , pro něž se anulují její parciální derivace: 0 0    b SR , 0 1    b SR . (3.11) Vztahy (3.11) představují soustavu 2 rovnic o 2 neznámých 10,bb , která se nazývá soustava normálních rovnic. Jejím řešením získáme hledané odhady regresních parametrů zvolené regresní funkce. Vyřešíme nyní soustavu (3.11) pro speciální případ, který nás zejména zajímá, totiž pro lineární regresní funkci xxf 1010 ),;(   . Dosadíme-li tuto funkci do vztahu (3.10), vypočteme příslušné parciální derivace, které položíme rovny 0, získáme konkrétní soustavu normálních rovnic    n i i n i i xbnby 1 10 1 , (3.12)    n i i n i i n i ii xbxbyx 1 2 1 1 0 1 . Z těchto rovnic již snadno (v konkrétním případě pro dané hodnoty yi , xi známou „dosazovací metodou“) vypočteme hledané odhady 10,bb takto: , . (3.13) Z analytické geometrie si připomeňte, že regresní koeficient b0 představuje průsečík regresní přímky s osou „y“, tedy hodnotu Y0 pro x = 0, tento regresní koeficient se někdy nazývá úrovňová konstanta. Regresní koeficient b1 vyjadřuje směrnici přímky, tedy sklon přímky k ose „x“, tj. změnu funkční hodnoty Y při změně nezávisle proměnné x o jednotku. Pro jiné než lineární tvary regresní funkce je postup metody nejmenších čtverců obdobný. Výsledkem je rovněž soustava 2 normálních rovnic, tyto rovnice však již nemusí být lineární a proto soustavu již obvykle nelze snadno vyřešit. K řešení pak používáme iterační numerické metody, které zde nejsou předmětem našeho zájmu. V řešených úlohách jsou uvedeny způsoby nalezení odhadů regresních koeficientů metodou linearizace exponenciální a mocninné regresní funkce pomocí logaritmické transformace. Na tomto místě bychom chtěli zvýraznit jeden důležitý fakt, který budeme v následujícím výkladu neustále využívat. Data pro regresní analýzu jsou výsledkem náhodného výběru, ať již jsme použili při jejich získání postup (A), nebo (B). Proto také výsledek jednoduché lineární regresní analýzy – odhady neznámých parametrů 10  , , tj. regresní koeficienty 10 b,b , budou náhodné veličiny. Při každém dalším náhodném výběru dat bude výsledek, tj. odhad 10 b,b , obecně jiný! Má proto význam hovořit dále o statistických charakteristikách těchto odhadnutých parametrů, jako např. střední hodnota, rozptyl, apod. 2 1 2 1 1 xnx yxnyx b n i i n i ii        xbyb 10  Resgresní analýza – jednorozměrná lineární regrese 46 3.4 Míra variability, koeficient determinace Metoda nejmenších čtverců nás nyní přivedla k postupu, který jsme již použili v předchozí kapitole při analýze rozptylu. V ANOVA se jednalo o rozklad celkové variability znaku Y, vyjádřené jako celkový součet čtverců, na meziskupinový a vnitroskupinový (reziduální) součet čtverců. V analýze rozptylu jsme pracovali se znakem X, který měl kvalitativní povahu, a proto nebylo možné vyjádřit závislost regresním modelem. V regresní analýze má znak X – nezávisle proměnná – kvantitativní povahu, a proto je regresní model závislosti Y na X možný. Použijeme analogii s ANOVA v tom, že znak X zde bude nabývat hodnot x1, x2,...,xn a i-tá skupina bude nyní charakterizována teoretickou hodnotou ),;( 10 bbxfY ii  , namísto skupinového průměru iy v ANOVA. Potom celkovou variabilitu vysvětlované proměnné charakterizuje celkový součet čtverců:    n i iy yyS 1 2 . (3.14) Část celkové variability vysvětlenou regresním modelem charakterizuje teoretický součet čtverců:    n i iT yYS 1 2 , (3.15) nevysvětlenou část celkové variability představuje reziduální součet čtverců (3.10): SR =    n i ii Yy 1 2 , (3.16) kde ei = yi – Yi nazýváme reziduum. Lze dokázat, že mezi jednotlivými součty čtverců platí základní vztah: Sy = ST + SR . (3.17) Obdobně jako v analýze rozptylu jsme zavedli k vyjádření těsnosti vztahu Y a X poměr determinace, nyní zavedeme analogický pojem charakterizující přiléhavost dat k regresnímu modelu. Tímto pojmem je koeficient determinace, který definujeme vztahem y R S S R 12 . (3.18) Ze vztahu (3.17) vyplývá, že koeficient determinace nabývá hodnoty z intervalu [0,1] a určuje tu část celkové variability pozorovaných hodnot Sy, kterou lze vysvětlit daným regresním modelem. Jinak řečeno, po vynásobení koeficientu determinace hodnotou 100 obdržíme, kolik procent celkové variability je vysvětlitelných regresním modelem. Koeficient determinace je proto důležitou charakteristikou vhodnosti zvoleného regresního mo- delu. Vztah (3.18) vzniká podílem náhodných veličin, a proto jakožto náhodná veličina je odhadem koeficientu determinace R2 . Pro malé rozsahy výběru n je odhad (3.18) vychýlený, viz Ramík (2003), tj. nadhodnocuje přiléhavost k regresnímu modelu. Proto se používá nevychýlený odhad koeficientu determinace 2 adjR (z angl. adjusted), který nazýváme korigovaný (upravený) koeficient determinace: Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 47   2 1 11 22    n n RRadj . (3.19) Pro velké hodnoty n je však zlomek ve vzorci (3.19) blízký k jedné a korigovaný koeficient se blíží k „nekorigovanému“. 3.5 Klasický lineární model Klasickým jednoduchým lineárním regresním modelem se nazývá regresní model (3.9): yi = ixββ 10 + + i , i = 1,2,...,n, splňující následující podmínky: (1) Hodnoty vysvětlující proměnné xi se volí předem, viz (A) odstavec 3.2, nejsou to tedy náhodné veličiny. (2) Náhodné složky i v modelu (3.9) mají normální rozdělení pravděpodobnosti se střední hodnotou 0 a (neznámým) rozptylem 2 . Konstantnost rozptylu nazýváme homoskedasticita. (3) Náhodné složky nejsou korelované, tj.Cov(i , j) = 0 pro každé i  j , i,j = 1,2,...,n. Podmínky (1) až (3) požadujeme tehdy, chceme-li zajistit splnění některých dalších vlastností: např. zjistit intervaly spolehlivosti koeficientů regresní funkce, interval spolehlivosti hodnoty regresní funkce, eventuálně chceme-li provádět testy hypotéz o některých prvcích regresního modelu. Těmito tématy se budeme zabývat v následujících odstavcích. Pokud totiž tyto podmínky splněny nejsou, nelze zajistit „spolehlivé předpovědi“. V praxi jsou podmínky klasického modelu často splněny, nejsme-li si však jejich platností jisti, můžeme provést testy hypotéz jak o normalitě rozdělení náhodné složky (např. test dobré shody, viz např. Ramík (2003)), tak i testy o nekorelovanosti náhodných složek (např. t-test). Další testy uvedeme později v souvislosti s časovými řadami. Na Obrázku 12 je znázorněna situace, kdy podmínky klasického lineárního modelu jsou splněny, na Obrázku 13 je zachycena situace, kdy není splněna ani podmínka normality náhodných složek (na obrázku jsou všechny i prakticky stejné), ani podmínka nekorelovanosti (hodnoty yi se nacházejí vedle sebe po jedné straně grafu regresní funkce). Resgresní analýza – jednorozměrná lineární regrese 48 Obrázek 12: Podmínky klasického modelu jsou splněny Obrázek 13: Podmínky klasického modelu nejsou splněny ŘEŠENÁ ÚLOHA 3.1 Společnost na výrobu bytového textilu zkoumala, jak souvisí zisk z prodeje s výdaji na reklamu. Tabulka 7 uvádí údaje obdržené v deseti náhodně vybraných firmách. a. Načrtněte bodový graf a určete typ regresní funkce popisující danou závislost. b. Stanovte koeficienty regresní funkce z a. c. Vypočítejte koeficient determinace a zhodnoťte těsnost závislosti vyjádřenou regresním modelem z bodu b. Tabulka 7: Zisk z prodeje a výdaje na reklamu Pozorování Výdaje na reklamu (tis. Kč) Zisk z prodeje (10 tis. Kč) 1 6 5 2 8 8 3 9 9 4 9 12 5 12 21 6 15 25 7 16 32 8 20 36 9 22 51 10 23 59 10 15 0 5 10 15 20 yt t Data a regresní křivka 0 5 10 15 20 25 0 5 10 15 20 yt t Data a regresní křivka Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 49 Řešení („ruční“ výpočet): a. Z grafu vidíte, že jde o přímou závislost, kterou je možné popsat regresní přímkou Y = 0 + 1x. b. Máte za úkol stanovit hodnoty koeficientů b0, b1, neboli na základě dat odhadnout hodnoty parametrů 1, 2. Využijeme výsledků metody nejmenších čtverců, nebudete však dosazovat přímo do soustavy rovnic (3.12), ale použijete vztahy pro b0, b1, tj. (3.13), které je možné z dané soustavy vyjádřit, a to v numericky výhodném a snadno zapamatovatelném tvaru: 97,2 34 9,100 14230 8,25141,462 2221        xx yxxy b 75,151497,28,2510  xbyb . Výpočty potřebných hodnot pomocí kalkulačky jsou uvedeny v Tabulce 8. Tabulka 8: Výpočty i xi yi xi 2 xiyi Yi 2 )( yYi  ( )y yi  2 1 6 5 36 0 2,04 565,21 432,64 2 8 8 64 64 7,98 318,22 316,84 3 9 9 81 81 10,95 221,15 282,24 4 9 12 81 108 10,95 221,15 190,44 5 12 21 144 252 19,86 35,62 23,04 6 15 25 225 375 28,77 8,61 0,64 7 16 32 256 512 31,74 34,84 38,44 8 20 36 400 720 43,62 315,88 104,04 9 22 51 484 1122 49,56 562,08 635,04 10 23 59 529 1357 52,53 711,60 1102,24 Součet 140 258 2300 4621 258 2994,3 3125,6 Průměr 14 25,8 230 462,1 Obrázek 14: Graf regresní přímky Lineární regrese y = 2,9676x - 15,747 R2 = 0,958 0 10 20 30 40 50 60 70 0 5 10 15 20 25 Zisk z prodeje (10 tis. Kč) Lineární (Zisk z prodeje (10 tis. Kč)) Resgresní analýza – jednorozměrná lineární regrese 50 Hledaná regresní přímka má tvar: xY 9727515 ,,  . c. K tomu, abychom vypočítali determinační koeficient, musíme znát hodnotu součtu ST a součtu Sy. Tyto součty vypočítáme podle vztahů (3.14), (3.15). Pro výpočet teoretického součtu musíme pro každé xi, i = 1,…,10, znát teoretickou hodnotu Yi. 042697278159727515 11 ,,,,,  xY . Tato hodnota udává, jaký by měl být zisk při výdajích x = 6. Protože však jde o stochastickou závislost mezi společenskými veličinami, může se tato hodnota lišit od skutečně zjištěné hodnoty y = 5. Všechny teoretické hodnoty Yi i hodnoty součtů Sy a ST jsou uvedeny v Tabulce 8. Koeficient determinace vypočítáme dosazením součtů Sy, ST do vztahu (3.18). .958,0 6,3125 3,29942  y T S S R Tato hodnota znamená, že pomocí regresní přímky xY 9727815 ,,  je vysvětleno 95,8% chování proměnné Y. Řešení (výpočet v Excelu): V Excelu využijeme graf funkce s funkcí Přidat spojnici trendu. Po volbě položky Vložit graf  XY bodový..., se otevře zadávací okno, kde zadáte: Oblast dat: $A$1:$B$11 Sloupce:  (zakliknout) Potvrdíte OK Obdržíte bodový graf, viz Obrázek 14 (ještě bez regresní přímky). Poklepem pravým tlačítkem myši na některý z bodů grafu obdržíte nabídku menu, kde zvolíte: Přidat spojnici trendu Typ trendu regrese: zvolíte Lineární Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Potvrdíte OK. Obdržíte výsledek téměř takový, jaký je na Obrázku 14. K původním bodům se zobrazí regresní přímka, dále rovnice regresní přímky a hodnotu koeficientu determinace R2 . ŘEŠENÁ ÚLOHA 3.2 Společnost Air - Ostrava, zajišťující lety na trase Ostrava - Praha, sleduje při plánování letů také na hmotnost užitečného zatížení letadla, jehož významnou část tvoří pasažéři a jejich zavazadla. Zjistilo se, že hmotnost zavazadel cestujících souvisí s dobou, na kterou odcestovali. Výsledky průzkumu zachycuje Tabulka 9. a. Najděte rovnici regresní přímky popisující danou závislost. b. S jakou hmotností zavazadel lze počítat, bude-li na palubě 15 cestujících vracejících se za 2 dny, 7 cestujících vracejících se za 5 dnů, 5 cestujících vracejících se za 6 dnů a 1 cestující vracející se za 14 dní. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 51 Tabulka 9: Výsledky průzkumu Pozorování Dny Hmotnost 1 13 46 2 12 43 3 9 29 4 16 52 5 10 31 6 5 18 7 2 11 8 3 12 9 8 25 10 2 10 11 14 48 12 19 60 13 3 15 14 5 20 15 2 12 Řešení: Prezentujeme zde pouze „ruční“ výpočet řešení (s kalkulačkou), řešení pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu ponecháváme na čtenáři. a. K výpočtu regresních koeficientů b0, b1 použijeme opět vztahů (3.13): 99,2 2,873,96 8,282,84,324 2221        xx yxyx b , 27,42,899,28,2810  xbyb Regresní přímka má tedy tvar xY 992274 ,,  . Tabulka 10: Výpočty i xi yi xiyi xi 2 1 13 46 598 169 2 12 43 516 144 3 9 29 261 81 4 16 52 832 256 5 10 31 310 100 6 5 18 90 25 7 2 11 22 4 8 3 12 36 9 9 8 25 200 64 10 2 10 20 4 11 14 48 672 196 12 19 60 1140 361 13 3 15 45 9 14 5 20 100 25 15 2 12 24 4 Součet 123 432 4866 1451 Průměr 8,2 28,8 324,4 96,73 Resgresní analýza – jednorozměrná lineární regrese 52 b. Vypočítáme hodnotu Y pro x = 2: 25,10299,227,4)2( Y , x = 5: 22,19599,227,4)5( Y , x = 6: 21,22699,227,4)6( Y , x =14: 13,461499,227,4)14( Y . Potom hmotnost zavazadel m, se kterou lze počítat, snadno zjistíte, uvážíte-li počty příslušných cestujících: 47,44513,4605,11154,13475,153)14(1)6(5)5(7)2(15  YYYYm kg. SHRNUTÍ KAPITOLY Tato kapitola se zabývala jednoduchou regresní analýzou, byl zde formulován model jednoduché lineární regresní analýzy. Dále zde byla vysvětlena metoda nejmenších čtverců k nalezení „nejlepších“ hodnot regresních koeficientů v regresním modelu. Míra přiléhavosti dat k regresní křivce byla stanovena pomocí koeficientu determinace a jeho odmocniny – koeficientu korelace. Nakonec jste se seznámili s tzv. klasickým jednoduchým regresním modelem, který stanovuje 3 základní podmínky, kterým by měl vyhovovat regresní model vzhledem k existujícím datům. 3.6 Samostatné úkoly 3.1 Personální ředitel firmy shromáždil údaje o věku (X) a době pracovní neschopnosti (Y) dvaceti náhodně vybraných stálých zaměstnanců. Zjištěné údaje jsou zaznamenány v ta- bulce. X Y X Y 20 4 58 20 35 14 46 13 35 15 43 16 34 10 33 10 32 10 29 10 28 9 36 11 25 12 48 14 46 15 55 15 38 15 36 14 50 16 19 6 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 53 Načrtněte bodový graf a najděte rovnici regresní funkce vyjadřující danou závislost. Zhodnoťte výstižnost (přiléhavost) regresní funkce vzhledem k datům. 3.2 Bylo sledováno, jak souvisí množství vadných výrobků (v % z vyrobených výrobků) s výkonem soustružníka (v % z předepsané normy). Bylo vybráno deset pracovníků, naměřené údaje jsou uvedeny v tabulce. Výkon 56 68 72 85 92 102 107 111 123 142 Vadné výrobky 5,2 3,9 3,5 2,4 2,04 2 2,2 2,24 2,4 2,51 Stanovte regresní model a určete přiléhavost regresní přímky k datům. 3.3 Tabulka zachycuje stáří (v letech) osmi vybraných strojů v potravinářském závodě a týdenní náklady (v Kč) na provoz těchto strojů. Stáří stroje 1 2 3 4 5 6 7 8 Náklady 44 52 61 80 94 108 111 116 a. Odhadněte parametry lineární regresní funkce, která by měla vystihovat průběh závislosti nákladů na stáří. b. Určete koeficient determinace R2 a interpretujte jej. c. Jaké týdenní náklady můžeme očekávat u stroje starého 4 roky? 3.7 Řešení úkolů, výsledky 3.1 3.2 53056502850 2 ,;,,  RxY . 3.3 a) xY 36111432 ,,  b) 9702 ,R tzn. modelem je vysvětleno 97% celkové variability. c)   KčY 58774361114324 ,.,,  . y = 0,2964x + 1,3941 R² = 0,7287 0 5 10 15 20 25 0 10 20 30 40 50 60 70 Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 54 4 REGRESNÍ ANALÝZA – JEDNOROZMĚRNÁ: INTERVALY SPOLEHLIVOSTI, TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE RYCHLÝ NÁHLED KAPITOLY Tato kapitola vám rozšíří znalosti v jednorozměrné regresní analýze. Za předpokladů jednorozměrného klasického regresního modelu se budete zabývat stanovením intervalů spolehlivosti a dále testy hypotéz regresních koeficientů a testem nulovosti koeficientu determinace. Další odstavce se zabývají jednorozměrnou nelineární regresí. Nejprve budou vyšetřovány regresní funkce, které lze s pomocí vhodné transformace převést na funkce lineární dále parabolická regresní funkce a nakonec nelineární regresní funkce tzv. Tornquiustova typu. Pro výpočet parametrů těchto funkcí, jež mají uplatnění především v marketingu, poznáte novu metodu tzv. metodu vybraných bodů. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: stanovit intervaly spolehlivosti pro regresní koeficienty, testovat statistickou významnost regresních koeficientů, testovat koeficient determinace, transformovat funkci na funkci lineární. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Intervaly spolehlivosti regresních koeficientů, testování regresních koeficientů, test koeficientu determinace. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 55 4.1 Intervaly spolehlivosti Jsou-li splněny předpoklady klasického lineárního modelu (3.9), tj. modelu yi = ix10   + i , i = 1,2,...,n, potom pro rozdělení odhadů regresních koeficientů 10 bb , jakožto náhodných veličin platí toto: Regresní koeficient bj má normální rozdělení pravděpodobnosti se střední hodnotou j a rozptylem 2 hj , kde j = 0 nebo 1, čísla hj jsou definována následujícími vztahy:       22 2 0 ii i xxn x h , (4.1)     221 ii xxn n h . (4.2) V klasickém lineárním modelu předpokládáme, že náhodné složky mají konstantní rozptyl 2 , jeho hodnotu však neznáme. Neznámý rozptyl 2 můžeme nahradit jeho bodovým odhadem 2 2   n S s R R , (4.3) který nazýváme reziduální rozptyl. Jak je vidět, v reziduálním rozptylu vystupuje v čitateli reziduální součet čtverců (3.16) dělený číslem n – 2, což je počet stupňů volnosti, tj. rozsah dat n mínus počet regresních parametrů v modelu: 2. Odmocninu reziduálního rozptylu sR nazýváme směrodatná chyba. Oboustranný interval spolehlivosti pro regresní koeficient bj, při zadaném koeficientu spolehlivosti (1 - ), je následující interval: [bj – t1-/2(n-2) jR hs , bj + t1-/2(n-2) jR hs ], j = 0 nebo 1. (4.4) Připomínáme, že zde t1-/2(n – 2) je příslušný kvantil Studentova t-rozdělení, podrobnosti, viz Ramík (2003), hj jsou dány vztahy (4.1), (4.2). Bodový odhad regresních koeficientů bj neříká nic o eventuální variabilitě tohoto koeficientu. Tuto informaci doplňuje směrodatná chyba (4.3) a zejména interval spolehlivosti (4.4), který informuje, v jakém rozmezí se regresní koeficient může pohybovat v rámci zadané spolehlivosti. Odhadnutý lineární regresní model (3.1), který má tvar y = b0 + b1x + e , (4.5) resp. regresní funkce Y = b0 + b1x , (4.6) má praktický význam zejména při odhadu chování modelu v případě, že nezávisle proměnná nabývá nějakou v datech se nevyskytující hodnotu, označme ji např. x0. Model (4.5), Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 56 resp. regresní funkce (4.6), pak slouží k předpovědi (predikci, prognóze, extrapolaci) hodnoty závisle proměnné. Bodový odhad předpovědi získáme dosazením x0 do (4.5), resp. (4.6), neboť predikovaná hodnota chyby (rezidua) e je 0, tedy Y0 = b0 + b1x0 . (4.7) Informaci o tom, v jakém rozmezí se predikovaná hodnota závisle proměnné y může pohybovat, poskytne oboustranný interval spolehlivosti: [Y0 – t1-/2(n-2) HsR , Y0 + t1-/2(n-2) HsR ], (4.8) kde                   22 2 0 1 1 1 ii i xxn xnx n H . Ostatní symboly v (4.8) mají stejný význam, jako v intervalu (4.4). 4.2 Testy hypotéz Metodou nejmenších čtverců lze zjistit, zda regresní koeficienty bj jsou nenulová čísla, musíme mít však stále na paměti, že se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda naše původní parametry j jsou přesto nulové. Za předpokladů klasického lineárního modelu je možno testovat nulovou hypotézu: H0: j = 0, j = 0 nebo 1 (4.9) proti oboustranné alternativní hypotéze H1: j  0, j = 0 nebo 1. (4.10) Při tomto testu použijeme testové kritérium j R j h n S b T 2  , (4.11) které má při platnosti H0 t-rozdělení s n – 2 stupni volnosti, SR je reziduální součet čtverců, hj je dáno vztahy (4.1), (4.2), přičemž j = 0 nebo 1. Na hladině významnosti  (viz Ramík (2003)) je kritický obor vymezen nerovností T > )2(2/1  nt  , kde )2(2/1  nt  je příslušný kvantil Studentova t-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. Přijmete-li např. na dané hladině významnosti  nulovou hypotézu H0: 1 = 0, pak to znamená, že y nezávisí na x, jinak řečeno, pro libovolnou hodnotu nezávisle proměnné x nabývá závisle proměnná y neustále stejné hodnoty 0 . Vypočítaná hodnota koeficientu determinace je prakticky vždy kladná. Musíme však mít stále na paměti, že u hodnot vstupujících do výpočtu koeficientu determinace se jedná Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 57 o realizace náhodných veličin, a tudíž má smysl testovat, zda teoretický koeficient determinace R2 není přesto nulový. Za předpokladů klasického lineárního modelu je možno testovat nulovou hypotézu: H0: R2 = 0, proti oboustranné alternativní hypotéze H1: R2  0. Při tomto testu použijeme testové kritérium 2 2 1 )2( R nR T    , (4.11*) které má při platnosti H0 t-rozdělení s n – 2 stupni volnosti, R2 je vypočítaný koeficient determinace. Na hladině významnosti  (viz Ramík (2003)) je kritický obor vymezen nerovností T > )2(1  nt  , kde )2(1  nt  je příslušný kvantil Studentova t-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. 4.3 Nelineární regresní analýza V tomto odstavci si povšimneme jednoduchého regresního modelu s nelineární regresní funkcí, který se však dá pouhou substitucí na lineární model převést. Konkrétně se jedná o dvě regresní funkce zmíněné již v kapitole 3: regresní mocninná funkce: 1 0)(   xxf  , (4.12) regresní exponenciální funkce: x xf 10)(  . (4.13) Regresní model s regresní funkcí (4.12) má tvar:    1 0xy , (4.14) avšak namísto něj uvažujeme model, jež vznikne logaritmováním (4.12), kde položíme )(xfy  , tj.   xy lnlnln 10 , přitom ln označuje přirozený logaritmus o základu e = 2,718... Jestliže nyní položíte substituce yy ln , xx ln , (4.15) 00 ln   , 11   , (4.16) pro transformaci (4.15) původních dat yi, xi, obdržíte „čárkovaný“ jednoduchý lineární regresní model   xy 10 , (4.17) jehož parametry 10  , (regresní koeficienty) lze odhadnout metodou nejmenších čtverců aplikovanou na lineární model (4.17), a obdržíte tak jejich odhady 10 bb  , . S použitím vztahů (4.15) a (4.16) dostanete nazpět odhady 10 bb , původního nelineárního regresního modelu (4.12): 0 0 b eb   , 11 bb  . Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 58 Analogickým postupem lze linearizovat jednoduchý nelineární regresní model s exponenciální regresní funkcí (4.13), která je v ekonomii známa jako Cobb-Douglasova jednofaktorová produkční funkce:   x y 10 , (4.18) který substitucemi yy ln , xx  , (4.19) 00 ln   , 11 ln   , (4.20) lze rovněž transformovat na „čárkovaný“ lineární model (4.17), jehož parametry 10  , odhadneme metodou nejmenších čtverců, a obdržíme tak jejich odhady 10,bb  . S použitím vztahů (4.20) vypočteme nazpět odhady 10,bb původního nelineárního regresního modelu (4.18): 0 0 b eb   , 1 1 b eb   . (4.21) Je však třeba upozornit, že na intervalové odhady, resp. testy hypotéz, regresních koeficientů 10 bb  , lze použít postup z počátku této kapitoly pouze tehdy, když transformovaná, tj. „čárkovaná“ data ii xy , , splňují podmínky klasického regresního modelu z kapitoly 3. Meze intervalových odhadů, tedy krajní body intervalů spolehlivosti pak vypočítáme s použitím zpětných transformací (4.21). Dalšími užitečnými nelineárními regresními funkcemi s uplatněním především v marketingu a výzkumu trhu (logistické funkce, Gompertzovy funkce, aj.) se budete zabývat v kapitole věnované analýze časových řad. Tam se budete zabývat i problémem výběru vhodného typu regresní funkce. V následujících odstavcích se ještě věnujeme známé parabolické regresní funkci a dále Törnquistovým funkcím, které nelze převést jednoduše na lineární tvar, jak tomu bylo v tomto odstavci. 4.4 Parabolická regrese V kapitole 3.1. jsme označili parabolickou regresní funkci (3.4) za regresní funkci, kterou lze substitucí 2 =′ xx převést na lineární tvar. V tomto případě se však jednalo pouze o speciální tvar paraboly (s vrcholem na ose y) se dvěma parametry. Obecný tvar paraboly však má parametry tři a vypadá takto: 2 210)( xxxf   . (4.22) Jednoduchý regresní model s parabolickou regresní funkcí pak má tvar   2 210 xxy . (4.23) Máme-li tedy k dispozici data, tj, dvojice hodnot (y1, x1), (y2, x2), (y3, x3),..., (yn, xn), pak lze odhady 210 bbb ,, regresních parametrů 210  ,, získat metodou nejmenších čtverců, přičemž je zapotřebí řešit soustavu 3 normálních rovnic o 3 neznámých: Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 59    2 210 iii xbxbnby , (4.24)     3 2 2 10 iiiii xbxbxbxy ,     4 2 3 1 2 0 2 iiiii xbxbxbxy . Uvědomte si, že neznámé jsou v této soustavě rovnic 210 bbb ,, , zatímco yi, xi jsou známé hodnoty, které se dosadí do sum  v soustavě (4.24). Tuto soustavu 3 lineárních rovnic o 3 neznámých je snadné vyřešit např. známou Gaussovou eliminační metodou. 4.5 Törnquistovy funkce Zejména v marketingu se využívají Törnquistovy regresní funkce (též Törnquistovy křivky), což jsou regresní funkce s více parametry, které podle použití rozdělujeme na tři typy: Törnquistovy křivky I. typu vyjadřují závislosti poptávky po spotřebním zboží )( xf na výši příjmů x ekonomických subjektů (např. rodin). Tyto křivky mají tvar: 1 0 )(     x x xf . (4.25) Křivky tohoto typu se používají například při plánování a prognózování ve spotřebním průmyslu. Regresní funkce (4.25) slouží k modelování poptávky po zboží nezbytného charakteru (mléko, pečivo, obuv, apod.). Při modelování poptávky po zboží relativně nezbytného charakteru (elektrospotřebiče, maso a uzeniny, apod.) se používají Törnquistovy křivky II. typu, které mají tvar: 2 10 )( )(      x x xf . (4.26) Törnquistovy křivky III. typu se používají při modelování poptávky po zboží zbytného charakteru (auta, šperky, umělecká díla, apod.). Tyto regresní funkce se třemi parametry mají tvar: 2 10 )( )(      x xx xf . (4.27) Odhady regresních parametrů funkcí (4.25) - (4.27) lze získat opět metodou nejmenších čtverců, avšak s použitím PC a Excelu, neboť soustava 3 normálních rovnic o 3 neznámých je nelineární, a proto se k řešení používají iterační numerické metody. Pro ruční výpočet můžeme alternativně využít i metodu vybraných bodů. Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 60 Obrázek 15: Törnquistova křivka I. typu, 1=== 210 βββ Obrázek 16: Törnquistova křivka II. typu, 1=== 210 βββ Obrázek 17: Törnquistova křivka III. typu, 1=== 210 βββ 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 2 4 6 8 10 12 f(x) x Tornquistova křivka I. typu 0 0,2 0,4 0,6 0,8 1 0 2 4 6 8 10 12 f(x) x Tornquistova křivka II. typu 0 0,2 0,4 0,6 0,8 1 0 2 4 6 8 10 12 f(x) x Tornquistova křivka III. typu Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 61 4.6 Metoda vybraných bodů Ukážeme si zde jinou metodu výpočtu neznámých parametrů, která sice nevede z teoretického pohledu k nejlepším odhadům, avšak její výhoda spočívá ve výpočetní nenáročnosti umožňující „ruční“ výpočet. Tato metoda se nazývá metoda vybraných bodů a spočívá v tom, že z daných údajů (Yi, xi) vybereme 3 charakteristické hodnoty - body, kterými necháme Törnquistovu křivku procházet, jinými slovy, položíme empirické hodnoty rovny hodnotám teoretickým. Jestliže charakteristické hodnoty poptávky 321 YYY ,, odpovídají hodnotám výše příjmů 321 xxx ,, , pak ze vztahu (4.26) obdržíte soustavu 3 rovnic o 3 neznámých 210 bbb ,, : 21 110 1 )( bx bxb Y    , 22 120 2 )( bx bxb Y    , 23 130 3 )( bx bxb Y    , (4.28) jejichž řešením např. postupným dosazováním získáme odhadyneznámých parametrů .,, 210 bbb ŘEŠENÁ ÚLOHA 4.1 Data v tabulce představují ceny brožovaných knih a k nim příslušné počty jejich stran. a. Určete lineární regresní model popisující závislost ceny knih na počtu stran. b. Určete interval, ve kterém bude s pravděpodobností 95% ležet regresní koeficient b1. c. Na hladině významnosti 5% testujte, zda je regresní koeficient b1 statisticky významný. d. Vypočtěte koeficient determinace a na hladině významnosti 5% testujte, zda je statisticky významný. e. V jakém rozmezí se bude pohybovat cena knihy s 250 stranami? Uvažujte hladinu významnosti 0,01. Měření č. 1 2 3 4 5 6 7 Počet stran 20 35 48 50 130 200 86 Cena knihy 40 50 70 106 118 179 100 Řešení: a. Koeficienty regresní přímky Y = b0 + b1x určíte pomocí vztahů (3.13): 70,0 51,3495 73,2436 29,8157,10103 71,9429,8171,10135 2221        xx yxyx b 81,3729,817,071,9410  xbyb . Hledaná regresní přímka má tvar Y = 37,81 + 0,7x. b. Úkolem je najít 95% oboustranný interval spolehlivosti pro koeficient b1. Obecný tvar tohoto intervalu je následující (viz (4.4)): [b1 – t1-/2(n – 2) 1hsR , b1 + t1-/2(n – 2) 1hsR ], Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 62 kde sR je odmocnina z reziduálního rozptylu 2 2   n S s R R , h1 je definováno vztahem (4.2). i xi yi xi 2 xiyi Yi ( )y Yi i 2 ( )y yi  2 1 20 40 400 800 51,81 139,48 2993,18 2 35 50 1225 1750 62,31 151,54 1998,98 3 48 70 2304 3360 71,41 1,99 610,58 4 50 106 2500 5300 72,81 1101,58 127,46 5 130 118 16900 15340 128,81 116,86 542,42 6 200 179 40000 35800 177,81 1,42 7104,80 7 86 100 7396 8600 98,01 3,96 27,98 Součet 569 663 70725 70950 1516,83 13405,43 Průměr 81,29 94,71 10103,57 10135,7 Nejprve se vypočítá reziduální součet čtverců SR (v tabulce výpočtů je to hodnota v předposledním sloupci dole): 83,1516)( 7 1 2  i iiR YyS . Teoretické hodnoty Yi obdržíme postupným dosazováním hodnot xi do rovnice regresní přímky. Hodnoty Yi, jednotliví sčítanci i součet SR jsou uvedeni v tabulce. Nyní můžeme vypočítat hodnotu reziduálního rozptylu sR 2 . .37,303 27 83,15162   Rs Potom 42,1737,3032  RR ss . Dále stanovíme hodnotu h1.   .00004,0 171314 7 569707257 7 2221        ii xxn n h V tabulkách Studentova rozdělení nalezneme (1  /2) = 97,5% kvantil t-rozdělení o n  2 = 7  2 = 5 stupních volnosti, tj. .,)(, 57259750 t Dosazením výše vypočítaných hodnot do vztahu pro interval spolehlivosti určíme jeho pravou a levou stranu: 42,000004,042,1757,27,0 L . 98,000004,042,1757,27,0 P . Regresní koeficient b1 bude s 95%-ní pravděpodobností ležet v intervalu [0,42; 0,98]. c. Ačkoliv je hodnota koeficientu b1= 0,7, nesmíte zapomínat na to, že pracujete s náhodným výběrem a že teoretická hodnota parametru 1 přesto může být nulová. Bude se proto testovat nulová hypotéza H0: 1 = 0 proti oboustranné alternativní hypotéze H1: 1  0. K ověření nulové hypotézy vypočítáme hodnotu testového kritéria (4.11) . 1 1 2 h n S b T R   35,6 11,0 7,0 00004,0 27 8,1516 7,0     . Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 63 V tabulkách t-rozdělení nalezneme t0,975(5) = 2,57. Protože 6,35 > 2,57, zamítáme nulovou hypotézu ve prospěch hypotézy alternativní, což znamená, že na zvolené hladině významnosti je parametr 1 nenulový a tedy statisticky významný. d. Koeficient determinace R2 vypočítáme podle vztahu 89,0 43,13405 83,1516 112  y R S S R . Testové kritérium stanovíte podle vztahu (4.11*) 35,6 89,01 5.89,0 1 )2( 2 2       R nR T . Protože 6,35 > 2,57, zamítá se nulová hypotéza ve prospěch hypotézy alternativní, což znamená, že na zvolené hladině významnosti je koeficient determinace R2 nenulový a tedy statisticky významný. e. Máte stanovit 99% interval spolehlivosti pro predikovanou hodnotu Y, je-li x0 = 250. Podle (4.8) je tvar tohoto intervalu [Y0 – t1-/2(n–2) HsR , Y0 + t1-/2(n–2) HsR ], kde Y0 = b0 + b1x = 37,81 + 0,7 250 = 212,81, t1-/2(n  2) = 4,032 , sR = 17,42 ,                                   171314 1394761 1 7 1 1 569707257 5692507 1 7 1 11 1 1 2 2 22 2 0 ii i xxn xnx n H 31,214,9 7 1 1  . Meze hledaného intervalu jsou: .06,10631,242,17032,481,212 L .56,31931,242,17032,481,212 P Cena knihy se bude s 99%-ní pravděpodobností pohybovat v intervalu [106,06;319,56]. Nakonec si ukážeme řešení pomocí Excelu. Na tomto místě to bude další možnost řešení úlohy jednoduché (i vícenásobné) regrese s využitím menu: Data  Analýza dat...  Regrese. Data jsou uspořádána ve worksheetu ve 2 sloupcích: Otevře se okno regrese, které vyplníte takto: A B C 1 Počet stran Cena knihy 2 20 40 3 35 50 4 48 70 5 50 106 6 130 118 7 200 179 8 86 100 9 Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 64 Po potvrzení OK obdržíte: V první části výstupu jsou popisky s nepřesnými překlady do češtiny, uvádíme proto jejich správné významy: V této části výstupu je důležitá druhá hodnota – koeficient determinace R2 = 0,887, který odpovídá ručně získanému výsledku z části d. Druhá tabulka ve výstupu – ANOVA není v pravém slova smyslu metoda ANOVA, jak jsme se jí zabývali v kapitolách 1 a 2, jde tu o analogii využívající podobnosti vztahů (1.5) a (3.17). Analogicky jako v metodě ANOVA je zde výsledek F-testu statistické významnosti celého regresního modelu: Významnost F = 0,001525. Tato hodnota je menší než 0,05 a proto je celý regresní model statisticky významný. Ve třetí – poslední tabulce jsou uvedeny relevantní informace k vypočítanému regresnímu modelu. Nejprve jsou uvedeny odhady regresních koeficientů: Hranice = úrovňová konstanta = b0 Počet stran = sklon regresní přímky = koeficient u nezávisle proměnné „počet stran“ = b1 Ve sloupci Hodnota P jsou uvedeny p-hodnoty (signifikance) testů nulovosti příslušných regresních koeficientů: VÝSLEDEK Regresní statistika Násobné R 0,942 Hodnota spolehlivosti R 0,887 Nastavená hodnota spolehlivosti R 0,864 Chyba stř. hodnoty 17,416 Pozorování 7 ANOVA Rozdíl SS MS F Významnost F Regrese 1 11888,84 11888,84 39,19608 0,001525 Rezidua 5 1516,586 303,3172 Celkem 6 13405,43 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Dolní 99,0% Horní 99,0% Hranice 38,059 11,19022 3,401 0,019 9,294 66,825 -7,061 83,180 Počet stran 0,697 0,111327 6,261 0,002 0,411 0,983 0,248 1,146 Násobné R = R - koeficient korelace Hodnota spolehlivosti R = R2 - koeficient determinace Nastavená hodnota spolehlivosti R = R2 adj - upravený koeficient determinace Chyba stř. hodnoty = s2 - směrodatná chyba (odhad směrodatné odchylky náhod. složky) Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 65 Pro regresní koeficient b0 je tato hodnota 0,019 < 0,05 - b0 je statisticky významný tj. 0  0. Pro regresní koeficient b1je tato hodnota 0,002 < 0,05 – b1 je statisticky významný tj. 1  0. Intervaly spolehlivosti regresních koeficientů jsou uvedeny ve sloupcích: Dolní 95%, Horní 95%, resp. Dolní 99,0%, Horní 99,0%. Konkrétně, 95%-ní interval spolehlivosti koeficientu 1 je [0,411 ; 0,983], což je stejný výsledek, jaký jsme obdrželi předtím ručním výpočtem. ŘEŠENÁ ÚLOHA 4.2 Při sledování závislosti vlastních nákladů na skladování zahrnující i ztráty způsobené zastavením výroby z nedostatku součástek (Y) na velikosti dodávek (X) v 18 obuvnických závodech jsme obdrželi následující údaje - viz. tabulka. a. Nalezněte regresní funkci popisující závislost Y na X a určete její rovnici. b. Stanovte optimální velikost dodávky. Řešení: a. Jak z průběhu bodového diagramu, tak i rozboru empirických údajů plyne, že závislost mezi velikostí dodávek a náklady na skladování dobře vystihuje parabolická regresní funkce f(x) = 0 +1x +2x2 . Náklady na skladování mají zpočátku klesající tendenci- malá dodávka způsobuje vysoké náklady na převzetí připadající na jednu součástku a způsobuje výpadky ve výrobě. Tuto tendenci později vystřídá vzestup – příliš velká dodávka zvyšuje stav zásob, prodlužuje skladovací dobu a vyvolává nutnost úvěrového krytí – viz Obrázek 18. Odhady hodnot parametrů parabolické regrese obdržíme řešením soustavy normálních rovnic   i i i i i i xbxbnby 2 210   i i i i i ii i i xbxbxbxy 3 2 2 10   i i i i i ii i i xbxbxbxy 4 2 3 1 2 0 2 . Podnik 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Dodávka 28 32 35 40 42 45 49 51 53 56 57 60 61 64 69 72 75 77 Náklady 62 59 58 53 50 46 44 42 40 41 38 35 36 36 38 40 42 46 Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 66 Obrázek 18: Parabolická regrese Dosazením hodnot ze součtového řádku tabulky do těchto rovnic dostaneme: 210 5553496618806 bbb  210 33720845553496641618 bbb  210 2136648583372084555342330182 bbb  . Řešením této soustavy rovnic (např. Cramerovým pravidlem) získáme regresní koeficienty b0 = 127,71; b1 = – 2,8479; b2 = 0,0227. Hledaná parabola má tvar 2 022708479271127 xxY ,,,  . b. Optimální velikost objednávky zjistíme jako minimum funkce 2 022708479271127 xxY ,,,  tak, že položíme její první derivaci rovnu nule, tj. Y´= – 2,8479 + 0,0454x = 0, tudíž 762,x . Optimální velikost dodávky je 62 nebo 63 kusů. Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte položku Typ trendu a rergrese: Polynomický (stupeň 2), Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Potvrdíte OK. i xi yi xi 2 xi 3 xi 4 xiyi x yi i 2 1 28 62 784 21952 614656 1736 48608 2 32 59 1024 32768 1048576 1888 60416 3 35 58 1225 42875 1500625 2030 71050 4 40 53 1600 64000 2560000 2120 84800 5 42 50 1764 74088 3111696 2100 88200 6 45 46 2025 91125 4100625 2070 93150 7 49 44 2401 117649 5764801 2156 105644 8 51 42 2601 132651 6765201 2142 109242 9 53 40 2809 148877 7890481 2120 112360 Regresní parabola y = 0,0227x2 - 2,8479x + 127,71 R2 = 0,939 0 10 20 30 40 50 60 70 0 20 40 60 80 100 Náklady Polynomický (Náklady) Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 67 10 56 41 3136 175616 9834496 2296 128576 11 57 38 3249 185193 10556001 2166 123462 12 60 35 3600 216000 12960000 2100 126000 13 61 36 3721 226981 13845841 2196 133956 14 64 36 4096 262144 16777216 2304 147456 15 69 38 4761 328509 22667121 2622 180918 16 72 40 5184 373248 26873856 2880 207360 17 75 42 5625 421875 31640625 3150 236250 18 77 46 5929 456533 35153041 3542 272734 Součet 966 806 55534 3372084 213664858 41618 2330182 Obdržíte výsledek téměř takový, jaký je na následujícím obrázku. K původním bodům se zobrazí regresní parabola, dále rovnice regresní paraboly a hodnotu koeficientu determinace R2 . Výsledek je stejný, jako při ručním výpočtu, viz výše. ŘEŠENÁ ÚLOHA 4.3 V jisté firmě zkoumali, jak závisí vlastní náklady na jednotku produkce (Y) na objemu produkce (X). Následující tabulka uvádí zjištěné údaje v různých obdobích. a. Najděte regresní hyperbolický model popisující danou závislost. b. Pomocí koeficientu determinace zhodnoťte přiléhavost regresní funkce k datům. Řešení: a. Dosadíte potřebné údaje do normálních rovnic, které získáte z hyperbolické regresní funkce (3.5) tak, že k nalezení minima součtu čtverců odchylek:         2 1010 ) 1 (),( i i x bbybbF se anulují parciální derivace, tj. 0 0    b F a 0 1    b F . Tím obdržíte následující normální rovnice:   i i x bbny 1 10    210 11 iii i x b x b x y a obdržíme soustavu 2 rovnic o 2 neznámých 137131574 10 , bb 1812 19 7 13 8 330 1, , , .   b b Řešením této soustavy získáte odhady regresních parametrů: b0 = 3,32; b1 = 214,71. Hledaná regresní hyperbola má tvar: x Y 71,214 32,3  . Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 68 b. Nejdříve vypočítáte teoretické hodnoty Yi postupným dosazením hodnot xi do rovnice regresní hyperboly 74,432 5,0 71,214 32,3 71,214 32,3 1 1  x Y . Všechny hodnoty Yi jsou uvedeny v tabulce, viz níže. Dále vypočítáte součty ST, Sy .02,203722 )08,12158,24()08,12105,310()08,12174,432()( 222 13 1 2     i iT yYS 97,2060)08,12114()08,121297()08,121456()( 222 13 1 2    i iy yyS . i xi yi 1/xi 1/ xi 2 yi/xi Yi ( )Y yi  2 ( )y yi  2 1 0,5 456 2,00 4,00 912,00 432,74 97131,96 112171,41 2 0,7 297 1,43 2,04 424,29 310,05 35709,66 30947,85 3 0,9 206 1,11 1,23 228,89 241,89 14595,06 7211,41 4 1,4 165 0,71 0,51 117,86 156,68 1267,36 1928,97 5 1,9 118 0,53 0,28 62,11 116,33 22,56 9,49 6 3,2 79 0,31 0,10 24,69 70,42 2566,44 1770,73 7 4,2 57 0,24 0,06 13,57 54,44 4440,89 4106,25 8 4,8 54 0,21 0,04 11,25 48,05 5333,38 4499,73 9 6,9 40 0,14 0,02 5,80 34,44 7506,49 6573,97 10 7,9 35 0,13 0,02 4,43 30,50 8204,74 7409,77 11 8,8 30 0,11 0,01 3,41 27,72 8716,09 8295,57 12 9,2 23 0,11 0,01 2,50 26,66 8915,14 9619,69 13 10,1 14 0,10 0,01 1,39 24,58 9312,25 11466,13 Součet 60,5 1574 7,13 8,33 1812,19 203722,02 206010,97 Průměr 4,65 121,08 0,55 0,64 139,40 Hodnoty jednotlivých sčítanců i součtů ST, Sy jsou uvedeny v tabulce. Koeficient determinace R2 vypočítáte podle vztahu (3.18). 99,0 97,206011 02,2037222  y T S S R . Hodnota koeficientu determinace 0,99 je vysoká, což znamená, že daným regresním modelem s vysvětlující proměnnou „objem produkce“ je vysvětleno 99% variability znaku Y. Pouze 1% chování proměnné Y je ovlivněno jinými faktory. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 69 ŘEŠENÁ ÚLOHA 4.4 Data v tabulce ukazují poptávku po určitém druhu zboží (v tis. ks) při různých cenách (v Kč). Popište závislost poptávky na ceně mocninnou regresní funkcí. Pozorování 1 2 3 4 5 6 Cena 8,5 40 92 180 200 250 Poptávka 200 140 80 45 42 18 Řešení: Úkolem je nalézt odhady parametrů 1, 0 regresní funkce 1 0   xY  . Použijete linearizující transformace, a to tak, že obě strany rovnice zlogaritmujete a použijete vhodnou substituci (viz odstavec 4.3), čímž získáte rovnici xY  10  , kde 1100 ,ln,ln,ln   xxYY , což je rovnice regresní přímky. Regresní koeficienty  b b0 1, určíme pomocí známých vztahů takto: 6,0 43,1 86,0 39,439,47,20 18,439,449,17 22 1          xx yxyx b 8,6)39,46,0(18,410  xbyb . i x y x y  x y x 2 1 8,5 200 2,14 5,30 11,34 4,58 2 40 140 3,69 4,94 18,23 13,61 3 92 80 4,52 4,38 19,81 20,45 4 180 45 5,19 3,81 19,77 26,97 5 200 42 5,30 3,74 19,80 28,07 6 250 18 5,52 2,89 15,96 30,49 Průměr 4,39 4,18 17,49 20,70 Odhady b0, b1 původního modelu snadno vypočítáte zpětnou transformací 0 011 , b ebbb   . Proto bude .85,897;6,0 01  bb Hledaná mocninná regresní funkce má tvar .85,897 6,0  xY Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte po- ložku Typ trendu a regrese: Mocninný, Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 70 Obdržíte výsledek, jaký je na Obrázku 19. K původním bodům se zobrazí regresní mocninná funkce, dále její rovnice a hodnotu koeficientu determinace R2 . Výsledek je poněkud odlišný od výsledku, který jsme získali při ručním výpočtu, viz výše. Tato odlišnost je způsobena tím, že Excel počítá koeficienty přímo metodou nejmenších čtverců bez použití linearizace s logaritmickou transformací. Metoda použita Excelem je přesnější než metoda linearizace a proto bychom ji dali při aplikaci přednost. Metoda linearizace je zase výpočetně jednodušší, je ji možno provést ručně, v době počítačů však tato výhoda ztrácí na významu. Obrázek 19: Mocninná regrese ŘEŠENÁ ÚLOHA 4.5 Tabulka uvádí stáří pletacích strojů (X) v letech a náklady na jejich údržbu (Y) v tis. Kč. Popište závislost Y na X exponenciální regresní funkcí. Řešení: Úkolem je nalézt odhady regresních parametrů exponenciální regresní funkce x y 10  . Pomocí logaritmické transformace převedeme tuto funkci na funkci lineární: lny = ln0 + xln1 . Použitím substituce 1100 ln,ln,,ln´   xxYy obdržíte regresní přímku xy  10´  . Mocninná regrese y = 1005,9x-0,623 R2 = 0,8347 0 50 100 150 200 250 300 0 100 200 300 Poptávka Mocninný (Poptávka) Měření 1 2 3 4 5 6 7 8 9 10 11 12 Stáří 14 0,8 3 7,5 8,4 14,8 4,5 15,6 17,3 11,5 13,2 1,5 Náklady 47,5 8 10 17 22 76,4 12,5 76 94,5 25 30,6 12 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 71 Odhady parametrů 10   , této přímky určíme použitím známých vztahů 14,0 35,31 45,4 34,959,118 25,334,98,34 222 1        xx yxyx b .94,1)34,914,0(25,310  xbyb Regresní koeficienty původní funkce snadno vypočítáme zpětnou transformací: .15,1;96,6 10 10   bb ebeb Hledaná exponenciální regresní funkce má tvar: xx ey 14,0 96,615,196,6  . i x xi i  yi yi  x yi i x 2 1 14 47,5 3,86 54,04 196,00 2 0,8 8 2,08 1,66 0,64 3 3 10 2,30 6,90 9,00 4 7,5 17 2,83 21,23 56,25 5 8,4 22 3,09 25,96 70,56 6 14,8 76,4 4,34 64,23 219,04 7 4,5 12,5 2,53 11,39 20,25 8 15,6 76 4,33 67,55 243,36 9 17,3 94,5 4,55 78,72 299,29 10 11,5 25 3,22 37,03 132,25 11 13,2 30,6 3,42 45,14 174,24 12 1,5 12 2,48 3,72 2,25 Průměr 9,34 3,25 34,80 118,59 Obrázek 20: Exponenciální regrese Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte položku Exponenciální regrese y = 6,9473e0,1407x R2 = 0,9287 0 20 40 60 80 100 0 5 10 15 20 Náklady Exponenciální (Náklady) Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 72 Typ trendu a regrese: Exponenciální, Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace R2 ). Potvrdíte OK. Obdržíte výsledek, jaký je na Obrázku 20. K původním bodům se zobrazí regresní exponenciální funkce, dále její rovnice a hodnotu koeficientu determinace R2 . Výsledek je prakticky stejný jako výsledek, který jsme získali při ručním výpočtu, viz výše. SHRNUTÍ KAPITOLY Tato kapitola přinesla rozšíření znalostí v jednorozměrné regresní analýze. Kapitola se zabývala stanovením intervalů spolehlivosti, testováním hypotéz regresních koeficientů a testem nulovosti koeficientu determinace. Dále zde byla představena jednorozměrná nelineární regrese. Byly zde vyšetřovány regresní funkce, které lze s pomocí vhodné transformace převést na funkce lineární, dále parabolická regresní funkce a nakonec nelineární regresní funkce tzv. Tornquiustova typu. V této kapitole jste se seznámili s tzv. metodou vybraných bodů. 4.7 Samostatné úkoly 4.1 Tabulka zachycuje stáří (v letech) osmi vybraných strojů v potravinářském závodě a týdenní náklady (v Kč) na provoz těchto strojů. Stáří stroje 1 2 3 4 5 6 7 8 Náklady 44 52 61 80 94 108 111 116 a. Odhadněte parametry regresní funkce f(x)=0+1lnx, která by měla vystihovat průběh závislosti nákladů na stáří. b. Jaké týdenní náklady můžeme očekávat u stroje starého 4 roky? c. Určete koeficient determinace a interpretujte jej. 4.2 V tenisovém zápase má významný vliv na vítězství hráče úspěšnost jeho prvního podání. Data v tabulce představují počet úspěšných prvních podání (X) a počet vyhraných bodů při úspěšném prvním podání (Y) deseti vybraných hráčů z předních míst žebříčku ATP. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 73 X 31 42 39 41 50 38 33 49 37 46 Y 22 31 29 26 33 26 23 30 29 31 Zvolte nejprve lineární a potom parabolický typ regresní funkce popisující závislost Y na X. a. Určete regresní parametry obou zvolených regresních funkcí. b. Stanovte 95% interval spolehlivosti pro regresní koeficient b1 u lineární regrese. c. Zhodnoťte výstižnost obou zvolených regresních funkcí. Která z nich lépe vystihuje data? 4.8 Řešení úkolů, výsledky 4.1 a) xY ln,,  44382932 b)   KčY 58854443829324 ,ln,,  c) 92,0=2 R 4.2 lineární regresní funkce kvadratická regresní funkce a) xY 490957 ,,  2 0201929425 xxY ,,,  b) 7302601 ,;,b c) 7502 ,R 7902 ,R Model lépe vystihuje kvadratická regresní funkce. Regresní analýza – jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 74 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 75 5 REGRESNÍ ANALÝZA - VÍCEROZMĚRNÁ RYCHLÝ NÁHLED KAPITOLY V této kapitole navážete na jednoduchou regresi vyšetřovanou v předchozí kapitole. Nyní budeme předpokládat, že vysvětlovaná proměnná závisí na několika (více než jedné) vysvětlujících proměnných. Vícenásobný lineární regresní model je zobecněním jednoduchého lineárního regresního modelu. Lineární regresní model bude rozšířen na vícenásobný regresní model lineární v parametrech, který předpokládá lineární vztah pouze v regresních koeficientech, nikoliv nutně v nezávisle proměnných. Odhady regresních koeficientů se stanoví opět metodou nejmenších čtverců, přitom lze využít maticové symboliky, která usnadňuje práci s vektory a maticemi. Podobně jako v případě jednoduché regrese budou formulovány předpoklady klasického regresního modelu, přičemž obdržíte analogické výsledky pro intervaly spolehlivosti regresních koeficientů a odpovídající testy hypotéz jako v případě jednoduché regrese. Nejprve budeme předpokládat, že vysvětlovaná proměnná Y závisí na několika vysvětlujících proměnných X1, X2,..., Xk. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: napsat rovnici vícenásobného regresního modelu, vypočítat odhady regresních koeficientů pomocí maticové symboliky, vypočítat odhady regresních koeficientů v EXCELU a v GRETLU, interpretovat hodnotu koeficientu determinace a koeficientu korelace. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 120 minut. KLÍČOVÁ SLOVA KAPITOLY Vícenásobná regresní analýza, koeficient determinace, koeficient korelace. Regresní analýza - vícerozměrná 76 5.1 Vícerozměrná regresní analýza Na rozdíl od předchozích dvou kapitol, kde jsme předpokládali, že vysvětlovaná proměnná Y závisí na jediné vysvětlující proměnné X, budeme nyní předpokládat, že vysvětlujících proměnných je několik (tj. alespoň 2), řekněme k, kde k  2, přitom k je celé číslo. Vysvětlující statistické znaky (proměnné) označíme X1, X2,...,Xk, i-tému pozorování (i-té realizaci) hodnot vysvětlujících znaků x x xi i ik1 2, ,..., odpovídá hodnota vysvětlovaného znaku yi . Vícenásobný lineární regresní model je zobecněním jednoduchého lineárního regresního modelu (4.9) a má následující tvar: iikkiii xxxy   ...22110 , i = 1,2,...,n. (5.1) Jak jste viděli v předchozí kapitole při aplikaci metody linearizace, bylo pro použití metody nejmenších čtverců podstatné, že regresní funkce byla lineární v parametrech i , nikoliv v proměnné x. Tohoto důležitého faktu využijeme nyní a formulujeme poněkud obecnější model, než (5.1), totiž vícenásobný regresní model lineární v parametrech. Ten vypadá takto y f x x x f x x x f x x xi i i ik i i ik k k i i ik i         0 1 1 1 2 2 2 1 2 1 2( , ,..., ) ( , ,..., ) ... ( , ,..., ) , i = 1,2,...,n. (5.2) kde ),...,,( 21 kj xxxf , j = 1,2,...,k, jsou funkce proměnných kxxx ,...,, 21 , nezávislé na parametrech i . 5.2 Metoda nejmenších čtverců Odhady regresních koeficientů kbbb ,...,, 10 lze stanovit metodou nejmenších čtverců, která spočívá v minimalizaci součtu kvadrátů (tj. druhých mocnin) odchylek skutečných hodnot dat iy od teoretických hodnot iY = ),...,,(...),...,,( 2121110 ikiikkikii xxxfbxxxfbb  . Podobně, jako u jednoduchého modelu, vypočteme odhady ze soustavy normálních rovnic: 0 0  b SR   , 0 1  b SR   , ... , 0 k R b S   . (5.3) V (5.3) se jedná o parciální derivace funkce SR podle proměnných bi. Označení ),...,,( 21 jkjjiij xxxfF  , i = 1,2,...,k, j = 1,2,...,n, (5.4) umožní využít maticovou symboliku. Soustavu rovnic (5.2) lze maticově zapsat takto: εFβy  , (5.5) kde matice: Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 77              knn k k FF FF FF     1 212 111 1 1 1 F se nazývá matice regresorů,              ny y y  2 1 y je vektor pozorování vysvětlované proměnné Y,  =             k    1 0 , resp. b =             kb b b  1 0 , je vektor regresních koeficientů, resp. vektor jejich odhadů. Dále  =             n    2 1 , je vektor náhodných složek. Při výpočtu vektoru odhadů b regresních koeficientů metodou nejmenších čtverců obdržíte soustavu normálních lineárních rovnic, které lze maticově vyjádřit. Pozor, používáte přitom pravidla pro sečítání a násobení matic - pravidlo „řádek krát sloupec“. Toho lze dosáhnout tak, že regresní rovnici y = F.b , vynásobíte zleva transponovanou maticí FT , takže obdržíte FT y = FT F.b , (5.6) a za předpokladu, že matice FT F je regulární, a tedy existuje k ní matice inverzní (FT F)-1 , lze nalézt řešení soustavy, tj. vektor odhadů regresních koeficientů modelu (5.5), a to po vynásobení (5.6) zleva maticí (FT F)-1 , ve tvaru: b = (FT F)-1 FT y. (5.7) Ve speciálním případě jednoduché lineární regrese je k = 1, pak matice regresorů a další prvky z (5.6) mají tvar:              1 21 11 1 1 1 nx x x  F , FT F =         2 ii i xx xn , FT y =         ii i yx y , a soustava normálních rovnic (5.6) je následující:         2 ii i xx xn       1 0 b b =           ii i yx y , (5.8) což je tvar ekvivalentní rovnicím (3.12) , (3.13). Regresní analýza - vícerozměrná 78 5.3 Náhodný vektor a jeho charakteristiky Nyní ještě rozšíříme pojmy střední hodnoty a rozptylu používané doposud pro náhodnou veličinu (skalár), a to pro náhodný vektor: X =             nX X X  2 1 , (5.9) kde složky Xi jsou náhodné veličiny. Střední hodnota E(X) vektorové náhodné veličiny X je vektor středních hodnot jednotlivých složek, tj.: E(X) =             )( )( )( 2 1 nXE XE XE  . (5.10) Rozptyl (variance) Var(X) vektorové náhodné veličiny X je matice: Var(X) = E(X- E(X))T (X - E(X)). (5.11) Rozptyl náhodného vektoru (5.11) je čtvercová matice typu (nn). 5.4 Klasický lineární model O klasickém (vícerozměrném) lineárním regresním modelu hovoříme tehdy, když matice regresorů má nejjednodušší tvar, tj. když je matice tvořena danými hodnotami pozorování vysvětlujících proměnných: ijij xF  , i = 1,2,...,k, j = 1,2,...,n. (5.12) V tom případě má matice regresorů tvar:              knn k k xx xx xx     1 212 111 1 1 1 F . (5.13) U klasického lineárního modelu požadujeme splnění podmínek 1. až 3. z minulé kapitoly, přitom u těchto podmínek nebylo důležité, zda jde o jednoduchý nebo vícerozměrný regresní model: 1. Hodnoty vysvětlujících proměnných X1, X2,...,Xk, tvořící matici regresorů F podle (5.13) se volí předem, nejsou to tedy náhodné veličiny. 2. Reziduum  v modelu (3.5) má normální rozdělení pravděpodobnosti s nulovou střední hodnotou a (neznámým) rozptylem 2 , tj.: E() = 0 , (5.14) Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 79 Var() = 2 I , (5.15) kde symbol I označuje jednotkovou matici. Vztah (5.15) zahrnuje zároveň podmínku 3. z klasického lineárního modelu, viz kapitola 3.5, neboť na diagonále matice Var() jsou rozptyly 2 jednotlivých složek náhodného vektoru  a mimo diagonálu vystupují nulové kovariance těchto složek. V tom případě hovoříme o homoskedasticitě. V opačném případě hovoříme o přítomnosti heteroskedasticity. 3. Vysvětlující proměnné X1, X2,...,Xk, nejsou kolineární, tj. sloupcové vektory matice regresorů (5.13) jsou nekorelované. V opačném případě hovoříme o přítomnosti mul- tikolinearity. 5.5 Míry variability a koeficient determinace Podobně jako u jednoduché regrese, zajímáme se nyní o celkovou variabilitu vysvětlované proměnné, kterou charakterizuje celkový součet čtverců:    n i iy yyS 1 2 . (5.16) Část celkové variability vysvětlenou regresním modelem charakterizuje teoretický součet čtverců:    n i iT yYS 1 2 , (5.17) kde Yi = ),...,,(...),...,,( 2121110 ikiikkikii xxxfbxxxfbb  , bi jsou odhady regresních parametrů získané MNČ. Nevysvětlenou část celkové variability představuje reziduální součet čtverců: SR =    n i ii Yy 1 2 , (5.18) kde iii Yye  je reziduum, tj. odhad náhodné složky i. Mezi jednotlivými součty čtverců platí základní vztah: Sy = ST + SR . (5.19) Obdobně, jako v případě jednoduché regrese, zavedeme analogický pojem, charakterizující přiléhavost dat k regresnímu modelu, koeficient determinace, který definujeme vztahem: y R y T S S S S R  12 . (5.20) Koeficient determinace nabývá hodnoty z intervalu [0,1] a určuje tu část celkové variability pozorovaných hodnot yi, kterou lze vysvětlit daným regresním modelem. Jinak řečeno, po vynásobení koeficientu determinace stem obdržíme, kolik procent celkové variability je vysvětlitelných regresním modelem. Nevychýlený odhad koeficientu determinace 2 adjR , který nazýváme korigovaný (upravený) koeficient determinace, definujeme takto: Regresní analýza - vícerozměrná 80   pn n RRadj    1 11 22 , (5.21) kde p = k+1 označuje počet parametrů v regresním modelu (5.2). 5.6 Intervaly spolehlivosti a testy hypotéz Tento odstavec je přirozeným rozšířením kapitoly 4 pro jednoduchý klasický lineární model, tj. model (3.9) se dvěma parametry 10, . Nyní máme analogický model, avšak s k+1 parametry k ,...,, 10 . Jsou-li splněny předpoklady klasického lineárního modelu (5.5), tj. modelu: iikkiii xxxy   ...22110 , i = 1,2,...,n, (5.22) potom pro rozdělení odhadů regresních koeficientů b b bk0 1, ,..., , jakožto náhodných veličin, platí toto: Regresní koeficient bj má normální rozdělení pravděpodobnosti se střední hodnotou j a rozptylem 2 hjj , kde j = 0,1,...,k, čísla hjj jsou diagonálními prvky matice: H = (FT F)-1 , (5.23) kde matice F je definována vztahem (5.13). V klasickém lineárním modelu předpokládáme, že reziduální složky mají konstantní rozptyl 2 , jeho hodnotu však zpravidla neznáme. Neznámý rozptyl 2 můžeme nahradit jeho bodovým odhadem: pn S s R R  2 , (5.24) který nazýváme v souladu s (5.22) reziduální rozptyl. V reziduálním rozptylu vystupuje v čitateli reziduální součet čtverců (5.18) dělený číslem n – p, což je počet stupňů volnosti, tj. rozsah dat n mínus počet regresních koeficientů v modelu: p = k + 1. Odmocninu reziduálního rozptylu sR nazýváme směrodatná chyba. Oboustranný interval spolehlivosti pro regresní koeficient bj, při zadaném koeficientu spolehlivosti (1 – ), je následující interval: [bj – t1-/2(n–p) pn hS jjR  , bj + t1-/2(n–p) pn hS jjR  ], j = 0,1,...,k. (5.25) Zde t1-/2(n – p) je příslušný kvantil Studentova t-rozdělení, hjj diagonální prvky matice (5.23). Interval (4.23) je speciálním případem intervalu (5.25) v případě k = 1. Bodový odhad regresních koeficientů bj, vypočtený metodou nejmenších čtverců, doplňuje interval spolehlivosti (5.25), který informuje, v jakém rozmezí se regresní koeficient může pohybovat v rámci zadané spolehlivosti v případě jiného náhodného výběru dat (ze stejného základního souboru). Odhadnutý lineární regresní model (3.9), který má tvar: exbxbxbby kk  ...22110 , (5.26) kde e je reziduum, tj. odhad náhodné složky , resp. regresní funkce: kk xbxbxbbY  ...22110 , (5.27) Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 81 má praktický význam zejména při odhadu chování modelu pro nezávisle proměnné nevyskytující se v datech, např. hodnoty x01, x02 ,..., x0k . Model (5.26), resp. regresní funkce (5.27), pak slouží k predikci hodnoty závisle proměnné. Bodový odhad předpovědi získáme dosazením x0 = (x01, x02 ,..., x0k )´ do (5.27): kk xbxbxbbY 002201100 ... . (5.28) Informaci o tom, v jakém rozmezí se predikovaná hodnota vysvětlované proměnné může pohybovat, poskytuje oboustranný interval spolehlivosti: [Y0 – t1-/2(n–p) 0 T 01 HxxRs , Y0 + t1-/2(n–p) 0 T 01 HxxRs ], (5.29) kde H = (FT F)-1 a matice F je definována vztahem (5.13). Ostatní symboly v (5.29) mají stejný význam, jako v intervalu spolehlivosti (5.25). 5.7 Individuální T-testy o hodnotách regresních koeficientů Zjistíme-li metodou nejmenších čtverců, že regresní koeficienty bj jsou nějaká nenulová čísla, musíme mít stále na paměti, že se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda naše původní parametry j nemohou být přesto nulové. Za předpokladů klasického lineárního modelu je možno pro j = 0,1,...,k testovat nulovou hypotézu: H0: j = 0, (5.30) proti oboustranné alternativní hypotéze: H1: j  0. (5.31) Při tomto testu použijeme testové kritérium: jj R j h pn S b t   , (5.32) které má při platnosti H0 t-rozdělení s n – p stupni volnosti, SR je reziduální součet čtverců, hjj jsou diagonální prvky matice H z (5.23), přičemž j = 0,1,...,k, p = k + 1 . Na hladině významnosti  je kritický obor vymezen nerovností: t > )(2/1 pnt  , kde )(2/1 pnt  je příslušný kvantil Studentova t-rozdělení, viz funkce v Excelu TINV. Nemůžeme-li např. na dané hladině významnosti  zamítnout nulovou hypotézu H0: j = 0, pak to znamená, že y nezávisí na xj, jinak řečeno, pro libovolnou hodnotu vysvětlující proměnné xj nabývá vysvětlovaná proměnná y stále stejné hodnoty. 5.8 F-test hypotézy o hodnotách regresních koeficientů V minulém odstavci jste individuálními t-testy zjišťovali vliv jednotlivých vysvětlujících proměnných na vysvětlovanou proměnnou. V tomto odstavci se budeme zabývat testem, který najednou odhalí, zda vůbec existuje nějaká vysvětlující proměnná, která má na vysvětlovanou proměnnou nějaký vliv. Testuje se nulová hypotéza: Regresní analýza - vícerozměrná 82 H0 : 0...21  k , (5.33) proti alternativní hypotéze, že pro alespoň jeden regresní koeficient platí 0j . Testové kritérium: pn S p S T R T    1 (5.34) má Fisherovo rozdělení F s (p – 1) a (n – p) stupni volnosti. Na hladině významnosti  je kritický obor vymezen nerovností: ),1(1 pnpFT   , (5.35) kde ),1(1 pnpF  je příslušný kvantil rozdělení. Pokud hodnota testového kritéria padne do kritického oboru, tedy pokud platí (5.35), potom H0 zamítáme, což znamená, že některá z vysvětlujících proměnných má statisticky významný efekt na vysvětlovanou proměnnou y. Pokud však nulovou hypotézu nelze na dané hladině významnosti zamítnout, pak vysvětlující proměnné xi nemají statisticky významný efekt na y. ŘEŠENÁ ÚLOHA 5.1 Při zjišťování vlivů na pracovní neschopnost zaměstnanců 10 podniků byly získány následující údaje: Průměrný věk (roky) Podíl žen v počtu pracovníků (%) Pracovní neschopnost (%) 37 55 4,4 33 32 0,7 46 59 7,6 34 36 1,8 25 18 0,1 32 47 3,4 38 22 1,6 40 36 3,5 32 29 3,3 41 38 4,7 a. Odhadněte parametry lineární regresní funkce popisující závislost pracovní neschopnosti na průměrném věku zaměstnanců a na podílu žen mezi zaměstnanci. b. Pomocí koeficientu determinace charakterizujte přiléhavost daného regresního modelu k datům. c. Jak se změní pracovní neschopnost zaměstnanců, zvýší-li se jejich průměrný věk o 2 roky při stejném podílu žen? d. Určete 95% intervaly spolehlivosti pro regresní koeficienty b0, b1, b2. Na hladině významnosti  = 0,01 testujte hypotézu 1´= 2 = 0. Řešení: a. Naším úkolem je nalézt regresní koeficienty b0, b1, b2 regresní funkce Y = b0 + b1X1 + b2X2, kde X1 je průměrný věk zaměstnanců, X2 je podíl žen v počtu zaměstnanců. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 83 Regresní koeficienty b0, b1, b2 vypočítáme pomocí metody nejmenších čtverců. Využijeme přitom nejprve maticové symboliky, kterou jsme použili v textu. F =                                 38411 29321 36401 22381 47321 18251 36341 59461 32331 55371 y =                                 7,4 3,3 5,3 6,1 4,3 1,0 8,1 6,7 07 4,4 b            2 1 0 b b b . Vektor b vypočítáme pomocí vztahu (5.7). Matice FT F a FT y mají obecně tvar: FT F               2 2212 21 2 11 21 iiii iiii ii xxxx xxxx xxn , FT y               ii ii i yx yx y 2 1 . Hodnoty potřebné k výpočtu těchto matic jsou uvedeny v následující tabulce: Potom FT F =           1542413745372 1374513128358 37235810 FT y =           7,1374 1,1207 1,31 . K matici FT F musíme vypočítat matici inverzní: Pozorování X1 X2 Y X1 2 X2 2 X1X2 X1Y X2Y 1 37 55 4,4 1369 3025 2035 162,8 242,0 2 33 32 0,7 1089 1024 1056 23,1 22,4 3 46 59 7,6 2116 3481 2714 349,6 448,4 4 34 36 1,8 1156 1296 1224 61,2 64,8 5 25 18 0,1 625 324 450 2,5 1,8 6 32 47 3,4 1024 2209 1504 108,8 159,8 7 38 22 1,6 1444 484 836 60,8 35,2 8 40 36 3,5 1600 1296 1440 140,0 126,0 9 32 29 3,3 1024 841 928 105,6 95,7 10 41 38 4,7 1681 1444 1558 192,7 178,6  358 372 31,1 13128 15424 13745 1207,1 1374,7 Regresní analýza - vícerozměrná 84 (FT F )-1 =              001000100120 001000501310 012013103554 ,,, ,,, ,,, . Vektor b je výsledkem součinu matic (FT F )-1 a FT y: (FT F )-1 FT y            09,0 18,0 59,6 . Hledaná regresní funkce má tvar: Y = 6,59 + 0,18x1 + 0,09x2. b. K tomu, abychom vypočítali determinační koeficient, musíme znát hodnotu teoretického součtu čtverců ST a celkového součtu čtverců Sy. Tyto součty vypočítáme podle vztahů (5.17), (5.16). Pro výpočet teoretického součtu musíme pro každé x1i, x2i, i = 1,…, 10, znát teoretickou hodnotu Yi, i = 1,…,10, např. Y1 vypočítáme takto: Y1 = 6,59 + 0,18x11 + 0,09x22 = 6,59 + 0,1837 + 0,0955 = 5,02 Tato hodnota udává, jaká by měla být teoreticky pracovní neschopnost při průměrném věku zaměstnanců téměř 37 let a podílu žen v počtu pracovníků 55%. Protože však jde o stochastickou závislost, liší se tato hodnota od skutečně zjištěné hodnoty y = 4,4. Všechny teoretické hodnoty Yi jsou uvedeny v následující tabulce. Jednotliví sčítanci i hodnoty součtů Sy a ST jsou rovněž uvedeni v tabulce. Koeficient determinace vypočítáme dosazením do vztahu (3.20): .848,0 49,43 87,362  y T S S R Tato hodnota znamená, že pomocí regresní funkce Y = 6,59 + 0,18x1 + 0,09x2 je vysvětleno 84,8% celkové variability proměnné Y. X1 X2 y Y ( )y y 2 ( )Y y 2 1 37 55 4,4 5,02 1,664 3,648 2 33 32 0,7 2,23 5,808 0,774 3 46 59 7,6 7,00 20,160 15,132 4 34 36 1,8 2,77 1,716 0,116 5 25 18 0,1 0,47 9,060 12,816 6 32 47 3,4 3,40 0,084 0,084 7 38 22 1,6 2,23 2,280 0,774 8 40 36 3,5 3,85 0,152 0,548 9 32 29 3,3 1,78 0,036 1,769 10 41 38 4,7 4,21 2,528 1,210 Součet 358 372 31,1 32,02 43,489 36,872 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 85 c. Velikost změny znaku Y je při změně znaku X1 o jednotku rovna b1. Má-li se tedy zvýšit průměrný věk o 2 roky při nezměněné zaměstnanosti žen X2, zvýší se pracovní neschopnost o 2b1, tj. o 0,36%. d. Obecný tvar těchto intervalů je následující (viz (3.25)): [bi – t1-/2(n–p) pn hS iiR  , bi + t1-/2(n–p) pn hS iiR  ], kde SR je reziduální součet čtverců, t1-/2(n – p) je kvantil t-rozdělení o n – p stupních volnosti, p je počet parametrů regresní funkce, hii prvek matice H = 1 )(  FF . Hodnotu SR vypočítáme ze vztahu: SR = Sy  ST = 43,49  36,87 = 6,62. V tabulce t-rozdělení nalezneme (1-/2) = 97,5% kvantil t-rozdělení o n – p = 10 – 3 = 7 stupních volnosti: 365,2)7(975,0 t , h00 = 4,355; h11 = 0,0051; h22 = 0,001, H = {hij}, i,j = 0,1,2. Dosazením výše vypočítaných hodnot do vztahu pro interval spolehlivosti určíme jeho pravou a levou krajní hodnotu L a P: Pro b0, tj. i = 0: 79,1 7 355,462,6 365,259,6   L , 39,11 7 355,462,6 365,259,6   P . 95% interval spolehlivosti pro regresní koeficient b0 je [1,79;11,39]. Pro b1, tj. i = 1: 016,0 7 0051,062,6 365,218,0   L , 344,0 7 0051,062,6 365,218,0   P . Pak 95% interval spolehlivosti pro regresní koeficient b1 je [0,016; 0,344]. Pro b2 , tj. i = 2: 017,0 7 001,062,6 365,209,0   L , 163,0 7 001,062,6 365,209,0   P . Potom 95% interval spolehlivosti pro regresní koeficient b2 je [0,017; 0,163]. e. Pro ověření hypotézy použijeme F-test. Budeme testovat nulovou hypotézu: H0: 1´= 2 = 0 proti alternativní hypotéze H1: alespoň jedno i je různé od nuly. K ověření nulové hypotézy použijeme testové kritérium (3.34): Regresní analýza - vícerozměrná 86 .49,19 7 62,6 2 87,36 1     pn S p S F R T V tabulce F-rozdělení najdeme (1-)% kvantil F-rozdělení o p – 1 a n – p stupních vol- nosti: F1- 0,01(2,7) = 9,55. Protože je 19,49 > 9,55, zamítáme nulovou hypotézu ve prospěch alternativní hypotézy, což znamená, že regresní parametry jsou vesměs nenulové, a tudíž existuje statisticky významná závislost Y na X1 a nebo X2. Řešení v Excelu. Regresní statistika Násobné R 0,912 Hodnota spolehlivosti R 0,831 (koeficient determinace) Nastavená hodnota spolehlivosti R 0,783 Chyba stř. hodnoty 1,024 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 2 36,155 18,078 17,255 0,002 Rezidua 7 7,334 1,048 Celkem 9 43,489 e) Protože hodnota Významnost F je menší než hladina významnosti 0,01; nulovou hypotézu zamítáme, tzn. že regresní parametry jsou vesměs nenulové. Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 95% Hranice -6,595 2,136 -3,087 0,018 -11,645 -1,544 průměrný věk X1 0,178 0,073 2,441 0,045 0,006 0,351 podíl žen (%) X2 0,089 0,032 2,758 0,028 0,013 0,166 ŘEŠENÁ ÚLOHA 5.2 Následující tabulka obsahuje údaje o tržbách, velikosti výdajů na reklamu a o počtu obchodních zástupců pro 11 firem zabývajících se nákupem a prodejem: Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 87 a. Popište závislost objemu produkce na reklamních výdajích a na počtu obchodních zástupců dvourozměrný lineárním regresním modelem. b. F-testem posuďte významnost tohoto regresního modelu. Uvažujte hladinu význam- nosti  = 0,01. c. Na hladině významnosti  = 0,01 testujte individuální významnost regresního parametru 1. d. Jaký objem produkce lze očekávat, vydá-li firma na reklamu 450 tis. Kč a současně bude mít 50 obchodních zástupců? Určete bodový odhad objemu produkce. Řešení: Regresní statistika Násobné R 0,916 Hodnota spolehlivosti R 0,839 koeficient determinace Nastavená hodnota spolehlivosti R 0,799 Chyba stř. hodnoty 28,434 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Regrese 2 33822,799 16911,399 20,917 0,001 Rezidua 8 6468,110 808,514 Celkem 10 40290,909 b) Hodnota Významnost F je menší než 0,01; model je zvolen správně, zamítáme nulovou hypotézu o nulovosti obou koeficientů Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 63,830 47,652 1,340 0,217 reklamní výdaje (tis.Kč) 0,849 0,224 3,789 0,005 obchodní zástupci 1,076 1,656 0,650 0,534 Reklamní výdaje (tis. Kč) Obchodní zástupci Objem prodeje (mil. Kč) 180 35 260 230 38 310 260 33 280 240 40 300 280 38 340 300 32 380 340 42 410 320 49 440 360 53 400 380 55 430 260 33 310 Regresní analýza - vícerozměrná 88 a) 208118508363 xxY .,.,,  c) Koeficient 84901 ,b je statisticky významný na hladině významnosti 0,01; protože Hodnota P je menší než 0,01. d) 500,33 mil.Kč SHRNUTÍ KAPITOLY V této kapitole jste se seznámili s vícenásobným lineárním regresním modelem. Lineární regresní model byl rozšířen na vícenásobný regresní model lineární v parametrech. Odhady regresních koeficientů byly opět stanoveny metodou nejmenších čtverců, přitom bylo využito maticové symboliky, která usnadňuje práci s vektory a maticemi. Podobně jako v případě jednoduché regrese byly formulovány předpoklady klasického regresního modelu. 5.9 Samostatné úkoly 5.1 Firma sledovala, jak jsou její tržby ovlivněny výdaji na reklamu v různých sdělovacích prostředcích. Výsledky průzkumu jsou uvedeny v následující tabulce. Rádio, TV (tis. Kč) Noviny, časopisy (tis. Kč) Tržby (tis. Kč) 0 16 254 22 29 765 28 30 864 33 35 1001 39 27 911 41 36 1121 49 0 856 55 12 932 60 23 1152 63 34 1403 68 54 1702 a. Určete jednoduchý lineární regresní model popisující závislost obratu na velikosti prostředků vydaných na reklamu v novinách a časopisech. b. Určete dvourozměrný lineární regresní model popisující závislost obratu na velikosti prostředků vydaných na reklamu v novinách a časopisech a na velikosti prostředků vydaných na reklamu v rozhlase a v televizi. c. Pomocí F–testu rozhodněte, je-li vhodné k popisu závislosti používat zvolený vícenásobný lineární model. Uvažujte hladinu významnosti  = 0,05. d. Přispělo významně zavedení další vysvětlující proměnné k zlepšení výstižnosti mo- delu? Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 89 e. Jaký obrat je možné očekávat, vydá-li se na reklamu v tisku 32 tis. Kč a na reklamu v rozhlase a televizi 47 tis. Kč? Proveďte bodový odhad. 5.2 Mezinárodní organizace WHO zjistila údaje o dětské úmrtnosti (v promile) - DÚ, gramotnosti žen (v procentech) - GŽ a HDP na hlavu (v dolarech) - HDP u 64 rozvojových zemí: a. Určete lineární regresní model popisující závislost dětské úmrtnosti na gramotnosti žen a HDP v rozvojových zemích. b. Pomocí F–testu rozhodněte, je-li vhodné k popisu závislosti používat zvolený vícenásobný lineární model. Uvažujte hladinu významnosti  = 0,05. c. Jsou regresní koeficienty modelu statisticky významné? Stanovte jejich intervaly spolehlivosti pro hladinu významnosti  = 0,10. d. Pomocí koeficientu determinace určete přiléhavost dat k modelu. Jak se změní dětská úmrtnost při zvýšení HDP o 1000 USD při stejném stupni negramotnosti žen? Naopak: jak se změní dětská úmrtnost při zvýšení gramotnosti žen o 1 procento při stejné úrovni HDP? DÚ GŽ HDP DÚ GŽ HDP 128 37 1870 142 50 8640 204 22 130 104 62 350 202 16 310 287 31 230 197 65 570 41 66 1620 96 76 2050 312 11 190 209 26 200 77 88 2090 170 45 670 142 22 900 240 29 300 262 22 230 241 11 120 215 12 140 55 55 290 246 9 330 75 87 1180 191 31 1010 129 55 900 182 19 300 24 93 1730 37 88 1730 165 31 1150 103 35 780 94 77 1160 67 85 1300 96 80 1270 143 78 930 148 30 580 83 85 690 98 69 660 223 33 200 161 43 420 240 19 450 118 47 1080 312 21 280 269 17 290 12 79 4430 189 35 270 52 83 270 126 58 560 79 43 1340 12 81 4240 61 88 670 167 29 240 168 28 410 135 65 430 28 95 4370 107 87 3020 121 41 1310 72 63 1420 115 62 1470 128 49 420 186 45 300 27 63 19830 47 85 3630 152 84 420 178 45 220 224 23 530 142 67 560 Regresní analýza - vícerozměrná 90 5.10 Řešení úkolů, výsledky 5.1 a) jednoduchý lineární regresní model Regresní statistika Násobné R 0,658 Hodnota spolehlivosti R 0,433 Nastavená hodnota spolehlivosti R 0,370 Chyba stř. hodnoty 292,354 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Regrese 1 587103,478 587103,478 6,869 0,028 Rezidua 9 769235,250 85470,583 Celkem 10 1356338,727 Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 538,482 195,714 2,751 0,022 Noviny,časopisy (tis.Kč) 17,019 6,494 2,621 0,028 xY .,, 2175539  b) dvourozměrný lineární regresní model Regresní statistika Násobné R 0,992 Hodnota spolehlivosti R 0,985 Nastavená hodnota spolehlivosti R 0,981 Chyba stř. hodnoty 50,634 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Regrese 2 1335828,082 667914,041 260,514 0,000 Rezidua 8 20510,645 2563,831 Celkem 10 1356338,727 Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 87,214 42,969 2,030 0,077 Rádio,TV (tis.Kč) 13,905 0,814 17,089 0,000 Noviny,časopisy (tis.Kč) 12,275 1,158 10,596 0,000 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 91 2271219132187 xxY .,.,,  c) Ano, hodnota Významnost F je menší než 0,05; proto vícenásobný lineární model je vhodný. d) Ano, koeficient determinace se z hodnoty 0,43 zvýšil na hodnotu 0,98. e) 1 133,15 tis.Kč = 1 133 150 Kč 5.2 a) Regresní statistika Násobné R 0,841 Hodnota spolehlivosti R 0,708 Nastavená hodnota spolehlivosti R 0,698 Chyba stř. hodnoty 41,748 Pozorování 64 ANOVA Rozdíl SS MS F Významnost F Regrese 2 257362,373 128681,187 73,833 0,000 Rezidua 61 106315,627 1742,879 Celkem 63 363678,000 20060123264263 xxY .,.,,  b) Ano, hodnota Významnost F je menší než 0,05; proto vícenásobný lineární model je vhodný. c) Oba regresní koeficienty jsou statisticky významné, protože Hodnota P je menší než 0,1. Intervaly spolehlivosti:    00200090281521 ,;,;,;,  bb d) Koeficient determinace je roven 0,71; tzn., že 71% celkové variability je vysvětleno modelem. e) Při zvýšení HDP o 1000 USD při stejném stupni negramotnosti žen klesne dětská úmrtnost o 5,6 promile. Při zvýšení gramotnosti žen o 1%, při stejné úrovni HDP, klesne dětská úmrtnost o 0,22 promile. Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 90,0% Horní 90,0% Hranice 263,642 11,593 22,741 0,000 244,278 283,005 GŽ -2,232 0,210 -10,629 0,000 -2,582 -1,881 HDP -0,006 0,002 -2,819 0,006 -0,009 -0,002 Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 92 6 REGRESNÍ ANALÝZA – VÍCEROZMĚRNÁ: MULTIKOLINEARITA, HETEROSKEDASTICITA, AUTOKORELACE RYCHLÝ NÁHLED KAPITOLY V této kapitole se naučíte identifikovat, analyzovat a odstraňovat problémy, které způsobuje nesplnění hlavních předpokladů klasického vícerozměrného lineárního regresního modelu formulované v kapitole 5.4: multikolinearita, heteroskedasticita a autokorelace. Multikolinearitou tedy rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu. Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita. Jde o vlastnost (5.15), která spočívá v tom, že rozptyl poruchy i v populačním lineárním regresním modelu je konstantní. Autokorelace je korelace mezi pozorováními uspořádanými v čase, (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). Říkáme, že v regresním modelu není přítomná autokorelace, jestliže náhodné veličiny jsou vzájemně nekorelované. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: uvést předpoklady klasického vícerozměrného lineárního modelu, identifikovat multikolinearitu, heteroskedasticitu a autokorelaci v modelu, aplikovat Bartletův test heteroskedasticity v Excelu. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Multikolinearita, heteroskedasticita, autokorelace, Bartletův test heteroskedasticity. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 93 6.1 Co je multikolinearita? Multikolinearitou tedy rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu:   kk xxxy ...22110 . (6.1) Informaci o této vzájemné závislosti poskytuje matice výběrových korelačních koefi- cientů: R =             1 1 1 21 221 112     kk k k rr rr rr . (6.2) Zřejmě je matice (6.2) symetrická, tj. jiij rr  pro všechna i,j. Pokud jsou všechny dvojice vysvětlujících proměnných vzájemně nekorelované, potom platí, že 0 jiij rr , tj. R = I , čili R je jednotkovou maticí. Uvědomte si, že na diagonále matice R musejí být všechny prvky rovny 1, neboť korelace vektoru dat se sebou samým je vždy rovna 1! Jsou-li však alespoň některé nediagonální prvky matice R nenulové, hovoříme o multikolinearitě. Matice R pak není jednotkovou maticí a její determinant je menší než 1. Je-li multikolinearita vysoká, hovoříme o škodlivé multikolinearitě, pak se determinant matice R blíží k nule. V tom případě dává metoda nejmenších čtverců odhady regresních koeficientů s širokými intervaly spolehlivosti, takže výsledky jsou prakticky neupotřebitelné. Na to, kdy je multikolinearita „škodlivá“, existují různé názory, opírající se víceméně o zkušenost. Někteří autoři považují za škodlivou multikolinearitu, když alespoň jeden nediagonální prvek matice R je větší než 0,8. Zjistí-li se škodlivá multikolinearita, je možno postupovat v zásadě dvojím způsobem. Buď vysvětlující proměnnou, která je zdrojem multikolinearity, vypustíme z modelu, nebo doplníme data, eventuálně získáme nový vzorek dat. Škodlivá multikolinearita je totiž často důsledkem „špatného“ vzorku dat. Projevuje se obvykle vysokým koeficientem determinace (blízkým k 1) a zároveň jsou individuální koeficienty statisticky nevýznamné (t-test), model jako celek je naopak statisticky významný (F-test), viz kap. 5.7 a 5.8. Celou záležitost ilustrujeme na řešené úloze. Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 94 ŘEŠENÁ ÚLOHA 6.1 V následující Tabulce 11 jsou uvedeny měsíční výdaje, měsíční příjmy a majetek (v Kč) u 10 českých rodin. Proveďte regresní analýzu měsíčních výdajů rodin v závislosti na měsíčních příjmech a majetku. Vysvětlete dosažené výsledky pomocí jednorozměrné regrese. Tabulka 11: Měsíční výdaje, příjmy a majetek v Kč Řešení: Data z Tabulky 11 uložíme v excelovské tabulce. Známým postupem v menu: Data  Analýza dat...  Regrese, a získáme po vyplnění příslušných políček tento výsledek: V tomto výstupu se vyskytují zdánlivě paradoxní výsledky. Z Tabulky ANOVA vyplývá, že regresní model y = 2943,676 + 0,569x1 – 0,006x2 +  je jako celek statisticky významný (F-test), zatímco individuální regresní koeficienty u proměnných „příjmy“ resp. „majetek“ jsou statisticky nevýznamné, neboť obě odpovídající p- VÝSLEDEK Regresní statistika Násobné R 0,981 Hodnota spolehlivosti R 0,962 Nastavená hodnota spolehlivosti R0,951 Chyba stř. hodnoty 832,660 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 2 1,23E+08 61581370 88,82062 1,06E-05 Rezidua 7 4853260 693322,9 Celkem 9 1,28E+08 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hranice 2943,676 832,579 3,536 0,010 974,940 4912,413 X1 prijmy 0,569 0,847 0,672 0,523 -1,433 2,571 X2 majetek -0,006 0,083 -0,071 0,946 -0,203 0,191 Y výdaje X1 příjmy X2 majetek 8400 9600 100000 7800 12000 120000 10800 14400 150000 11400 16800 170000 13200 19200 200000 13800 21600 225000 14400 24000 246000 16800 26400 264000 18600 28800 392000 18000 31200 322000 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 95 hodnoty (signifikance) jsou větší než 0,05 (0,523 resp. 0,946). Koeficient determinace R2 = 0,962 je vysoký – blízký k 1, což svědčí o vysoké přiléhavosti dat k modelu. Navíc je u regresního koeficientu u proměnné x2 záporné znaménko, což je evidentně v rozporu s intuicí, která říká: čím je větší majetek, tím je vyšší spotřeba rodiny. Tento zdánlivý rozpor je způsoben kolinearitou regresorů, o čemž svědčí jejich korelační matice R =       000,1999,0 999,0000,1 , kterou lze snadno zjistit tak, že vypočítáte 99901202112 , rr pomocí excelovské funkce =CORREL(B4:B13;C4:C13), za předpokladu, že data pro x1 jsou uložena v oblasti B4:B13, data pro x2 jsou uložena v oblasti C4:C13. Vysvětlující proměnné x1 a x2 jsou kolineární, neboť koeficient korelace 99901202112 , rr je blízký k 1. Vypustíme-li nyní jednu z vysvětlujících proměnných, např. x2 – majetek, a provedemeli (jednoduchou) regresi x1 na y, obdržíme s analogickým využitím Excelu tento výsledek: Vidíte, že v novém regresním modelu je regresní koeficient statisticky významný, neboť odpovídající p-hodnota (signifikance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Podobně, vypustíme-li nyní vysvětlující proměnnou x1 – příjem, a provedeme-li (jednoduchou) regresi x2 na y, obdržíme s analogickým využitím Excelu výsledek z následujícího výstupu. Opět vidíte, že v novém regresním modelu je regresní koeficient statisticky významný, neboť odpovídající p-hodnota (signifikance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Navíc je znaménko u regresního koeficientu 0,050 kladné, což je v souhlasu s intuicí, že totiž velikost spotřeby je přímo úměrná velikosti majetku. VÝSLEDEK Regresní statistika Násobné R 0,981 Hodnota spolehlivosti R 0,962 Nastavená hodnota spolehlivosti R0,957 Chyba stř. hodnoty 779,160 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 1,23E+08 1,23E+08 202,8679 5,75275E-07 Rezidua 8 4856727 607090,9 Celkem 9 1,28E+08 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hranice 2934,545 769,658 3,813 0,005 1159,710 4709,381 X1 prijmy 0,509 0,036 14,243 0,000 0,427 0,592 Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 96 6.2 Co je heteroskedasticita? Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita. Jde o vlastnost (5.15), která spočívá v tom, že rozptyl poruchy i v populačním lineárním regresním modelu je konstantní, tj. v modelu y x x xi i i k ik i         0 1 1 2 2 ... , i = 1,2,...,n, (5.1) platí podmínka Var() = 2 I , (5.15) kde symbol I označuje jednotkovou matici. Podmínku (5.15) je možné ekvivalentně vyjádřit také takto E(i 2 ) = 2 , i = 1,2,...,n, (6.3) kde E je známý operátor střední hodnoty. Pokud podmínka (5.15) není splněna, potom hovoříme o heteroskedasticitě. Příklad heteroskedasticity v případě jednorozměrného lineárního regresního modelu je na Obrázku 21. Je zřejmé, že rozptyl hodnoty y se zvětšuje s rostoucí hodnotou x. VÝSLEDEK Regresní statistika Násobné R 0,979614 Hodnota spolehlivosti R 0,959644 Nastavená hodnota spolehlivosti R0,954599 Chyba stř. hodnoty 803,6024 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 1,23E+08 1,23E+08 190,2357 7,37266E-07 Rezidua 8 5166214 645776,8 Celkem 9 1,28E+08 KoeficientyChyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hranice 2880,627 798,404 3,608 0,007 1039,503 4721,750 X2 majetek 0,050 0,004 13,793 0,000 0,042 0,058 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 97 Obrázek 21: Heteroskedasticita v regresním modelu Heteroskedasticita může být způsobena různými příčinami. Častou příčinou heteroskedasticity je fakt, že při postupném sběru dat se technika sběru postupně zlepšuje a chyba se proto zmenšuje. Naopak se chyba zvětšuje s přítomnosti odlehlých hodnot. Dalším zdrojem heteroskedasticity je nesprávná specifikace modelu, např. tím, že jsou opominuty důležité vysvětlující proměnné regresního modelu. Přítomnost heteroskedasticity v regresním modelu je silně nežádoucí, a to zejména z těchto důvodů:  Přítomnost heteroskedasticity způsobuje neplatnost odhadů rozptylů regresních koeficientů a tudíž také odhadů jejich intervalů spolehlivosti a testů hypotéz o jejich statistické významnosti atd., viz kap. 5.6.  Prognózy s využitím regresního modelu obsahujícího heteroskedasticitu jsou často nespolehlivé a dokonce nerealistické. 6.2.1 Jak zjišťovat heteroskedasticitu? Jak poznáme, že v regresním modelu, který jsme sestavili na základě nějakých dat, je přítomna heteroskedasticita? Podobně jako v případě multikolinearity neexistují přesná pravidla, jak detekovat přítomnost heteroskedasticitu, pouze pár heuristických zásad. Velmi často poznáme přítomnost heteroskedasticity z věcné povahy problému. Například je známo, že s rostoucím věkem zaměstnanců se zvětšuje rozptyl jejich platů. Ať je typ závislosti platu na věku lineární nebo ne, bude v modelu přítomna heteroskedasticita. Pokud však nemáme podobné předběžné empirické informace o povaze problému, předpokládáme, že heteroskedasticita není přítomna, že tudíž je rozptyl náhodné složky modelu konstantní. Takové tvrzení pak můžeme podrobit zkoumání např. grafické analýze nebo statistickému testu reziduí ei. S oběma postupy se zde seznámíte. Grafická analýza Zobrazíme si závislost kvadrátu reziduí 2 ie na teoretické hodnotě Yi. Na Obrázku 22 jsou zobrazeny 3 důležité případy tvaru, které mohou nastat, kde Yi = ),...,,(...),...,,( 2121110 ikiikkikii xxxfbxxxfbb  , (6.4) Data a regresní přímka 0 5 10 15 20 25 30 0 5 10 15 20 t yt Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 98 přitom bi jsou odhady regresních parametrů získané MNČ, iii Yye  (6.5) je reziduum, tj. odhad náhodné složky i. 2 ie 2 ie 2 ie a) Yi b) Yi c) Yi Obrázek 22: Závislost 2 ie na Yi Na Obrázku 22 a) hodnota 2 ie v zásadě nezávisí na Yi, což naznačuje, že náhodná složka je konstatntní a tudíž heteroskedasticita není přítomna. Na druhou stranu Obr. 22 b) a c) hodnota 2 ie v zřejmě závisí na Yi, což naznačuje přítomnost heteroskedasticity. Konkrétní tvar závislosti vám dobře potvrdí zobrazení bodového diagramu závislosti yi na vybrané datové hodnoty j-té vysvětlující proměnné xji. Testy heteroskedasticity Detekce heteroskedasticity s pomocí statistického testu hypotézy je obvykle založena na nulové hypotéze, že rozptyly náhodné složky 2 i jsou konstantní, přičemž se analyzují jejich odhady, tj. rezidua 2 ie . V literatuře můžete nalézt podrobné testy heteroskedasticity s názvy jako Parkův test, Glejserův test, Goldfeld-Quandtův test aj., viz např. Gujarati (2003). Tyto statistické testy lze provádět pomocí specializovaných statistických programů, např. SPSS, v Excelu specializované funkce na tyto testy bohužel chybí. My si zde proto ukážeme tzv. Bartletův test heteroskedasticity, který představuje zjednodušený GoldfeldQuandtův test a lze k jeho provedení využít funkce Excelu. Bartletův test Test vychází z rozdělení dat podle velikosti (některé) vysvětlující proměnné – označíme ji X, do dvou částí: xi ≤ xˆ a xi > xˆ , přitom jsou data uspořádána podle X, xˆ je medián z xi . • Testuje se hypotéza o rovnosti rozptylů reziduí v obou částech (v Excelu: Analýza dat, Dvouvýběrový F-test pro rozptyl,…) • Pokud se hypotéza o rovnosti rozptylu reziduí (není přítomna heteroskedasticita) v obou částech zamítá, potom se hypotéza o přítomnosti heteroskedasticity, přijímá (a obráceně). Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 99 Použití Bartletova testu si ukážeme na příkladu. Ještě předtím se budeme zabývat otázkou, jak odstranit zjištěnou heteraskedasticitu, tj. jak modifikovat původní model tak, aby heteraskedasticitu neobsahoval. 6.2.2 Jak odstraňovat heteroskedasticitu? Nejznámější metodou k odstranění heteroskedasticity je metoda vážených nejmenších čtverců MVNČ. V MVNČ předpokládáme určitý typ nekonstantního chování rozptylu náhodné složky. Předpoklad 1: Rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné x, tj. E(i 2 ) = 22 ixσ , i = 1,2,...,n. (6.6) Transformovaný regresní model získáme tak, že regresní rovnici iii εxββy ++= 10 , i = 1,2,...,n, (6.7) vydělíme hodnotou xi , čímž obdržíme i ii i ii i δβ x β x ε β x β x y ++ 1 =++= 101 0 , i = 1,2,...,n, (6.8) kde pro novou náhodnou chybu i platí po dosazení z (6.6) 2 2 2 2 =)(=)( σ x ε EδE i i i , i = 1,2,...,n. (6.9) Provedením transformace i i i x y y =´ , i i x x 1 =´ , i = 1,2,...n. (6.10) obdržíme z (6.8) nový regresní model iii δxββy +´+=´ 01 , i = 1,2,...,n. (6.11) což je nový lineární regresní model podle (6.9) však bez heteroskedasticity. Uvažovali jsme jednoduchý regresní model, avšak rozšíření výše uvedeného postupu na vícerozměrný regresní model je snadné. Předpoklad 1 modifikujeme tak, že rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné xj, tj. E(i 2 ) = 22 ijxσ , i = 1,2,...,n. (6.6) Namísto modelu (6.7) uvažujeme model Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 100 iiii εxβxββy +...+++= 22110 , i = 1,2,...,n. (6.7*) Pro nový vícerozměrný regresní model použijeme namísto transformace (6.10) nová transformovaná data ij i i x y y =´ , jk x x x x x ij ik ik ij ij ≠,=´, 1 =´ , i = 1,2,...,n. (6.10*) Předpoklad 2: Rozptyl náhodné složky je přímo úměrný vysvětlující proměnné x, tj. E(i 2 ) = ixσ2 , i = 1,2,...,n. (6.12) Transformovaný regresní model získáme tak, že regresní rovnici iii εxββy ++= 10 , i = 1,2,...,n, (6.13) vydělíme hodnotou ix , čímž obdržíme ii ii i i ii i xβ x β x ε xβ x β x y ++ 1 =++= 101 0 , i = 1,2,...,n, (6.14) kde pro novou náhodnou chybu i platí po dosazení z (6.12) 2 2 2 =)(=)( σ x ε EE i i i , i = 1,2,...,n. (6.15) Provedením transformace i i i x y y =´ , ii i i xx x x =´´, 1 =´ , i = 1,2,...,n. (6.16) obdržíme z (6.16) nový regresní model iiii xβxβy +´´+´=´ 10 , i = 1,2,...,n, (6.17) což je nový lineární regresní model bez úrovňové konstanty podle (6.15) však bez heteroskedasticity. Rozšíření na vícerozměrný regresní model je možné udělat analogicky jako v případě Předpokladu 1. Odstranění heteroskedasticity si prakticky vyzkoušíte v následující řešené úloze. ŘEŠENÁ ÚLOHA 6.2 V následující tabulce jsou uvedeny příjmy a spotřební výdaje 30 rodin v tis. Kč/rok. Vytvořte lineární regresní model závislosti výdajů na příjmech, graficky a statistickým testem Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 101 zjistěte přítomnost heteroskedasticity. Z původního modelu pak heteroskedasticitu odstraňte pomocí MVNČ. Použijte přitom Excel. Řešení: V Excelu vytvoříme z daných údajů graf: XY bodový a pomocí pravého tlačítka iniciujeme nabídku s volbou Přidat spojnici trendu... V podnabídce Možnosti zaklikneme 2 položky: Zvolit rovnici regrese a Zvolit koeficient spolehlivosti (tj. koeficient determinace). Obdržíme výsledek, z něhož vyplývá lineární regresní model: y = 9,29 + 0,64.x + . Dále vedle sloupce yi vytvoříme pomocí vzorce regresní rovnice sloupec teoretických hodnot Yi. Další sloupec vytvoříme jako rozdíl sloupců yi a Yi, což bude sloupec reziduí. Poslední sloupec bude druhá mocnina reziduí. Společně pak vytvoříme XY bodový graf mezi Yi a 2 ie . Výsledkem je následující graf na Obr. 23, který napovídá přítomnost heteroskedasticity, neboť body v grafu netvoří pás rovnoběžný s vodorovnou osou, jako na Obr. 22 a), ale spíše kužel, jako na Obr. 22 b). č.rodiny Výdaje Příjmy č.rodiny Výdaje Příjmy 1 66 80 16 115 180 2 65 100 17 120 225 3 70 85 18 100 170 4 80 110 19 145 240 5 79 120 20 110 185 6 84 115 21 172 220 7 98 130 22 200 230 8 95 140 23 175 245 9 90 125 24 140 260 10 75 90 25 135 190 11 74 105 26 140 205 12 110 160 27 155 200 13 113 150 28 230 270 14 125 165 29 137 230 15 108 145 30 145 290 Závislost e2 na Y 0,00 500,00 1000,00 1500,00 2000,00 2500,00 3000,00 3500,00 50 70 90 110 130 150 170 190 210 230 Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 102 Obrázek 23: Kužel závislosti 2 ie na iY K exaktnímu prokázání heteroskedasticity použijeme Bartletův test. Podle rostoucích hodnot X – Příjmů seřadíme hodnoty reziduí a z nich vytvoříme dva stejně velké soubory e1 a e2: Budeme testovat, zda rozptyly obou souborů jsou stejné pomocí F-testu z Excelu: V menu: Data  Analýza dat  Dvouvýběrový F-test pro rozptyl zadáme umístění oblastí sloupců e1 a e2, eventuální popisky a oblast výstupu. Obdržíme výstup: V tomto výstupu je důležitá P-hodnota: P(F<=f) (1) = 3,89 E-07 = 0,000000389 < 0,05. Na hladině  = 0,05 proto nulovou hypotézu Ho: „Rozptyly obou uvažovaných souborů jsou stejné“ zamítáme. Uvažované soubory mají různý rozptyl, což znamená, že rozptyl náhodné složky regresního modelu není konstantní, neboli že heteroskedasticita je v modelu přítomna. Nakonec ukážeme, jak přítomnou heteroskedasticitu odstranit. V Obr. 23 se body grafu nacházejí v „lineárním kuželu“, proto zvolíme pro transformaci Předpoklad 2. Příjmy e1 Příjmy e2 80 1,99 170 -8,09 85 -10,83 180 -29,68 90 3,03 185 -17,19 100 -1,74 190 -13,54 105 -8,65 200 -16,05 110 -0,69 205 25,28 115 4,45 220 47,37 120 -4,46 225 13,51 125 -0,60 230 -30,36 130 5,08 230 6,00 140 -4,78 240 2,14 145 -1,28 245 20,09 150 7,63 260 53,74 160 10,77 270 -15,63 165 5,58 290 -43,08 Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota 0,366225 -0,366225 Rozptyl 35,88461 792,7791 Pozorování 15 15 Rozdíl 14 14 F 0,045264 P(F<=f) (1) 3,89E-07 F krit (1) 0,402621 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 103 Transformace podle (6.16): i i i x y y =´ , ii i i xx x x =´´, 1 =´ , i = 1,2,...,30. obdržíme nový regresní model iiii xxy +´´59,0+´75,16=´ 1 , i = 1,2,..., 30, který je bez heteroskedasticity. 6.3 Co je autokorelace? Autokorelace je korelace mezi pozorováními uspořádanými v čase (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). Říkáme, že v regresním modelu není přítomná autokorelace, jestliže náhodné veličiny jsou vzájemně nekorelované, symbolicky to lze vyjádřit takto E(i.j) = 0 , i  j, i,j = 1,2,...,n. (6.18) Jestliže naopak existuje dvojice indexů i  j, přičemž platí E(i.j)  0, řekneme, že v regresním modelu je přítomna autokorelace. Autokorelace se nejčastěji vyskytuje v regresních modelech založených na datech ve formě časových řad. Potom indexy i, (resp. j) představují časové okamžiky t. Časovým řadám a jejich analýze se budou věnovat následující kapitoly 8 až 12, kde bude podrobněji pojednáno také o autokorelaci. Následující Obrázek 24 dává příklad dvou regresních modelů dat, z nichž jeden je správně specifikován (nelineární regresní model – černá křivka), druhý je nesprávně specifikován (lineární regresní křivka – červená přímka). Nesprávná specifikace modelu způsobuje, že rezidua jsou vzájemně korelována, což se projevuje tak, že datové body leží vždy ve větší oblasti podél vodorovné osy na jedné straně regresní křivky, zatímco v případě nekorelovaných reziduí leží datové body rovnoměrně po obou stranách regresní křivky v celé oblasti vodorovné osy (tj. nezávisle proměnné). č.rodiny y´ x´ x´´ č.rodiny y´ x´ x´´ 1 7,379 0,112 8,944 16 8,572 0,075 13,416 2 6,500 0,100 10,000 17 8,000 0,067 15,000 3 7,593 0,108 9,220 18 7,670 0,077 13,038 4 7,628 0,095 10,488 19 9,360 0,065 15,492 5 7,212 0,091 10,954 20 8,087 0,074 13,601 6 7,833 0,093 10,724 21 11,596 0,067 14,832 7 8,595 0,088 11,402 22 13,188 0,066 15,166 8 8,029 0,085 11,832 23 11,180 0,064 15,652 9 8,050 0,089 11,180 24 8,682 0,062 16,125 10 7,906 0,105 9,487 25 9,794 0,073 13,784 11 7,222 0,098 10,247 26 9,778 0,070 14,318 12 8,696 0,079 12,649 27 10,960 0,071 14,142 13 9,226 0,082 12,247 28 13,997 0,061 16,432 14 9,731 0,078 12,845 29 9,034 0,066 15,166 15 8,969 0,083 12,042 30 8,515 0,059 17,029 Regresní analýza – vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 104 Obrázek 24: Autokorelace: špatná a správná specifikace modelu SHRNUTÍ KAPITOLY Tato kapitola se věnovala identifikaci a analýze problémů, které způsobuje nesplnění hlavních předpokladů klasického vícerozměrného lineárního regresního modelu. Jednalo se o multikolinearitu, heteroskedasticitu a autokorelaci. Multikolinearitou rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu. Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita, která spočívá v tom, že rozptyl poruchy i v populačním lineárním regresním modelu je konstantní. Autokorelace je korelace mezi pozorováními uspořádanými v čase, (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). 6.4 Samostatné úkoly 6.1 V následující tabulce jsou uvedeny hodnoty obratu, výdajů na vědu a výzkum (VaV) a zisku za 18 průmyslových odvětví v USA v roce 1990. Vytvořte lineární regresní model závislosti zisku na obratu a výdajích na VaV. Zjistěte, zda je v modelu přítomna multikolinearita a heteroskedasticita. Použijte postupy, které jste se naučili v této kapitole. Správná specifikace modelu Špatná specifikace modelu Obrat VaV Zisk 6375,3 62,5 185,1 11626,4 92,9 1569,5 14655,1 178,3 276,8 21869,2 258,4 2828,1 26408,3 494,7 225,9 32405,6 1083,0 3751,9 35107,7 1620,6 2884,1 40295,4 421,7 4645,7 70761,6 509,2 5036,4 80552,8 6620,1 13869,9 95294,0 3918,6 4487,8 101314,1 1595,3 10278,9 116141,3 6107,5 8787,3 122315,7 4454,1 16438,8 141649,9 3163,8 9761,4 175025,8 13210,7 19774,5 230614,5 1703,8 22626,6 293543,0 9528,2 18415,4 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 105 6.5 Řešení úkolů, výsledky 6.1 236901069054791 xxY .,.,,  x1…obrat; x2…výdaje na VaV; koeficient 36902 ,b není statisticky významný Korelační koeficient = 0,9 je statisticky významný na hladině významnosti 0,01. V modelu je přítomna multikolinearita. Závislost zisku na obratu: 108085862 xY .,,  Koeficient 0,08 je statisticky významný. Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota -809,8808 809,8807591 Rozptyl 1219536 20761396,39 Pozorování 9 9 Rozdíl 8 8 F 0,058741 P(F<=f) (1) 0,000289 F krit (1) 0,290858 Nulovou hypotézu: rozptyly obou souborů jsou stejné, zamítáme, rozptyl náhodné složky není konstantní, neboli heteroskedasticita je v modelu přítomna. Závislost zisku na VaV: 241113817 xY .,,  Koeficient 1,4 je statisticky významný. Nulovou hypotézu: rozptyly obou souborů jsou stejné, nezamítáme, rozptyl náhodné složky je konstantní, neboli heteroskedasticita není v modelu přítomna. (hladina významnosti 0,01) Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota -1348,771 1348,770762 Rozptyl 7292620 43919891,06 Pozorování 9 9 Rozdíl 8 8 F 0,166044 P(F<=f) (1) 0,010033 F krit (1) 0,290858 Základy analýzy časových řad 106 7 ZÁKLADY ANALÝZY ČASOVÝCH ŘAD RYCHLÝ NÁHLED KAPITOLY Důležitým nástrojem ke zkoumání dynamiky ekonomických procesů je analýza časových řad. Časovou řadou přitom rozumíme věcně a prostorově srovnatelná pozorování uspořádaná v čase směrem od minulosti přes přítomnost k budoucnosti. Obsahem této kapitoly je objasnit typizaci ekonomických časových řad, vysvětlit elementární charakteristiky časových řad, uvést základní modely časových řad a popsat jejich složky. Analýza časových řad je vedena snahou po vysvětlení minulosti a předvídání budoucnosti, v ekonomické oblasti se jedná o vývojové trendy ukazatelů hospodářské činnosti. Analýza časových řad jako soubor metod a postupů nabízí širokou škálu nástrojů a technik. Ke klasickým analytickým postupům založeným na regresi z předchozích kapitol a syntetickým přístupům založeným na technikách vyrovnání časových řad, přistupuje moderní, výpočetně náročnější Box - Jenkinsova metodologie. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: uvést typy ekonomických časových řad, vypočítat hodnoty očištěné časové řady, vypočítat základní charakteristiky časových řad. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 60 minut. KLÍČOVÁ SLOVA KAPITOLY Časová řada, diference časové řady, koeficient růstu, očištěná hodnota časové řady. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 107 7.1 Typy ekonomických časových řad Důležitým nástrojem ke zkoumání dynamiky ekonomických procesů je analýza časových řad. Časovou řadou přitom rozumíme věcně a prostorově srovnatelná pozorování uspořádaná v čase směrem od minulosti přes přítomnost k budoucnosti. Časové řady členíme následujícím způsobem:  podle charakteru časové řady na intervalové časové řady a okamžikové časové řady,  podle periodicity, s jakou jsou sledovány, na krátkodobé časové řady (méně než roční periodicita), střednědobé časové řady (roční periodicita) a dlouhodobé časové řady (delší, než roční periodicita),  podle druhu sledovaných ukazatelů (údajů) na časové řady absolutních ukazatelů a časové řady odvozených ukazatelů. Intervalovou časovou řadou se rozumí časová řada intervalového ukazatele ty , tj. ukazatele, jehož velikost (hodnota) závisí na délce intervalu, za který je sledován. Pro ukazatele tohoto typu je možné tvořit součty, z jejich povahy však vyplývá, že se vztahují ke stejně dlouhým časovým intervalům, jinak by byly hodnoty vzájemně nesrovnatelné. Není např. správné srovnávat výrobu za leden a únor, neboť únor je z hlediska počtu pracovních dní kratší. Abychom zajistili srovnatelnost, přepočítáváme všechna sledovaná období na stejný časový interval. Tato operace se nazývá očišťování časových řad od kalendářních variací. Údaje očištěné časové řady )0( ty dostaneme z hodnoty očišťovaného ukazatele ty takto: t t tt k k yy =)0( , (7.1) kde tk je průměrný počet dnů v příslušném dílčím období, tk je skutečný počet dnů v příslušném dílčím období t. Okamžikovou časovou řadou rozumíme časovou řadu ukazatelů, které se vztahují k určitému okamžiku, např. počátku nebo konci určitého časového intervalu (období). Protože součet za několik za sebou jdoucích okamžikových hodnot obvykle nemá reálný smysl, shrnují se řady tohoto typu pomocí chronologického průměru. Pro dané ekvidistantní (stejně vzdálené) časové okamžiky t1, t2,...,tn , ke kterým přísluší hodnoty okamžikových ukazatelů y1,y2,...,yn je prostý chronologický průměr definován jako aritmetický průměr z aritmetických průměrů vždy dvou po sobě jdoucích hodnot, tedy: 1 2 ... 22 13221         n yyyyyy y nn ch , (7.2) Základy analýzy časových řad 108 Není-li délka mezi jednotlivými časovými okamžiky stejná, definujeme vážený chronologický průměr, kde vahami jsou délky jednotlivých časových intervalů dk = tk+1 - tk , k = 1,2,...,n –1: 121 1 1 2 32 1 21 ... 2 ... 22           n n nn ch ddd d yy d yy d yy y . (7.3) Časový rozdíl mezi časovými okamžiky, tedy délka časového intervalu v okamžikové časové řadě, se nazývá periodicita časové řady. Je-li periodicita ekonomických časových řad kratší než jeden rok, hovoříme o krátkodobých časových řadách. Nejčastější periodicitou je měsíční periodicita. Je-li periodicita roční, hovoříme často o střednědobých časových řadách, při delší periodicitě, např. pětileté, hovoříme o dlouhodobých časových řadách. Časovou řadou absolutních hodnot se obvykle rozumí časová řada přímo zjištěných údajů (v naturálních jednotkách) očištěná od kalendářních variací. Odvozené údaje a z nich vytvořené časové řady získáme obvykle matematickými operacemi z absolutních údajů. Většinu důležitých ekonomických časových řad tvoří časové řady ukazatelů vyjádřených v peněžní formě. Vzhledem ke změnám cenové hladiny, které jsou v tržní ekonomice přirozené, však v delší časové řadě často dostáváme posloupnost údajů, které nejsou vždy zcela souměřitelné. Proto důležitým problémem v analýze časových řad je srovnatelnost údajů, konkrétně cenová srovnatelnost. Při sestavování delší časové řady je možno v zásadě postupovat dvojím způsobem: použít běžné ceny a vyjádřit z nich absolutní objem určitého ukazatele, resp. tempa růstu, nebo vycházet ze stálých cen, tj. cen fixovaných k určitému datu. Používání stálých cen v ekonomice vede ke zmírnění negativních tendencí v účinnosti základních fondů vyplývajících z vlivu technického rozvoje na výrobu, dále vede ke zreálnění výsledků hospodářského vývoje vzhledem k mezinárodnímu srovnání. Vývoj základních ekonomických ukazatelů v České republice je možné sledovat jednak za jednotlivé roky ve statistických ročenkách, jednak podle jednotlivých měsíců ve statistických přehledech a bulletinech vydávaných Českým statistickým úřadem. Pro potřeby vrcholového řízení ve firmách a podnicích slouží především údaje o vývoji základních ukazatelů podle měsíců, neboť jde o informace s určitým vztahem k okamžité odezvě v chování ekonomických subjektů, ať už výrobců, nebo spotřebitelů. Jsou to zejména informace o inflaci (index spotřebitelských cen a indexy životních nákladů), dále informace o peněžních příjmech a výdajích obyvatelstva, o celkovém prodeji v maloobchodě, průmyslové, zemědělské a stavební výrobě a též údaje o nezaměstnanosti. Bohatým zdrojem informaci a dat jsou webové stránky Českého statistického úřadu (ČSÚ), www.czso.cz případně Statistického úřadu Evropské komise EUROSTAT: http://epp.eurostat.ec.europa.eu . Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 109 7.2 Elementární charakteristiky časových řad Mezi elementární metody analýzy časových řad patří vizuální analýza chování ukazatele využívající grafů spolu s určováním elementárních statistických charakteristik, ke kterým patří absolutní diference různého řádu a koeficient růstu časové řady. Označíme-li yt hodnoty určitého ukazatele v čase t = 1,2,...,n (např. v jednotlivých měsících), potom absolutní diferencí prvního řádu rozumíme rozdíl: ( )1 1y y yt t t   , t = 2,3,...,n. (7.4) Obdobně lze definovat absolutní diference vyšších řádů - druhého, třetího, atd.:   ( ) ( ) ( )2 1 1 1y y yt t t   = y y yt t t  2 1 2 , t = 3,4,...,n,   ( ) ( ) ( )3 2 2 1y y yt t t   = y y y yt t t t    3 31 2 3 , t = 4,5,...,n, atd. Další používanou elementární charakteristikou je koeficient růstu, který udává, o kolik procent vzrostla hodnota časové řady v daném časovém okamžiku oproti období v předchozím časovém okamžiku: k y yt t t  1 , t = 2,3,...,n. (7.5) Při hodnocení vývoje za celou analyzovanou řadu zjišťujeme souhrnné charakteristiky – průměrný absolutní přírůstek:        1 1 1 1 1 2n y y y n n tt n ( ) , (7.6) a průměrný koeficient růstu: k k k k y yn n n n   2 3 1 1 1... . (7.7) Jak průměrný absolutní přírůstek, tak průměrný koeficient růstu závisí pouze na první a poslední hodnotě časové řady. Průměrný absolutní přírůstek ukazuje, o kolik by se měl ukazatel pravidelně měnit (v absolutních jednotkách), aby se hodnota ukazatele změnila z původní první hodnoty y1 na poslední hodnotu yn. Naproti tomu průměrný koeficient růstu poskytuje informaci, o kolik procent by se měla hodnota ukazatele měnit, tj. jaká by měla být rychlost růstu (poklesu), aby se hodnota ukazatele změnila z původní první hodnoty y1 na poslední hodnotu yn. Základy analýzy časových řad 110 7.3 Modely ekonomických časových řad Modelový přístup k analýze časových řad bude vycházet z předpokladu, že jediným faktorem dynamiky ukazatele v časové řadě je čas. Ostatní faktory působící na hodnotu ukazatele budeme většinou zanedbávat. Model časové řady tohoto typu můžeme zapsat ve formě:  tt tfy , , (7.8) kde yt je hodnota analyzovaného ukazatele v čase t, f je určitá funkce (typ závislosti), t je časová proměnná, t je hodnota náhodné složky. Modely časových řad založené na výše uvedeném principu se nazývají jednorozměrné modely. Každá časová řada může obsahovat 4 složky, které vyjadřují různé druhy pohybu analyzovaného ukazatele:  trendovou složku (trend) Tt,  sezónní složku St,  cyklickou složku Ct,  náhodnou složku t . Trendová, sezónní a cyklická složka tvoří společně systematickou (deterministickou) složku, kterou značíme Yt , tj. tttt CSTY  . Zpravidla se uvažuje, že složky Yt jsou v aditivním vztahu, takže model časové řady můžeme zapsat ve tvaru: ttttt CSTy  . (7.9) V tom případě mluvíme o aditivním modelu časové řady. V ekonomických časových řadách se nejčastěji setkáváme se dvěma speciálními případy modelu (7.9). U střednědobých modelů (s roční periodicitou) se obvykle předpokládá 0 tt CS , pak model časové řady (7.9) má tvar: ttt Ty  . (7.10) U krátkodobých modelů časových řad (s čtvrtletní nebo měsíční periodicitou) se předpokládá, že 0tC , a tedy model (7.9) má tvar: tttt STy  , (7.11) mluvíme pak o časové řadě se sezónní složkou. Vedle aditivního modelu (8.9) je multiplikativní model založen na předpokladu, že vzájemný vztah jednotlivých složek obsažených v modelu je dán vzájemným násobením: ttttt CSTy  . (7.12) Popis a kvantifikace jednotlivých složek modelu časové řady patří k hlavním úkolům analýzy časových řad. ŘEŠENÁ ÚLOHA 8.1 V tabulce jsou uvedeny průměrné měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B v letech 2009-2017. Pro tuto časovou řadu vypočítejte: a. absolutní přírůstky a průměrný absolutní přírůstek, b. koeficienty růstu a průměrný koeficient růstu. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 111 Roky 2009 2010 2011 2012 2013 2014 2015 2016 2017 Mzda 2980 3110 4500 5650 7460 8930 10670 12820 13250 Řešení: a. Absolutní přírůstky vypočítáme podle vztahu (7.4): ( )1 2 2 1y y y   3110  2980 = 130, atd. Výsledek říká, že průměrné měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B stouply v letech 2009-2010 o 130 Kč. Všechny absolutní přírůstky jsou uvedeny v následující tabulce. Průměrný absolutní přírůstek je podle (7.6): ., n yyn 751283 8 298013250 1 1       b. Koeficienty růstu vypočítáme podle vztahu (7.5). Např.: k y y2 2 1 3110 2980 10436   , . Průměrné měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B vzrostly v letech 2009- 2010 o 4,36%. Hodnoty ostatních koeficientů růstu jsou uvedeny v následující tabulce. Průměrný koeficient růstu vypočítáme podle (7.7): .205,1 2980 1325081 1  n n y y k Výsledek ukazuje, že měsíční výdaje na vzdělávání zaměstnanců ve firmě A+B rostly ročně v průměru o 20,5%. Roky 2009 2010 2011 2012 2013 2014 2015 2016 2017 Mzda 2980 3110 4500 5650 7460 8930 10670 12820 13250 y)1( Δ  130 1390 1150 1810 1470 1740 2150 430 k . 1,04 1,45 1,26 1,32 1,20 1,19 1,20 1,03 SHRNUTÍ KAPITOLY Obsahem této kapitoly bylo objasnit typizaci ekonomických časových řad, vysvětlit elementární charakteristiky časových řad, uvést základní modely časových řad a popsat jejich složky. Časová řada se dá rozložit na čtyři složky. Jedná se o složku trendovou, sezónní, cyklickou a náhodnou. Cyklickou složku v ekonomických časových řadách zanedbáváme, protože popisuje jevy, které se opakují za období delší než 1 rok. V případě, že se jednotlivé složky sčítají, tak se jedná o aditivní model, v případě násobení jednotlivých složek mluvíme o multiplikativním modelu. Analýza časových řad je vedena snahou po vysvětlení minulosti a předvídání budoucnosti, v ekonomické oblasti se jedná o vývojové trendy ukazatelů hospodářské činnosti. Základy analýzy časových řad 112 7.4 Samostatné úkoly 7.1 V tabulce jsou uvedeny počty prodaných automobilů v autocentru A+A v letech 2010 až 2017. Pro tuto časovou řadu vypočítejte: a) absolutní přírůstky a průměrný absolutní přírůstek b) koeficienty růstu a průměrný koeficient růstu. Rok 2010 2011 2012 2013 2014 2015 2016 2017 Počet 120 159 167 175 197 172 199 240 7.2 Uvedené údaje v tabulce zachycují zisk firmy v tis. Kč v letech 2011-2017. Pro tuto časovou řadu vypočítejte: a) absolutní přírůstky a průměrný absolutní přírůstek b) koeficienty růstu a průměrný koeficient růstu. 7.5 Řešení úkolů, výsledky 7.1 Rok Počet Abs.přírůstky Koeficienty růstu 2010 120 xxx xxx 2011 159 39 1,325 2012 167 8 1,050 2013 175 8 1,048 2014 197 22 1,126 2015 172 -25 0,873 2016 199 27 1,157 2017 240 41 1,206 Průměrný absolutní přírůstek je podle (7.6): .,1417 Průměrný koeficient růstu vypočítáme podle (7.7): .,1041k Počet prodaných automobilů rostl ročně v průměru o 10,4%. Rok 2011 2012 2013 2014 2015 2016 2017 Počet 1303,6 1381,1 1447,7 1432,8 1401,3 1390,6 1433,8 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 113 7.2 Rok Počet Abs.přírůstky Koeficienty růstu 2011 1303,6 xxx xxx 2012 1381,1 77,5 1,059 2013 1447,7 66,6 1,048 2014 1432,8 -14,9 0,990 2015 1401,3 -31,5 0,978 2016 1390,6 -10,7 0,992 2017 1433,8 43,2 1,031 Průměrný absolutní přírůstek je podle (7.6): 7,21=Δ tis. Kč. Průměrný koeficient růstu vypočítáme podle (7.7): .016,1=k Zisk firmy rostl ročně v průměru o 1,6 %. Analýza trendu časových řad 114 8 ANALÝZA TRENDU ČASOVÝCH ŘAD RYCHLÝ NÁHLED KAPITOLY V této kapitole se budete zabývat trendovou složkou časové řady, která představuje nejdůležitější komponentu analyzované časové řady. Proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. Vycházíme přitom z předpokladu, že jediným faktorem vývoje dynamiky analyzovaného ukazatele je čas. Trendová složka totiž poskytuje rozhodující informaci pro prognózování hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Z velkého množství používaných trendových funkcí se zaměříme na několik z nich, které mají význam především v ekonomických aplikacích. Jsou to: lineární trend, parabolický trend, exponenciální trend, logistický trend a Gompertzův trend. Syntetický přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemusíte proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózování hodnot časové řady. Z existujících metod syntetického přístupu uvedeme metody klouzavého průměru a exponenciální vyrovnání. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: uvést přístupy používané k určení trendové složky, napsat lineární, kvadratickou, exponenciální a logaritmickou trendovou funkci, vztahy pro výpočet odhadů parametrů lineární trendové funkce, vypočítat koeficient determinace, vyrovnat časovou řadu klouzavými průměry, použít pro vyrovnání časové řady exponenciální vyrovnání. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 115 ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 120 minut. KLÍČOVÁ SLOVA KAPITOLY Trendová složka, lineární trendová funkce, koeficient determinace, klouzavé průměry, koeficient korelace. 8.1 Trendová složka časových řad Jak již bylo v průvodci studiem řečeno, v této kapitole vycházíme z předpokladu, že jediným faktorem vývoje dynamiky analyzovaného ukazatele je čas t. Jednoduchý způsob volby časové proměnné spočívá v jejím zavedení tak, že časová řada začíná v okamžiku 1, ke kterému se vztahuje první člen analyzované časové řady y1. Další časové okamžiky označujeme po řadě přirozenými čísly 2,3,...,n. Symbol n označuje poslední uvažovaný časový okamžik a zároveň i počet uvažovaných časových okamžiků. Jiný jednoduchý a výhodný způsob označení časové proměnné spočívá v zavedení nové časové proměnné t´ následujícím způsobem:   t t t( ) , (8.1) je-li počet členů časové řady n lichý, pak 2 1+ = n t , jak ukazuje Tabulka 12, nebo   t t t2( ), (8.2) je-li počet členů n sudý, jak ukazuje Tabulka 13. Nová časová proměnná splňuje důležitý požadavek: ∑ 1= ′ n t t = 0 . (8.3) Tabulka 12: Transformovaná proměnná při lichém časová n Rok 2011 2012 2013 2014 2015 2016 2017 t 1 2 3 4 5 6 7 t´ -3 -2 -1 0 1 2 3 Tabulka 13: Transformovaná časová proměnná při sudém n Rok 2012 2013 2014 2015 2016 2017 t 1 2 3 4 5 6 t´ -5 -3 -1 1 3 5 Analýza trendu časových řad 116 Dále uvedené vztahy pro výpočet odhadů teoretických hodnot parametrů jsou uváděny po zavedení transformací v Tabulkách 12 a 13. Trendová složka představuje nejdůležitější komponentu analyzované časové řady, a proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. Trendová složka totiž poskytuje rozhodující informaci pro prognózování hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Syntetický přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě (tzv. vyrovnání) tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemusíme proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózování hodnot časové řady. Z existujících metod syntetického přístupu uvedeme metody klouzavého průměru a exponenciální vyrovnání. 8.2 Trendové funkce Z velkého množství používaných trendových funkcí se zaměříme na několik z nich, které mají význam především v ekonomických aplikacích. Jsou to: lineární trend, parabolický trend, exponenciální trend, logistický trend a Gompertzův trend. Výhodou těchto trendových funkcí je to, že je lze snadno použít pro účely prognózování. Nevýhodou je fakt, že typ trendové funkce musíme stanovit předem na základě externích, mnohdy subjektivních předpokladů a informací. Nejužívanější metodou odhadu neznámých parametrů trendové funkce je metoda nejmenších čtverců (MNČ), s níž jsme se setkali již v kapitole 3. Zde tuto metodu aplikujeme na speciální typ jednoduché regrese pro data ve formě ekonomické časové řady, tedy případ, kdy nezávisle proměnnou je čas a závisle proměnnou tvoří sledovaný ekonomický ukazatel. Kromě metody nejmenších čtverců pro nelineární trendové funkce uvedeme alternativní metodu vybraných bodů (MVB). 8.2.1 Lineární trend Nejčastěji používanou trendovou funkcí je lineární trendová funkce: T tt   0 1 , (8.4) kde 10,  jsou neznámé parametry a t = 1,2,...,n je časová proměnná. Odhady neznámých parametrů, které označujeme 10 ,bb , získáme metodou nejmenších čtverců, která dává nejlepší nestranné odhady. V souladu s postupem z kapitoly 3 je zapotřebí vyřešit 2 normální rovnice (3.12), kde xi nahradíme t : Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 117   tbnbyt 10 , (8.5)    2 10 tbtbtyt . (8.6) Použijeme-li nyní časové transformace (8.1), (8.2) a s využitím vztahu (8.3) dostaneme jednoduché řešení normálních rovnic (8.5), (8.6): n y b t0 ,  21      t yt b t . (8.7) Parametr b0 interpretujeme jako aritmetický průměr hodnot časové řady, parametr b1 udává, jaký přírůstek hodnoty Tt odpovídá jednotkovému přírůstku proměnné t. ŘEŠENÁ ÚLOHA 8.1 V následující tabulce jsou uvedeny počty prodaných automobilů v autocentru A+A v letech 2010 až 2017. Pro tuto časovou řadu vypočítejte: Rok 2010 2011 2012 2013 2014 2015 2016 2017 Počet 120 159 167 175 197 172 199 240 a. Trend v prodeji automobilů popište lineární trendovou funkcí. b. Jaký počet prodaných automobilů lze očekávat v roce 2018 s 95% pravděpodobností? (Stanovte bodový odhad a 95%-ní interval spolehlivosti prognózy.) c. Stanovte koeficient determinace a na jeho základě určete přiléhavost dat k trendové funkci. Řešení: a. Podle vztahu (8.2) zavedeme novou časovou proměnnou t (viz následující tabulka). Rok t´ yt t´2 tyt ′ Tˆ ( )2 Ty  ( )2 yy 2010 -7 120 49 -840 133,818 190,937 3436,891 2011 -5 159 25 -795 146,620 153,264 385,141 2012 -3 167 9 -501 159,422 57,426 135,141 2013 -1 175 1 -175 172,224 7,706 13,141 2014 1 197 1 197 185,026 143,377 337,641 2015 3 172 9 516 197,828 667,086 43,891 2016 5 199 25 995 210,630 135,257 415,141 2017 7 240 49 1680 223,432 274,499 3766,891 Součet 0 1429 168 1077 1629,552 8533,875 Analýza trendu časových řad 118 Odhady b0, b1 parametrů 0, 1 trendové funkce: ,,,, 35710  ttTt  vypočítáme podle vztahů: 625,178 8 1429 0   n y b t , .410,6 168 1077 21       t yt b t Odhadnutá trendová funkce má tvar: Tˆ = 178,625 + 6,41t , t = 7, 5, 3, … b. Očekávaný prodej v roce 2018 vypočítáme dosazením t´, které odpovídá roku 2018, do rovnice trendu: Tˆ = 178,625 + 6,4019  236,32. Intervalovou předpověď obdržíme dosazením potřebných hodnot do vztahu (4.8). Ve speciálním případě časové řady, kdy ti = xi, obdržíme po úpravách následující vztah pro interval spolehlivosti predikce na i časových okamžiků dopředu: [ )( iny  – t1-/2(n–2) )(iQs nR , )( iny  + t1-/2(n–2) )(iQs nR ], kde y(n + i) = Tˆ = 236,32 , t1-/2(n  2) = 2,45 , sR = pn SR  , )2)(1( 12)1( )1()( 2 22 2    nn inn RiQn , i = 1. Z tabulky obdržíte SR = 1629,552. Potom směrodatná chyba odhadu sR je sR = 4816 28 5521629 , ,   . K výpočtu Qn(i) je zapotřebí znát hodnotu koeficientu determinace R2 , tj. 8090 8758533 5521629 112 , , ,  y R S S R . Výpočet součtu Sy je uveden v tabulce. Potom 510 378 516 1910 28164 121648 80901 ,, ))(( )( ),()(    iQn . Dosazením výše vypočítaných hodnot do obecného vztahu obdržíte levou (L) a pravou (P) mez intervalové předpovědi. L = 236,315  2,44716,48 510, = 207,52. P = 236,315 + 2,44716,48 510, = 265,11. Bodový odhad prodeje v roce 2018 je 236 automobilů. S 95% pravděpodobností by se mělo v roce 2018 prodat mezi 208 a 265 automobily. c. Koeficient determinace byl vypočten v b: R2 = 0,809. Tato hodnota říká, že přiléhavost dat k trendové funkci je „vysoká“. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 119 8.2.2 Kvadratický trend Rozšířením lineárního trendu o kvadratický člen dostaneme parabolickou trendovou funkci: 2 210 ttTt   , (8.8) kde 210 ,,  jsou neznámé parametry a t = 1,2,...,n je časová proměnná. Odhady neznámých parametrů, které označujeme b b b0 1 2, , , získáme metodou nejmenších čtverců řešením soustavy 3 lineárních rovnic o 3 neznámých:     2 210 tbtbnbyt ,     3 2 2 10 )( tbtbtbyt t , (8.9)     4 2 3 1 2 0 2 )()()( tbtbtbyt t . Z podmínky (8.3) dostaneme z rovnice (8.9) ihned řešení:  21      t yt b t . (8.10) Dosazením (8.10) do zbývajících dvou normálních rovnic obdržíme ještě řešení 20 bb , :           224 224 0       ttn tytty b tt , (8.11)         224 22 2       ttn tytyn b tt . (8.12) 8.2.3 Mocninný trend Mocninná trendová funkce má tvar: 1 0   tTt  , (8.13) avšak namísto něj uvažujeme model, jenž vznikne logaritmováním obou stran (8.13): tTt lnlnln 10   , kde ln je přirozený logaritmus o základu e = 2,718... Použijeme analogický postup jako v případě jednoduché lineární regrese v kapitole 2.2.6. Jestliže nyní použijeme substituce tt TT ln , tt ln , (8.14) 00 ln   , 11   , (8.15) obdržíme „čárkovaný“ lineární trend: tTt  10  , (8.16) jehož parametry   0 1, (regresní koeficienty) odhadneme metodou nejmenších čtverců a obdržíme tak jejich odhady  b b0 1, . Ze vztahů (8.15) vypočteme zpětně odhady b b0 1, : 0 0 b eb   , 11 bb  . Analýza trendu časových řad 120 8.2.4 Exponenciální trend Exponenciální trendová funkce má tvar: t tT 10 , (8.17) který substitucemi: tt TT ln , tt  , (8.18) 00 ln   , 11 ln   , (8.19) lze rovněž transformovat na „čárkovaný“ lineární trend, jehož parametry   0 1, odhadneme metodou nejmenších čtverců, a obdržíme tak odhady  b b0 1, . Ze vztahů (8.19) vypočteme odhady b b0 1, původního nelineárního regresního modelu (8.17): 0 0 b eb   , 1 1 b eb   . Použití exponenciálního trendu je uvedeno v následující řešené úloze. ŘEŠENÁ ÚLOHA V tabulce jsou uvedeny údaje o počtu vyrobených myček nádobí v letech 2009-2017. a. Trend ve výrobě tohoto výrobku popište exponenciální trendovou funkcí. b. Vypočítejte bodovou prognózu výroby na rok 2018, dále zjistěte koeficient determinace a na jeho základě zhodnoťte „přiléhavost“ dat k trendové funkci. Rok 2009 2010 2011 2012 2013 2014 2015 2016 2017 Myčky nádobí (tis. ks) 8 9 17 20 38 40 70 101 180 Řešení: Nejprve vypočítáte odhady b0, b1 parametrů exponenciální trendové funkce t tT 10 . Logaritmováním této rovnice obdržíte vztah 10 lnlnln  tTt  . Zavedením substituce tt TT ln , tt  , 00 ln   , 11 ln   se původní rovnice exponenciálního trendu transformuje na rovnici lineárního trendu. Zavedete novou časovou proměnnou t  viz (8.1) a vypočítáte koeficienty 10 bb  , 4987,3 9 4886,31 0     n y b t , 3872,0 60 2315,23 21       t yt b t . Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 121 Potom 07,334987,3 0 0   eeb b , 47,13872,0 1 1   eeb b . Hledaná trendová funkce má tvar tT  ˆ ,2,3,4,47,107,33   tt . K bodovému odhadu využijeme nalezenou trendovou funkci, kam dosadíme t“ = 5, což je hodnota, která odpovídá netransformované časové hodnotě t = 2018. Koeficient determinace vyžaduje znát hodnotu celkového součtu Sy a reziduálního součtu SR (viz poslední dva sloupce v tabulce). Pro výpočet reziduálního součtu čtverců je dále třeba znát odhady teoretické hodnoty tT  ˆ , které obdržíme postupným dosazováním za t  do rovnice trendu, tedy např. pro t  =  4: Tˆ =33,071,47  4 = 7,08. Všechny hodnoty Tˆ i součtů Sy, SR najdete v tabulce. Pro koeficient determinace platí: .969,0 0001,25458 2839,783 112  y R S S R Hodnota 0,969 říká, že přiléhavost dat k trendové křivce je vysoká. 8.2.5 Logistický trend Logistická trendová funkce patří k nelineárním trendům, které se vyznačují horní asymptotou, tj. hranicí, k níž se hodnoty ukazatele přibližují pro neomezeně rostoucí hodnoty času, a jedním inflexním bodem, v němž graf logistické funkce přechází z konvexního do konkávního tvaru. Pro tvar podobný písmenu S se takovým křivkám říká S-křivky. Rok t´´ y  y lny t´´2 t´´ y T (y  T )2 ( )y y 2 2004 -4 8 2,0794 16 -8,3178 7,0285 0,8425 2085,7489 2005 -3 9 2,1972 9 -6,5917 10,3519 1,9904 1995,4089 2006 -2 17 2,8332 4 -5,6664 15,2466 2,8771 1344,6889 2007 -1 20 2,9957 1 -2,9957 22,4558 6,2330 1133,6689 2008 0 38 3,6376 0 0 33,0737 24,3049 245,5489 2009 1 40 3,6889 1 3,6889 48,7122 74,1821 186,8689 2010 2 70 4,2485 4 8,4970 71,7452 2,1345 266,6689 2011 3 101 4,6151 9 13,8453 105,6690 16,3831 2240,1289 2012 4 180 5,1930 16 20,7718 155,6333 654,3364 15959,2689 Součet 0 490 31,4886 60 23,2315 783,2839 25458,0001 Analýza trendu časových řad 122 V ekonomické oblasti, speciálně v marketingu, se tato funkce používá při modelování poptávky po zboží dlouhodobé spotřeby, ale také při modelování vývoje výroby a prodeje některých druhů výrobků. Na rozdíl od předchozích trendových funkcí, které byly definovány jednoznačně, logistická funkce bývá vyjadřována v několika různých variantách, uvedeme zde nejpoužívanější tvar: ttT 101     , (8.20) kde 10, ,  jsou neznámé parametry a t = 1,2,...,n je časová proměnná, přitom se kvůli zachování tvaru S-křivky předpokládá, že 0 < , 10,0 10   . Odhady neznámých parametrů, označujeme je 10 ,bb , k, lze opět získat metodou nejmenších čtverců, která dává nejlepší výsledky, i když vede na řešení soustavy nelineárních rovnic vyžadující použití složitějších výpočetních metod - iteračních metod. Proto zde ukážeme jinou metodu výpočtu neznámých parametrů, která sice nevede z teoretického pohledu k nejlepším odhadům, avšak její výhoda spočívá ve výpočetní nenáročnosti umožňující „ruční“ výpočet. Tato metoda se nazývá metoda vybraných bodů a spočívá v tom, že z daných údajů časové řady vybereme 3 charakteristické hodnoty - body, kterými necháme logistickou trendovou křivku procházet, jinými slovy, položíme empirické hodnoty rovny hodnotám teoretickým. Jestliže charakteristické hodnoty 321 ,, ttt TTT odpovídají časovým okamžikům 321 ,, ttt , kde 321 ttt  , pak ze vztahu (4.33) obdržíme soustavu 3 rovnic o 3 neznámých  0 1, , : 11 101 ttT     , 22 101 ttT     , 33 101 ttT     , (8.21) jejichž řešením získáme odhady neznámých parametrů b b0 1, , k. Výpočty v metodě vybraných bodů můžeme usnadnit, když charakteristické body zvolíme ekvidistantně:  2,,0 321 ttt , kde  je určitý časový interval. Za tohoto předpokladu je řešení soustavy následující: 1 1 0 t t T Tk b   ,     2 12 21 1 1 t tt tt TkT TkT b            , (8.22)   2 2 231 312321 2 ttt tttttt TTT TTTTTT k    . (8.23) Z výše uvedeného vztahu (8.23) lze přímo vypočíst parametr k, jeho dosazením do vztahu (8.22) vypočítáme parametry b b0 1, . Jak se snadno zjistí, hodnota asymptoty logistické křivky je 01    , což představuje horní mez, k níž se limitně přibližuje hodnota trendové funkce při velkých hodnotách času t. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 123 ŘEŠENÁ ÚLOHA 8.3 V tabulce jsou uvedeny údaje o počtu výrobků určitého typu (v tis. ks) v letech 2007 - 2017. Nalezněte logistickou trendovou funkci, která charakterizuje trend dané časové řady. Prognózujte výrobu pomocí bodového odhadu na rok 2018. Čas 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Zjištěné hodnoty 5 6 9 16 22 25 32 34 41 44 45 Řešení: Hledáme odhady parametrů trendové funkce ve tvaru (8.20) Tt t     1 0 1 . Tyto odhady stanovíte metodou vybraných bodů. Abyste mohli k výpočtu použít vztahy (8.21), (8.22), (8.23), zvolíte opět novou časovou proměnnou t , viz následující tabulka. Ze všech údajů v časové řadě vyberete tři časové okamžiky, např. na počátku, uprostřed a na konci časové osy:      t t t1 2 30 5 10, , . V těchto okamžicích (jsou vyznačeny tučně) položíte empirické hodnoty rovny hodnotám teoretickým, tedy T T Tt t t    1 2 3 5 25 45, , . t 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 t 0 1 2 3 4 5 6 7 8 9 10 Zjištěné hodnoty 5 6 9 16 22 25 32 34 41 44 45 Potom ze vztahů (8.22), (8.23) postupně vypočítáte: 50 25455 455254525522 2 2 2 2 231 312321          )()( ttt tttttt TTT TTTTTT k , 9 5 550 1 1 0        t t T Tk b , 6440 55025 25505 5 11 1 2 12 21 , )( )( )( )(                        t tt tt TkT TkT b . Odhadovaný logistický trend má tvar ttT    644,091 50ˆ . Obrázek 25: Logistický trend 0 10 20 30 40 50 2006 2008 2010 2012 2014 2016 2018 Analýza trendu časových řad 124 Rok 2018 odpovídá v transformované časové ose hodnotě t´ = 13. Dosazením do rovnice zjištěné trendové funkce obdržíte 4957,48 644,091 50ˆ 132008   T , tj. prognózovaná výroba daného výrobku v roce 2018 je 49 tis. ks. 8.2.6 Gompertzův trend Ve srovnání s předchozí logistickou trendovou funkcí je Gompertzův trend jiným typem S-křivky: t tT 1 0   , (8.24) kde opět 10, ,  jsou neznámé parametry a t = 1,2,...,n je časová proměnná, přitom se kvůli zachování tvaru S-křivky předpokládá, že 0 < , 10,0 10   . Odhady 10 ,bb , těchto k parametrů získáme opět metodou nelineární regrese (metodou nejmenších čtverců), eventuálně metodou vybraných bodů, jako v předchozím odstavci. Asymptota Gompertzovy křivky je rovnoběžná s osou t ve vzdálenosti k, přičemž inflexní bod křivky není na rozdíl od logistického trendu (8.20) umístěn uprostřed mezi časovou osou a asymptotou. 8.3 Volba vhodného modelu trendu Závažným problémem analýzy časových řad je problém stanovení konkrétního typu trendové funkce. Základem pro rozhodnutí o vhodném typu funkce by měla být věcněekonomická kritéria, tedy trendová funkce by měla být volena na základě věcné analýzy zkoumaného ekonomického jevu. Během věcného rozboru lze obvykle posoudit, zda jde o funkci rostoucí (nebo klesající), s trendem růstu nade všechny meze, či k určité konečné hodnotě (asymptotě). Grafické znázornění časové řady umožní v hrubých rysech odhalit základní tendence ve vývoji analyzovaného ukazatele. Nebezpečí volby na základě vizuálního výběru spočívá však v jeho subjektivitě. Různí analytici mohou danou situaci posoudit různě a zvolit rozdílné typy trendové funkce. Nebezpečí tu plyne i z toho, že tvar grafu je do značné míry závislý na volbě použitého měřítka. Přiléhavost dat k trendové (regresní) křivce jsme v kapitole 3 měřili koeficientem determinace 2 R , viz (3.18): y R y T S S S S R  12 . (8.25) Tento koeficient můžeme k porovnání vhodnosti různých modelů trendu použít i nyní. V zásadě lze přijmout hodnocení, v němž nejvhodnější model trendu dává nejvyšší hodnotu koeficientu determinace 2 R . Vzhledem k tomu, že hodnota yS je dána, závisí velikost 2 R na velikosti reziduálního součtu čtverců RS  čím je jeho hodnota menší, tím je hodnota 2 R Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 125 větší (blíže k jedné). Taková metoda hodnocení trendu časové řady však upřednostňuje modely s větším počtem parametrů. Protože se zejména u ekonomických časových řad snažíme o nalezení jednoduchého tvaru trendu, je lepší k hodnocení vhodnosti modelu použít reziduální rozptyl: pn S s R R  2 , (8.26) kde SR =    n i ii Yy 1 2 je reziduální součet čtverců, n je počet datových bodů a p je počet parametrů v modelu. Z tvaru (9.26) je zřejmé, že hodnota reziduálního rozptylu roste s rostoucím počtem parametrů, což odpovídá výše uvedenému požadavku po co nejmenším počtu parametru v trendové funkci. Vhodný model trendu bude tedy „kompromisem“ mezi velikostmi hodnot 2 R a p. Volbu vhodné trendové funkce lze podpořit také testy hypotéz. Z celé řady různých testů uvedeme známý F-test, který slouží pro rozhodování, zda má smysl dávat přednost složitějšímu modelu (s větším počtem parametrů) před jednodušším modelem (s menším počtem parametrů). Testujeme nulovou hypotézu, že totiž pokud jde o přiléhavost dat ke zvoleným trendovým funkcím, není mezi modely statisticky významný rozdíl. Tento test je založen na statistice: 1 )1( 21 )1()2( pn S pp SS F R TT     , (8.27) kde hodnoty 1 )1()1( ,, pSS RT přísluší ke složitějšímu modelu, hodnoty 2 )2( , pST přísluší k jednoduššímu modelu, tj. 21 pp  , )1()2( TT SS  . Statistika (8.27) má přibližně Fisherovo rozdělení F s 21 pp  a 1pn  stupni volnosti. V případě, že vypočítaná hodnota statistiky padne do kritického oboru, lze na zvolené hladině významnosti  usuzovat, že model s větším počtem parametrů přináší výrazné zlepšení oproti jednoduššímu modelu. 8.4 Klouzavé průměry Podstata vyrovnání časové řady pomocí klouzavých průměrů spočívá v tom, že posloupnost hodnot časové řady nahradíme novou řadou průměrů vypočítaných s kratších úseků časové řady, přičemž tyto kratší úseky postupně posouváme (kloužeme) směrem od začátku ke konci časové řady, a současně vypočítáváme dílčí průměry - klouzavé průměry. Vzniká důležitý problém, který je nutno předem řešit: jaký má být počet členů klouzavé části průměru. Klouzavou částí průměru budeme tedy rozumět časový interval určité délky, který se posunuje po časové ose vždy o jednotku. Volba rozsahu klouzavé části závisí na věcném (ekonomickém) charakteru časové řady a nelze ji obvykle stanovit na podkladě exaktních statistických metod. V praxi jsou u ekonomických neperiodických časových řad voleny většinou klouzavé části menší liché délky, např. 3, 5 nebo 7 časových jednotek, což souvisí se snadnější interpretací výsledků, neboť pak můžeme hodnotu klouzavého průměru přiřadit prostřednímu časovému okamžiku klouzavé části. U periodických časových řad se volí délka klouzavých části totožná s délkou periody (sezóny, cyklu). Analýza trendu časových řad 126 Uvažujme časovou řadu nyyyy ,...,, 321 . Prosté klouzavé průměry získáme tak, že úseky časové řady o délce 12  pm , přičemž m  n, p  1, celé číslo, vyrovnáme lineárním trendem s využitím metody nejmenších čtverců. Výsledkem je vzorec pro hodnoty vyrovnané časové řady ve formě aritmetického průměru: 12 ... 12 1 11         p yyyy y p y ptptptpt p pt itt , (8.28) kde .,...,2,1 pnppt  Přitom p hodnot na začátku a p hodnot na konci časové řady zůstává nevyrovnáno. Kromě prostých klouzavých průměrů se někdy používají složitější vážené klouzavé průměry, případně centrované klouzavé průměry. Ty získáme tak, že namísto lineárního trendu v každém úseku použijeme polynomický trend vyššího řádu, tj. kvadratickou parabolu, kubickou parabolu apod. Metodou nejmenších čtverců obdržíme poměrně složité vzorce pro výpočet vyrovnaných hodnot. Vzhledem k poměrně řídkému použití těchto složitějších klouzavých průměrů se jimi zde nebudeme dále zabývat. Zájemce odkazujeme na literaturu, např. Seger (1998). 8.5 Exponenciální vyrovnání Další metodou vyhlazování časové řady, tedy syntetického stanovení trendu, je exponenciální vyrovnání. Při něm se nová vyrovnaná hodnota stanoví na základě exponenciálně váženého průměru současné hodnoty a všech předchozích hodnot časové řady. Přitom se používá systém koeficientů - vah, kdy novější hodnota má vždy větší váhu (tj. důležitost), než hodnota starší. Nechť ty značí pozorovanou hodnotu v časovém okamžiku t, w je váha přiřazená současné hodnotě, 0  w  1, tyˆ je vyrovnaná hodnota v čase t. Metoda exponenciálního vyrovnání začíná tím, že první vyrovnanou hodnotu časové řady 1ˆy (v čase 1) položíme rovnu pozorované hodnotě 1y , tedy: 1 ˆy = 1y . Následující vyrovnané hodnoty definujeme rekurentním vztahem: 1 ˆ)1(ˆ  ttt ywwyy , t = 2,3,...n, (8.29) který umožňuje postupně vypočítat všechny vyrovnané hodnoty dané časové řady. Ze vztahu (8.28) lze snadno odvodit vztah: 1 1 2 2 2 2 1 )1()1(...)1()1(ˆ ywywwywwywwwyy tt tttt    . Z posledního vztahu je vidět, že vyrovnaná hodnota časové řady v čase t závisí na všech předchozích nevyrovnaných hodnotách s tím, že do celkového součtu vstupují starší hodnoty s menší vahou i it www )1(  , (8.30) kde i = 0,1,...,t–2. Vzhledem k tomu, že platí 0  w  1, je zřejmé, že se hodnota itw  exponenciálně zmenšuje s rostoucím i, tj. rostoucím „stářím“ dat. Váhu w nazýváme koeficient exponenciálního zapomínání. Ze vztahu (8.30) vyplývá, že čím vyšší je koeficient zapomínání, tím menší je hodnota )1( w , a tedy také i w)1(  , což znamená, že váha - Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 127 význam starších dat klesá, starší data se rychleji zapomínají. Je-li např. 9,0w , tedy koeficient zapomínání je 90, potom za jednotku času se vliv hodnoty ity  zmenší na itit yyw   1,0)1( , což znamená, že se „zapomene“ 90 hodnoty. V praxi se používají obvykle váhy z intervalu 0,7 až 1,0. Pro výpočet exponenciálně vyrovnaných hodnot časové řady je ovšem výhodnější rekurentní vztah (8.29). Kromě výše uvedené metody se v praxi využívají i složitější postupy exponenciálního vyrovnání, které se zařazují do skupiny metod, kterým se říká adaptivní metody. Zájemce odkazujeme např. na práce Seger (1998), Cipra (1986). ŘEŠENÁ ÚLOHA 8.4 V následující tabulce jsou uvedeny údaje o spotřebě pitné vody v jednotlivých dnech tří po sobě jdoucích týdnů. a. Stanovte odpovídající interval klouzavého průměru a vyrovnejte tuto řadu prostými klouzavými průměry. b. Vyrovnejte časovou řadu pomocí metody exponenciálního vyrovnání, použijte koeficient zapomínání w = 0,7. Řešení: a. Z charakteru dat vyplývá, že pro analyzovanou časovou řadu budou vhodné klouzavé průměry o délce m = 7 pozorování, tj. v rámci týdne. Použijete proto prosté7-členné klouzavé průměry, které vypočítáte podle vztahu (8.28): 896,0 7 05,122,199,066,093,078,064,0 7 721 1      yyy y  . Tuto hodnotu přiřadíte prostřednímu časovému okamžiku klouzavé části, tj. ke čtvrté hodnotě dané časové řady. Druhý klouzavý průměr vypočítáte analogicky posunutím o jeden den a přiřadíte jej k páté hodnotě původní časové řady: .911,0 7 75,005,122,199,066,093,078,0 7 832 2      yyy y  Ostatní klouzavé průměry vypočítáte obdobně postupným klouzáním směrem ke konci časové řady. Empirické hodnoty jakož i klouzavé průměry ukazuje Obrázek 26. b. Exponenciální vyrovnání se provede podle (8.29): y1 = y1 , Po 0,64 0,75 0,54 Út 0,78 0,63 0,61 St 0,93 0,82 0,7 Čt 0,66 0,63 0,56 Pá 0,99 1,3 0,79 So 1,22 0,65 1,3 Ne 1,05 1,3 1,24 Analýza trendu časových řad 128  ( ) y wy w yt t t   1 1 , t = 2,3,...n, kde w = 0,7. Obrázek 26: Klouzavé průměry a exponenciální vyrovnání Proto: y1 = 0,64, y 2 = 0,7y2 + ( 1  0,7) y1 = 0,70,78 + 0,30,64 = 0,738. Další hodnoty yt vypočítáme rekurentně, viz následující tabulka. Je zřejmé, že koeficient zapomínání w = 0,7 ještě nevyhlazuje původní data dostatečně, k většímu vyhlazení by byla zapotřebí menší hodnota koeficientu zapomínání. 0 0,2 0,4 0,6 0,8 1 1,2 1,4 Po Út St Čt Pá So Ne Po Út St Čt Pá So Ne Po Út St Čt Pá So Ne Spotřeba vody Klouzavé průměry Exponenciální vyrovnání Den Spotřeba vody (m3 /os.) Klouzavé průměry Exponenciální vyrovnání Po 0,64 0,640 Út 0,78 0,738 St 0,93 0,872 Čt 0,66 0,896 0,724 Pá 0,99 0,911 0,910 So 1,22 0,890 1,127 Ne 1,05 0,874 1,073 Po 0,75 0,870 0,847 Út 0,63 0,914 0,695 St 0,82 0,833 0,783 Čt 0,63 0,869 0,676 Pá 1,30 0,839 1,113 So 0,65 0,836 0,789 Ne 1,30 0,819 1,147 Po 0,54 0,809 0,722 Út 0,61 0,736 0,644 St 0,70 0,829 0,683 Čt 0,56 0,820 0,597 Pá 0,79 0,867 0,732 So 1,30 1,130 Ne 1,24 1,207 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 129 SHRNUTÍ KAPITOLY Zopakujme si získané poznatky této kapitoly: trendová složka poskytuje rozhodující informaci pro prognózování hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů. V této kapitole jsme se zabývali lineárním trendem, parabolickým trendem, exponenciálním trendem, logistickým trendem a Gompertzovým trendem. Z metod syntetického přístupu byly uvedeny metody klouzavého průměru a exponenciální vyrovnání. 8.6 Samostatné úkoly 8.1 V tabulce jsou údaje o počtu vyrobených kuchyňských robotů v letech 2007 až 2017. Rok 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Kuchyňské roboty (tis. ks) 5 4 8 16 35 32 40 56 100 120 195 a. Trend ve výrobě tohoto výrobku popište exponenciální trendovou funkcí. b. Jaké množství vyrobených kuchyňských robotů lze očekávat v roce 2018? c. Znaménkovým testem (bude vysvětlen v následující kapitole) ověřte na hladině významnosti  = 0,05 náhodnost reziduí. 8.2 Časová řada představuje počet vyrobených pneumatik Barum v letech 2006 až 2017. Rok 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Pneumatiky (mil.ks) 0,8 1,6 1,5 2,4 5 3,88 4,47 3,88 6,89 7,69 5,83 8,25 a. Nalezněte lineární trend časové řady. b. Jaké množství vyrobených pneumatik lze očekávat v roce 2018? Stanovte bodový i intervalový odhad na hladině významnosti  = 0,05. 8.7 Řešení úkolů, výsledky 8.1 a) Tˆ ,,,,,, 3454715529  tt . b) v roce 2018, tzn. t = 8; 31644,ˆ T . c) S = 5; testové kritérium U = 0; obor přijetí A = (-1,96; 1,96); přijímáme nulovou hypotézu o náhodném uspořádání reziduí 8.2 a) Tˆ ,,,,.,, 7911320354  tt b) v roce 2018, tzn. t = 13; mil.ks,ˆ 58T ; 95%-ní intervalový odhad (5,97; 11,05) Analýza sezónní složky a náhodné složky 130 9 ANALÝZA SEZÓNNÍ SLOŽKY A NÁHODNÉ SLOŽKY RYCHLÝ NÁHLED KAPITOLY Při analýze ekonomických časových řad se setkáváme téměř vždy s existencí sezónních vlivů, reprezentovaných v modelu časové řady sezónní složkou. Sezónními vlivy rozumíme soubor příčin, které se pravidelně opakují v důsledku koloběhu přírody. Pokud se u časových řad vyskytují podobné vlivy v delším časovém horizontu, hovoříme o cyklické složce časové řady, v kratším časovém horizontu, hovoříme o sezónní složce časové řady. Souhrnně se sezónní a cyklické složky označují jako periodické složky časové řady. Úkolem modelování periodické složky časové řady je nalézt její vhodné vyjádření, které by umožnilo periodickou (nejčastěji sezónní) složku vhodně identifikovat a následně použít k predikci chování časové řady v budoucnu. Naučíte se aplikovat metody konstantní sezónnosti se schodovitým a lineárním trendem a metodu proporcionální sezónnosti. V závěru se budete věnovat analýze náhodné složky. CÍLE KAPITOLY Po prostudování této kapitoly budete umět: popsat sezónní a náhodnou složku, použít metodu konstantní sezónnosti se schodovitým trendem, použít metodu konstantní sezónnosti s lineárním trendem, testovat vlastnosti náhodné složky. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 90 minut. KLÍČOVÁ SLOVA KAPITOLY Sezónní složka, náhodná složka, model konstantní sezónnosti se schodovitým trendem, model konstantní sezónnosti s lineárním trendem, znaménkový test, Durbin-Watsonův test. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 131 9.1 Model konstantní sezónnosti se schodovitým trendem Označení časové proměnné t = 1,2,...n, budeme používat pro označení časových intervalů (např. roků), které se člení na dalších r dílčích časových období, které nazýváme sezóny (např. měsíce nebo čtvrtletí) a označujeme j = 1,2,...,r (např. v případě, že sezóny jsou měsíce je r = 12, v případě že sezóny představují kvartály, platí r = 4). Model časové řady lze zapsat ve tvaru: tjtjtjtj PTy  , t = 1,2,...,n, j = 1,2,...,r. (9.1) U modelu konstantní sezónnosti se vychází z předpokladu, že: jtjP  pro sezónu j v letech t = 1,2,...,n, (9.2) kde j jsou neznámé sezónní parametry, o nichž dále předpokládáme, že splňují rovnost:   r j j 1 0 . (9.3) Předpoklady (9.2) a (9.3) vycházejí z představy, že v důsledku pravidelného (ročního) koloběhu sezónních vlivů se v j-té sezóně opakují sezónní výkyvy j , které se mezi léty neliší - podmínka (9.2). Dále se tyto vlivy během roku (r sezón) vykompenzují, takže jejich roční součet je nulový - podmínka (9.3). Nejprve budeme předpokládat, že trendová složka tjT nabývá ve všech sezónách hodnotu roku t hodnotu t , takže posloupnost těchto hodnot v letech t = 1,2,...,n představuje schodovitý trend. Model (9.13) pak bude mít tvar: tjjttjy   , t = 1,2,...,n, j = 1,2,...,r. (9.4) Odhady jt ca , n + r parametrů tohoto modelu získáme metodou nejmenších čtverců: t r j tjt yy r a  1 1 ,     n t r j tj n t tjj y rn y n c 1 11 11 . (9.5) Všimněte si v prvním vzorci, že odhadem výšky schodu v roce t je průměr hodnot v roce t. Z druhého vzorce pak vyplývá, že hodnota sezónního vlivu cj, tzv. j-tého sezónního koeficientu, je představována průměrnou hodnotou vypočítanou z j-tých sezón ve všech letech po odečtení celkového průměru ze všech hodnot v celé časové řadě. Například sezónní koeficient c1 se vypočítá jako průměr ze všech lednových hodnot v časové řadě měsíčních Analýza sezónní složky a náhodné složky 132 údajů po odečtení celkového průměru ze všech hodnot v celé časové řadě. V tomto případě je měsíc leden uvažován jako první sezóna z 12 měsíčních sezón. 9.2 Model konstantní sezónnosti s lineárním trendem Při popisu trendové složky v předchozím odstavci jsme používali posloupnost časové proměnné t = 1,2,...n, o trendové funkci jsme předpokládali, že je konstantní během všech sezón daného roku t, tj. ttjT  pro j = 1,2,...,r. Přitom hodnota αt mohla být v každém roce jiná a tvořila výšku „schodu“ v roce t. Model časové řady bude opět aditivní, tedy tjjttj Ty   , t = 1,2,...,n, j = 1,2,...,r, (9.6) kde stejně jako v modelu (9.1) jsou j neznámé sezónní parametry, o nichž dále předpokládáme, že splňují podmínku   r j j 1 0 . Nyní budeme předpokládat, že trendová složka tjT má lineární tvar, potom model (9.6) bude mít tvar: tjjtj tty   )( , t = 1,2,...,n, j = 1,2,...,r. (9.7) Odhady jcba ,, z (r +2) parametrů tohoto modelu získáme metodou nejmenších čtverců, řešení má komplikovaný tvar, který zde neuvádíme, zájemce odkazujeme na Segera (1998). 9.3 Model proporcionální sezónnosti Nyní budeme používat t = 1,2,...,n, k označení časových intervalů (např. roků), které se člení na dalších r dílčích časových období, které nazýváme sezóny (např. měsíce nebo čtvrtletí) a označujeme j = 1,2,...,r (např. v případě, že sezóny jsou měsíce je r = 12, v případě že sezóny představují kvartály, platí r = 4). Regresní model lze s použitím uvedené symboliky zapsat ve tvaru: tjtjtjtj PTy  , t = 1,2,...,n, j = 1,2,...,r. (9.8) U modelu proporcionální sezónnosti se vychází z předpokladu, že periodická složka je proporcionální (tj. přímo úměrná) velikosti trendové složky: tjjtj TCP  pro sezónu j v letech t = 1,2,...,n, (9.9) tedy po dosazení (9.9) do (9.8) obdržíte tjtjjtj TCy  )(1 . (9.10) Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 133 Aplikací MNČ obdržíme cj odhad koeficientů Cj takto      n i i n i iij j y yy c 1 2 1 1 , j = 1,2,...,r. (9.11) Dosazením do (9.10) obdržíte konečnou podobu modelu proporcionální sezónnosti tjtjn i i n i iij tj T y yy y      1 2 1 , t = 1,2,...,n, j = 1,2,...,r. (9.12) Přitom ∑ 1= 1 = r j iji y r y je aritmetický průměr yij přes j. V konkrétním případě můžeme uvažovat, že trendová složka má lineární tvar, tedy například )( ttTtj   . (9.13) 9.4 Analýza náhodné složky Náhodnou složku t lze v modelu (9.8) vyjádřit v tvaru: t = yt – Yt, t = 1,2,...n, (9.14) kde Yt = Tt + Pt . Jedná se zde o vyjádření blíže nespecifikovaných náhodných vlivů. Zdrojem této složky jsou obvykle nepodchycené drobné vzájemně nezávislé náhodné vlivy. Chceme-li zajistit spolehlivé předpovědi na základě modelu časové řady, potom je třeba mít zajištěny některé předpoklady o náhodné složce. Konkrétně je výhodné, když jsou splněny předpoklady klasického lineárního regresního modelu, které jsme uvedli v kapitole 3.5. Byly to předpoklady 1. až 3., které pro přehlednost zopakujeme, avšak při současném označení, kdy nezávisle proměnná x je nyní čas t. Jedná se tedy o tyto předpoklady: 1. Hodnoty vysvětlující proměnné t se volí předem, obvykle t = 1,2,...,n. 2. Náhodné složky t mají normální rozdělení pravděpodobnosti se střední hodnotou 0 a (neznámým) rozptylem 2 . Konstantnost rozptylu nazýváme homoskedasticita. 3. Náhodné složky jsou nekorelované, tj. Cov(t , t´) = 0 pro každé t  t´, t,t´ = 1,2,...,n. Jak již bylo řečeno v kapitole 3.5, v praxi jsou podmínky klasického modelu často splněny. Nejsme-li si však jejich platností jisti, můžeme provést testy hypotéz jak o normalitě rozdělení náhodné složky (např. Chi-kvadrát test dobré shody), tak i testy homoskedasticity (Bartleyův test). Při ověřování těchto předpokladů zjišťujeme, zda jsou všechny systematické složky z časové řady eliminovány. Jakákoliv nenáhodnost u reziduí naznačuje nevhodnost zvoleného modelu časové řady. Analýza sezónní složky a náhodné složky 134 Jednoduchým nástrojem, kterým lze ověřit náhodnost reziduí, je znaménkový test. Při tomto testu vyčíslíme počet případů, kdy rozdíl sousedních reziduí 1 tt ee je kladný, jejich počet označíme S. Přitom je: ttt Yye  , (9.15) kde ttt PTY  je odhad teoretické hodnoty časové řady, tT je odhad trendu (s regresními koeficienty získanými např. metodou nejmenších čtverců), tP je odhad periodické složky, např. (9.11), kde parametry jj  , jsou rovněž odhadnuty metodou nejmenších čtverců. Náhodné složky t , které jsou dány (9.14), jsou tedy náhodné veličiny, zatímco rezidua et, (9.15), jsou realizacemi - odhady těchto náhodných veličin. Je-li posloupnost reziduí et náhodně uspořádána, potom pro střední hodnotu S platí: 2 1 )(   n SE . Testujeme proto nulovou hypotézu: 2 1 )(:0   n SEH , proti alternativní hypotéze 2 1 )(:1   n SEH . Použijeme testové kritérium: 1 )1( 2 1 12          n nS U , (9.16) které má již pro 13n přibližně normované normální rozdělení. Pro stanovení kritických hodnot tedy použijeme kvantily normovaného normálního rozdělení 2/1 u . Vlastnost časových řad, která často způsobuje porušení předpokladů 1. až 3. je autoregrese náhodných složek, viz též kapitola 6.5, která znamená, že mezi náhodnými složkami platí následující vztah: ttt u 1 , (9.17) kde 10   je autokorelační koeficient a tu splňuje předpoklady 1. až 3. Nulovou hypotézu: 0:0 H (což je totéž, jako tt u ) testujeme proti alternativní hypotéze 0:1 H pomocí testového kritéria:         n t t n t tt e ee D 1 2 2 2 1 . (9.18) Funkce D, nazývaná Durbin-Watsonova statistika, bývá tabelována pro různé hladiny významnosti  , viz např. Gujarati (2003). Test založený na této statistice nazýváme Durbin-Watsonův test autokorelace. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 135 ŘEŠENÁ ÚLOHA 9.1 Data v tabulce představují objem přepravy po vodních tocích ČR v jednotlivých čtvrtletích pěti po sobě jdoucích let. a. Nalezněte pro tuto časovou řadu model konstantní sezónnosti se schodovitým trendem. b. Na hladině významnosti  = 0,05 ověřte náhodnost reziduí. Řešení: a. Úkolem je nalézt odhady parametrů t, j modelu ytj t j tj     , t = 1,2,...,n, j = 1,2,...,r, kde t je trendová složka j je sezónní složka. Odhady jt ca , n + r parametrů tohoto modelu vypočítáme ze vztahů (9.5): a r y yt tj j r t    1 1 ,     n t r j tj n t tjj y rn y n c 1 11 11 . Všechny potřebné součty a průměry jsou uvedeny v tabulce, jejich dosazením do daných vztahů obdržíte: trendová složka: a1 = 126 , a2 = 131,25 , a3 = 152,5 , a4 = 165,75, a5= 188,5, sezónní složka: c1 = 143  152,8 = 9,8 , c2 = 161152,8 = 8,2, c3 = 163,2  152,8 = 10,4 ,c4 = 144152,8 = 8,8. Výsledky ukazují, že působení sezónních vlivů klesl v prvním čtvrtletí objem přepravy o 9,8 tun a ve čtvrtém čtvrtletí o 8,8 tuny. Tento pokles je vykompenzován růstem přepravy ve zbylých dvou čtvrtletích o 8,2 a 10,4 tun, tj. ve čtvrtletích pro říční přepravu klimaticky příznivějších. Z vývoje ročních průměrů at je zřejmé, že se průměrný roční objem přepravy neustále zvyšoval. b. Nejdříve vypočítáte odhady teoretických hodnot Yˆ dané časové řady tak, že odhadnete trendovou i sezónní složku. Např.: 2116891261111 ,),(ˆ ,  caY 2,134=2,8+126=+=ˆ 212,1 caY t/j Čtvrtletí Roky 1 2 3 4 Součet Průměr 1 120 138 132 114 504 126,00 2 118 138 150 119 525 131,25 3 149 161 155 145 610 152,50 4 150 173 181 159 663 165,75 5 178 195 198 183 754 188,50 Součet 715 805 816 720 3056 Průměr 143 161 163,2 144 152,80 Analýza sezónní složky a náhodné složky 136 Všechny hodnoty jtY , ˆ jsou uvedeny v následující tabulce. Dále vypočítáme hodnoty reziduí. Např.: 8,32,116120ˆ 1,11,11,1  Yye , 8,32,134138ˆ 2,12,12,1  Yye . Hodnoty všech reziduí jsou uvedeny v následující tabulce: t/j 1 2 3 4 1 3,80 3,80 –4,40 –3,20 2 –3,45 –1,45 8,35 –3,45 3 6,30 0,30 –7,90 1,30 4 –5,95 –0,95 4,85 2,05 5 –0,70 –1,70 –0,90 3,30 K testu náhodnosti reziduí použijeme znaménkový test. Je proto třeba určit počet případů S, kdy je rozdíl sousedních reziduí et  et  1 kladný. Např.: e1,2  e1,1 = 3,8  3,8 = 0, e1,3  e1,2 = 4,4  3,8 = 8,2. V následující tabulce jsou případy, kdy et  et  1 > 0, označeny „+“, ostatní „“. t/j 1 2 3 4 1    + 2  + +  3 +   + 4  + +  5   + + Z tabulky vidíme, že S = 9. Hodnotu testového kritéria vypočítáme podle (9.16): 378,0 120 )120( 2 1 912 1 )1( 2 1 12                    n nS U . V tabulce normovaného normálního rozdělení nalezneme u1 /2 , tj.: u0,975 = 1,96. t/j 1 2 3 4 1 116,20 134,2 136,4 117,2 2 121,45 139,5 141,7 122,5 3 142,70 160,7 162,9 143,7 4 155,95 174,0 176,2 157,0 5 178,70 196,7 198,9 179,7 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 137 Protože hodnota testového kritéria 0,378 leží v oboru přijetí A = (1,96;1,96), lze na zvolené hladině významnosti přijmout nulovou hypotézu, tj. hypotézu o náhodném uspořádání reziduí. SHRNUTÍ KAPITOLY V této kapitole jste se zabývali časovými řadami, jejichž hodnoty se periodicky opakují, tzv. sezónními časovými řadami. Nejprve jste si objasnili význam sezónní složky časové řady. Poté jste se naučili aplikovat jednoduché metody konstantní sezónnosti se schodovitým a lineárním trendem a rovněž metodu proporcionální sezónnosti. Dále zde byly uvedeny metody testování náhodné složky (znaménkový test, Durbin-Watsonův test autokore- lace). 9.5 Samostatné úkoly 9.1 V následující tabulce jsou uvedeny měsíční tržby jedné obchodní organizace za posledních 60 měsíců od ledna 2013 až do prosince 2017. a. Nalezněte model konstantní sezónnosti se schodovým trendem. b. Pro rok 2018 uvažujte s růstem 5% (tj. výška schodu). Prognózujte tržby na rok 2018. 9.2 Použijte data z řešené úlohy 9.1. Nalezněte pro tuto časovou řadu model konstantní sezónnosti s lineárním trendem. 9.3 Je dána reziduální složka, která obsahuje tyto hodnoty: 0,652 0,767 -1,667 2,579 -0,254 0,963 0,188 -0,936 0,572 -2,863. Proveďte: a) znaménkový test náhodnosti reziduí, b) Durbin – Watsonův test autokorelace. 1 2 3 4 5 6 7 8 9 10 11 12 6489 5971 6272 6944 7217 7448 7259 7602 7651 8064 7952 8498 13 14 15 16 17 18 19 20 21 22 23 24 6930 6391 6979 7315 7798 7861 7994 7798 8022 8155 8694 8764 25 26 27 28 29 30 31 32 33 34 35 36 7560 7182 7077 7847 8603 8659 8827 8855 8337 8379 8834 9709 37 38 39 40 41 42 43 44 45 46 47 48 7833 7406 7791 8190 8869 8988 8736 9254 9240 9380 9422 9954 49 50 51 52 53 54 55 56 57 58 59 60 8442 7987 8673 8925 9534 9534 9331 9877 9695 9730 10192 10661 Analýza sezónní složky a náhodné složky 138 9.6 Řešení úkolů, výsledky 9.1 a) a1 = 7280,6; a2 = 7630,6; a3 = 8322,4; a4 = 8755,3; a5 = 9381,7; a6 = 9850,8 c1 = –823,3; c2 = –1286,7; c3 = –915,7; c4 = –429,9; c5 = 130,1; c6 = 223,9; c7 = 155,3; c8 = 403,1; c9 = 314,9; c10 = 467,5; c11 = 744,7; c12 = 1243,1 b) 9.2 Yt = 6782,2 + 49,536.t + cj c1 = –569,8; c2 = –1082,7; c3 = –761,3; c4 = –325; c5 = 185,4; c6 = 229,7; c7 = 111,6; c8 = 309,8; c9 = 172,1; c10 = 275,2; c11 = 502,8; c12 = 951,7 leden 2018 9234,1 červenec 2018 10212,7 únor 2018 8770,7 srpen 2018 10460,5 březen 2018 9141,7 září 2018 10372,3 duben 2018 9627,5 říjen 2018 10524,9 květen 2018 10187,5 listopad 2018 10802,1 červen 2018 10281,3 prosinec 2018 11300,5 9.3 a) Počet kladný hodnot S =4; U = -0,522. Protože hodnota –0,522 leží v oboru přijetí A = (1,96;1,96), lze na zvolené hladině významnosti přijmout nulovou hypotézu, tj. hypotézu o náhodném uspořádání reziduí. b) Hodnota Durbin – Watsonova koeficientu 368,2D . Protože 1k a 10n najdeme pro 05,0 v tabulkách 32,1;879,0  UL dd . Nelze zamítnout nulovou hypotézu, což znamená, že v modelu nebyla prokázána statisticky významná autokorelace. leden 2018 9027,51 červenec 2018 10006,1 únor 2018 8564,11 srpen 2018 10253,9 březen 2018 8935,11 září 2018 10165,7 duben 2018 9420,91 říjen 2018 10318,3 květen 2018 9980,91 listopad 2018 10595,5 červen 2018 10074,7 prosinec 2018 11093,9 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 139 10 MODELY TYPU ARIMA A PROGNÓZOVÁNÍ ČASOVÝCH ŘAD RYCHLÝ NÁHLED KAPITOLY Nejprve se budete zabývat časovými řadami typu ARIMA. Box-Jenkinsova metodologie, která se modely analýzy časových řad typu ARIMA zabývá, klade důraz nikoliv na konstrukci jedno-rovnicového nebo vícerovnicového modelu, jak je tomu např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČŘ. Postupně se seznámíte s vlastnostmi autoregresivních procesů AR, procesů pohyblivých průměrů MA, integračních procesů I, jakož i procesů vzniklých jejich kombinací: ARIMA. Dále lze tyto procesy rozšířit též na sezónní procesy. Úkolem pak je pro časovou řadu nalézt vhodný model typu ARIMA a nalezený model použít pro účely prognózy (predikce, extrapolace) hodnot dané časové řady. Celý postup tvorby prognózy ČŘ autoři metody ARIMA formulovali ve 4 krocích, které nazýváme Box-Jenkinsova metodologie prognózování ČŘ. Jednotlivé kroky jsou (1) Identifikace modelu, (2) Odhad modelu, (3) Verifikace modelu a (4) Prognóza pomocí modelu. Jednotlivé kroky Box-Jenkinsovy metodologie budou ilustrovány na příkladu časové řady čtvrtletního HDP České republiky s pomocí statistického programu SPSS. K řešení ilustračních příkladů budete používat nejen Excel, nýbrž také speciální statistický SW: SPSS (Statistical Package for Social Sciences). CÍLE KAPITOLY Po prostudování této kapitoly budete umět: nalézt vhodný model typu ARIMA, nalezený model použít pro účely predikce časové řady, formulovat 4 kroky Box-Jenkinsovy metodologie, použít pro výpočet ARIMA modelu časové řady program SPSS. ČAS POTŘEBNÝ KE STUDIU K prostudování této kapitoly budete potřebovat asi 120 minut. Modely typu ARIMA a prognózování časových řad 140 KLÍČOVÁ SLOVA KAPITOLY ARIMA model, Box-Jenkinsova metodologie, identifikace modelu, odhad modelu, verifikace modelu, predikce pomocí modelu, SPSS. 10.1 Program SPSS Ke zvládnutí látky kapitoly je podstatnou měrou využit statistický program SPSS, který je dostupný v učebnách na SU OPF. SPSS je typem SW, který je do značné míry intuitivní a uživatelsky přátelský. Řešení příkladů uvedených v této kapitole, jsou podrobně komentována postupným procházením vložených menu. Přesto před studiem této kapitoly doporučujeme seznámit se podrobněji s hlavními funkcemi a způsobem ovládání programu SPSS. Na tomto místě zmíníme pouze jedinou informaci avšak prvořadé důležitosti: Přenos číselných dat mezi worksheetem v Excelu a Data View v SPSS funguje naprosto bezproblémově, a to na obě strany tak, jak jste zvyklí z MS Office: pomocí kombinace kláves Ctrl+C (kopírovat do schránky), Ctrl+V (vložit ze schránky). Prognózování (předvídání, předpovídání) je důležitou součástí ekonomických (ekonometrických) analýz, dá se říci, že z určitého pohledu nejdůležitější. Jak prognózovat budoucí hodnoty ekonomických veličin, jako jsou HDP, inflace, kurzy měn, ceny akcií, míra nezaměstnanosti a dalších? Jednu klasikou metodu již znáte: lineární, (resp. nelineární) regresní analýza, s níž jste se seznámili již v kapitolách 3 a 4. V této kapitole se dozvíte o nové metodě, která se stala v posledních letech velmi populární: tzv. modely autoregresivních a integrovaných procesů a klouzavých průměrů - ARIMA (z angl. Auto Regresive Integrated Moving Average), která je známa také pod názvem Box-Jenkinsova metodologie (podle autorů metody G.P.E. Boxe a G.M. Jenkinse ze 70. let 20. století). Téma ekonomického prognózování je velmi široké a existuje k němu množství specializovaných knih a dalších publikací. My zde chceme podat pouze stručný vhled do problematiky. Naštěstí k problematice prognózování ekonomických ČŘ existuje nejen vhodná literatura, její přehled lze nalézt např. u Arlta (1999), u Gujaratho (2003) aj., ale též příslušný specializovaný SW v podobě programových balíků jakými jsou SPSS (v současnosti je k dispozici na všech PC učebnách SU OPF), STATISTICA, SAS a další. V této kapitole budeme využívat konkrétně program SPSS, který obsahuje modul Time Series, umožňující modelování pomocí metody ARIMA. Jak jsme již dříve zmínili, k analýze ČŘ existuje řada různých metod a přístupů. Kromě již zmíněné (1) jednoduché regresní analýzy a (2) metody ARIMA, které jsou předmětem tohoto textu, je zapotřebí ještě jmenovat (3) metody exponenciálního vyrovnání (HoltovaWintersova metoda a jejich varianty), (4) metody simultánních rovnic a (5) vektorové autoregresivní metody VAR, (6) metody ARCH a GARCH a další. S nimi se zájemci mohou blíže seznámit např. v Seger (1998). Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 141 10.2 Modelování časových řad pomocí ARIMA modelu Podle svých autorů známa jako Box-Jenkinsova metodologie, avšak technicky nazývaná ARIMA metodologie klade důraz nikoliv na konstrukci jednorovnicového nebo vícerovnicového modelu, jak je tomu např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČŘ podle filosofie „ať data hovoří sama za sebe“. V regresních modelech je závisle proměnná Y vysvětlována několika vysvětlujícími proměnnými – regresory, zatímco v ARIMA metodách je závisle proměnná Y v čase t vysvětlována hodnotami téže Y v minulých časových okamžicích a zároveň chybovými členy v současných anebo minulých okamžicích. Na rozdíl od regresních modelů a modelů simultánních rovnic, které jsou založeny na ekonomické teorii, nejsou modely ARIMA na teorii přímo závislé. Teoretické závislosti jsou u nich vyjádřeny zprostředkovaně skrze sledované hodnoty v minulých časových okamžicích. 10.2.1 Autoregresivní proces (AR) Budeme předpokládat, že Yt se chová podle vztahu (Yt – ) = 1(Yt-1 – ) + ut, (10.1) kde  je střední hodnota Yt a ut je bílý šum, 1 je konstanta. V tom případě říkáme, že ČŘ Yt je autoregresivní proces 1. řádu, neboli AR(1). Podle modelu (10.1) je prognóza Y–  v čase t je přímo úměrná Y– v čase (t – 1) prostřednictvím koeficientu úměry 1 plus/mínus náhodná chyba (bílý šum). Pokud pro konstantu v modelu (10.1) platí –1 < 1 < 1, pak se dá ukázat, že proces AR(1) je stacionární. Dále si všimněte, že speciálně při 1 = 0 je z (10.1) proces AR(1) bílý šum a při 1 = 1 je z (10.1) proces AR(1) náhodná procházka. Také pro 1  1 nebo 1 < –1 je proces AR(1) nestacionární (Arlt, 1999). Podobně autoregresivní proces 2. řádu, neboli AR(2) má tvar (Yt – ) = 1(Yt-1 – ) +2(Yt-2 – ) + ut. (10.2) Analogicky autoregresivní proces p-tého řádu, neboli AR(p) má tvar (Yt – ) = 1(Yt-1 – ) +2(Yt-2 – ) +...+p(Yt-p – ) + ut. (10.3) Otázka stacionarity procesů AR(p) pro p > 1 je složitější problém, kterým se zde zabývat nebudeme. Eventuální zájemce odkazujeme na literaturu, např. knihu Arlt (1999). Všimněte si, že kromě hodnot Y v různých časových okamžicích se ve výše uvedených modelech nevyskytují jiné regresory. V tomto smyslu říkáme, že „data hovoří sama za sebe“. Modely typu ARIMA a prognózování časových řad 142 10.2.2 Proces klouzavých průměrů (MA) Výše uvedený AR proces není jediný, kterým lze generovat hodnoty Y. Nyní budeme předpokládat, že Yt se chová podle vztahu (Yt –) = ut – 1ut-1, (10.4) kde  je střední hodnota Yt a ut je bílý šum. V tom případě říkáme, že ČŘ Yt je proces klouzavých průměrů 1. řádu, neboli MA(1). Podle modelu (10.4) je prognóza Y– v čase t je přímo úměrná náhodné chybě v čase (t–1) prostřednictvím koeficientu úměry –1 plus/mínus náhodná chyba (bílý šum). Podobně proces klouzavých průměrů 2. řádu, neboli MA(2) má tvar (Yt – ) = ut – 1ut-1 – 2ut-2, (10.5) Analogicky proces klouzavých průměrů q-tého řádu, neboli MA(q) má tvar (Yt – ) = ut – 1ut-1 – 2ut-2 – ... – qut-q. (10.6) Jednoduše řečeno, proces klouzavých průměrů je lineární kombinací minulých náhodných chyb bílého šumu. Na rozdíl od AR procesů jsou procesy MA(q) pro všechna q  1 stacionární nezávisle na hodnotách koeficientů i. 10.2.3 Autoregresivní proces klouzavých průměrů (ARMA) Časová řada, která má charakteristiky jak AR tak MA procesů, je ARMA proces. Konkrétně ARMA proces 1. řádu, tj. ARMA(1,1) má tvar Yt =  +1Yt-1 + ut – 1ut-1, (10.7) kde  je konstantní člen. Analogicky můžete uvažovat procesy ARMA(p,q), které mají p autoregresivních a q klouzavých členů. Vzhledem ke stacionaritě procesu MA(q) je podmínka stacionarity procesu ARMA(p,q) totožná s podmínkou stacionarity procesu AR(p). Jinak řečeno, proces ARMA(p,q) je stacionární, právě když je stacionární proces AR(p). 10.2.4 Autoregresivní a integrovaný proces klouzavých průměrů (ARIMA) Časové procesy, které jste doposud poznali, byly vesměs za určitých podmínek stacionární. Dobře však víte, že mnohé ekonomické časové řady jsou nestacionární. Říkáme, že časová řada Yt, tj. stochastický proces Yt je integrovaný 1. řádu, neboli je to I(1) proces, jestliže 1. diference této časové řady je stacionární. Jinak řečeno, ČŘ Yt je integrovaná 1. řádu, jestliže Yt = Yt – Yt-1 je stacionární ČŘ. Analogicky lze zavést pojem integrované časové řady d-tého řádu, jestliže d-tá diference této ČŘ je stacionární, neboli d Yt = d-1 Yt Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 143 – d-1 Yt-1 je stacionární, přitom 1 = . Stacionární proces se této symbolice označuje jako I(0) proces. Proto když nejprve proces d-krát diferencujeme a poté obdržíme ARMA(p,q) proces, nazývá se původní proces ARIMA(p,d,q). V tomto symbolickém vyjádření znamenají např. ARIMA(p,0,q) a ARMA(p,q) stejný proces, stejně tak ARIMA(0,0,q) = MA(q), ARIMA(p,0,0) = AR(p), ARMA(p,0) = AR(p), apod. 10.3 Box – Jenkinsova metodologie prognózování časových řad Představte si, že máte analyzovat nějakou časovou řadu, jako třeba čtvrtletní HDP ČR. Jak zjistíte, o který typ procesu se jedná? Jde o realizaci AR procesu, nebo snad MA procesu, či jejich kombinaci ARMA? Může byt konkrétní časová řada realizaci více různých typů procesu, např. jak AR(1), tak současně MA(1)? V této souvislosti hledáme model časové řady a hned je třeba říci, že konkrétní časová řada může mít několik „správných“ modelů. Zda je model „správný“ ověříme postupem zvaným verifikace modelu, viz Krok 3 v následujícím postupu. Předtím však musíte v Kroku 1 identifikovat, o jaký typ procesu se ve vašem případě jedná, zda je to proces AR, MA, ARI apod., a také stanovit řád příslušného procesu, např. AR(2), kde řád p = 2, nebo ARI(2,1), kde se jedná o integrovaný proces I(1) řádu d=1 v kombinaci autoregresivním procesem AR(2) řádu p = 2,. Abyste mohli „správně“ prognózovat hodnoty časové řady v budoucnosti (Krok 4), musíte mít k dispozici „správný“ model ČŘ, který následně použijete pro výpočet prognózy. Celý postup tvorby prognózy ČŘ autoři metody ARIMA formulovali ve 4 krocích, které nazýváme Box-Jenkinsova metodologie prognózování ČŘ. Jednotlivé kroky si teď přiblížíme i s ohledem na použití statistického programu SPSS. Krok1. Identifikace modelu: Stanovení typu modelu (AR, MA, I, ARMA, ARIMA, sezónnosti apod.) a řádů, tj. čísel p, d, q v modelu ARIMA(p,d,q). V sezónních modelech SARIMA se stanoví ještě další parametry sp, sd, sq (viz Analyze  Time Series  ARIMA v SPSS). Využívá se přitom tvarů ACF a PACF (viz dále). Krok 2. Odhad modelu: Odhad parametrů modelu - výpočet koeficientů modelu i a j ( v SPSS je použita metoda maximální věrohodnosti, což je obdoba metody nejmenších čtverců –MNČ). Diferencování modelu (d-krát) vede ke stacionarizaci ČŘ. Krok 3. Verifikace modelu: Výpočet Rezidua – rozdílu mezi modelovými hodnotami a příslušnými hodnotami z dat. (V SPSS jsou to hodnoty proměnné ERR). Model je správný, pokud reziduum je bílý šum, jinak je třeba přejít na Krok 1 – k nové identifikaci a přehodnocení modelu. Tento krok do značné míry závisí na zkušenostech analytika – nejde o přísně exaktní postup (např. hodnocení tvarů ACF a PACF, resp. statistické významnosti hodnot ACF a PACF na hladině spolehlivosti 95%). Modely typu ARIMA a prognózování časových řad 144 Krok 4. Prognózování: Výpočet modelem prognózovaných hodnot v zadaném časovém horizontu prognózy a intervalů spolehlivosti prognózy. (V SPSS jsou to hodnoty proměnné FIT, 95%UCL a 95%LCL). Aplikaci jednotlivých kroků s využitím SPSS si ukážeme na konkrétním příkladu v závěru této kapitoly. Ještě předtím se seznámíte s dalšími nástroji a metodami, které se využívají v prvním kroku při identifikaci modelu ČŘ. Významným nástrojem ke stanovení typu modelu (AR, MA, I, ARMA, ARIMA) je autokorelační funkce k, k = 1,2,..., (ACF) a korelogram, resp. výběrová autokorelační funkce kρˆ , k = 1,2,..., a výběrový korelogram.. Korelace mezi 2 náhodnými veličinami je často způsobena tím, že obě tyto veličiny jsou korelovány s veličinou třetí. Velká část korelace mezi veličinami Yt a Yt-k může být zapříčiněna jejích korelací s mezilehlými veličinami Yt- 1, Yt-2,,,,,Yt-k+1. Pojem parciální autokorelace zachycuje korelaci mezi veličinami Yt a Yt-k očištěnou o vliv veličin mezi nimi. Parciální autokorelační koeficient kk, k = 0,1,2,..., (2 indexy kk) je analogií k pojmu parciální regresní koeficient. Uvažujte k-násobnou lineární regresi Yt s regresory Yt-1, Yt-2,,,,,Yt-k: Yt = k1 Yt-1+ k2 Yt-2+...+kk Yt-k + et. (10.8) Regresní koeficient kk je ve (10.8) právě parciální autokorelační koeficient. Vztahu (10.8) se využívá k výpočtu výběrového parciálního autokorelačního koeficientu kkρˆ , viz Arlt (1999). Důležitou roli hraje tzv. parciální autokorelační funkce (PACF) stochastického procesu ρkk pro k =0,1,2,… PACF má následující vlastnosti: ρ00 = 1, –1 ≤ ρkk ≤ 1 pro k = 1,2,… ρkk = ρ-k,-k pro k = 1,2,…, tj. PACF je symetrická kolem k = 0. Grafickým znázorněním PACF je parciální korelogram. Vzhledem k uvedeným vlastnostem stačí, aby parciální korelogram zobrazoval hodnoty pro posuvy k > 0. 10.3.1 Identifikace procesů ARIMA pomocí ACF a PACF Při identifikaci typu procesu ARIMA a jeho řádů využíváme charakteristických tvarů ACF a PACF. Různé typy procesů ARIMA mají charakteristické tvary korelogramů a parciálních korelogramů. V SPSS využíváme nabídku: Analyze  Time Series  Autocorrelations… Jednotlivé typy procesů mají následující charakteristiky: a. Proces AR(p): Prvních p hodnot PACF je „velkých“, další = 0 a „rychlý“ pokles (v absolutních hodnotách) ACF. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 145 Obrázek 27: Příklady korelogramů AR(1) b. Proces MA(q): Prvních q hodnot ACF je „velkých“, další = 0 a „rychlý“ pokles (v absolutních hodnotách) PACF. Obrázek 28: Příklady korelogramů MA(1) c. Proces I(d): „Pomalý“ pokles ACF, prvních d hodnot PACF je „velkých“, další = 0. Obrázek 29: Příklady korelogramů I(1): „Náhodná procházka“ Lag Number 16151413121110987654321 ACF 1,0 0,5 0,0 -0,5 -1,0 AR1 Lower Confidence Limit Upper Confidence Limit Coefficient Lag Number 16151413121110987654321 PartialACF 1,0 0,5 0,0 -0,5 -1,0 MA1 Lower Confidence Limit Upper Confidence Limit Coefficient Lag Number 16151413121110987654321 ACF 1,0 0,5 0,0 -0,5 -1,0 I1 Lower Confidence Limit Upper Confidence Limit Coefficient Modely typu ARIMA a prognózování časových řad 146 d. Proces ARMA(p,q): Prvních q hodnot ACF je „velkých“, další = 0 a prvních p hodnot PACF je „velkých“, další = 0. Obrázek 30: Příklady korelogramů ARMA(1) ŘEŠENÁ ÚLOHA 10.1 Uvažujte časovou řadu „Čtvrtletní HDP České republiky“ v mil. Kč (https://www.cnb.cz/cnb/STAT.ARADY_PKG.PARAMETRY_SESTAVY?p_sestuid=28788&p_strid=ACCAAA&p_lang=CS). Hodnoty časové řady jsou uvedeny v následující Tabulce 14 a zobrazeny v grafu na Obrázku 31. Tabulka 14: HDP ČR v mil. Kč v letech 2005 – 2017 1Q/2005 749693 1Q/2009 933028 1Q/2013 947380 2Q/2005 816772 2Q/2009 982413 2Q/2013 1020805 3Q/2005 824172 3Q/2009 986655 3Q/2013 1038854 4Q/2005 874294 4Q/2009 1028313 4Q/2013 1091089 1Q/2006 801890 1Q/2010 917763 1Q/2014 990626 2Q/2006 869391 2Q/2010 1002363 2Q/2014 1076850 3Q/2006 895247 3Q/2010 1003950 3Q/2014 1107159 4Q/2006 946270 4Q/2010 1038388 4Q/2014 1139154 1Q/2007 885011 1Q/2011 935801 1Q/2015 1058526 2Q/2007 949886 2Q/2011 1015093 2Q/2015 1155270 3Q/2007 977949 3Q/2011 1020757 3Q/2015 1175617 4Q/2007 1027271 4Q/2011 1062104 4Q/2015 1206370 1Q/2008 929700 1Q/2012 957466 1Q/2016 1109181 2Q/2008 1015944 2Q/2012 1021068 2Q/2016 1213741 3Q/2008 1040456 3Q/2012 1021043 3Q/2016 1209586 4Q/2008 1038017 4Q/2012 1060335 4Q/2016 1240732 1Q/2017 1159741 2Q/2017 1267084 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 147 Obrázek 31: HDP ČR v mil. Kč v letech 2005 – 2017 Najděte vhodný ARIMA model této časové řady a pomocí něj prognózujte čtvrtletní hodnoty HDP až do konce roku 2019. Řešení: K řešení využijeme Box-Jenkinsovu metodologii prognózování ČŘ formulovanou ve 4 krocích popsaných v subkapitole 10.3. Použijeme k tomu statistický program SPSS. V menu: Data  Define Data Years, Quaters vytvoříme hodnoty časové osy (počínaje rok – čtvrtletí): Year: 2005, Quarter: 1. Krok 1: Identifikace modelu procesu ARIMA. Z prostého pohledu na spojnicový graf na Obrázku 31 lze usoudit, že se jedná o nestacionární časovou řadu, zároveň vykazuje sezónní složku se 4 sezónami. Tento předpoklad potvrdíme analýzou korelogramů ACF a PACF. V menu: Analyze  Forecasting  Autocorrelations…vložíme proměnnou HDP_Q a ve výstupu Output obdržíme korelogramy, které zachycuje Obrázek 32. Obrázek 32: Korelogramy HDP ČR V korelogramu hodnoty ACF pomalu klesají, v PACF je „velká“ první a pátá hodnota. Z toho vyvozujeme, že se jedná o nestacionaritu 1. řádu, tj. typu I(1). Stacionarizujeme 0 200000 400000 600000 800000 1000000 1200000 1400000 1Q/2005 4Q/2005 3Q/2006 2Q/2007 1Q/2008 4Q/2008 3Q/2009 2Q/2010 1Q/2011 4Q/2011 3Q/2012 2Q/2013 1Q/2014 4Q/2014 3Q/2015 2Q/2016 1Q/2017 Modely typu ARIMA a prognózování časových řad 148 proto ČŘ jedním diferencováním, dále zvolíme sezónní diferencování a zobrazíme korelogramy, které jsou na Obrázku 33. Obrázek 33: Korelogramy diferencované časové řady HDP ČR Krok 2: Odhad paramteru modelu – výpočet koeficientů provedeme v programu SPSS v menu: Analyze  Forecasting  Create Models, Dependent Variable: HDP_Q, Independent Variable: QUARTER, Method: ARIMA, Criteria viz. Obrázek 34. Jedná se o model SARIMA (0,1,0)x(0,1,1). Obrázek 34: Zadání ARIMA modelu (0,1,0)x(0,1,1) Dále zadáme v záložce Statistics Parametrer estimatis a dostaneme Tabulku 14. Tabulka 14: Odhady parametrů modelu ARIMA Model Parameters Estimate SE t Sig. Constant 54,804 1334,602 ,041 ,967 Difference 1 Seasonal Difference 1 MA, Seasonal Lag 1 ,498 ,151 3,296 ,002 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 149 Krok 3: Verifikace modelu – spočívá v ověření předpokladu, že reziduum je bílým šumem. V SPSS jsou to hodnoty proměnné ERR. V menu Analyze  Forecasting  Autocorrelations.. vložíme proměnnou ERR, potvrdíme a dostáváme Obrázek 35. Obrázek 35: Korelogramy reziduí časové řady HDP ČR Uvedené korelogramy potvrzují, že ACF i PACF jsou nulové, proto reziduum je bílý šum. Krok 4: Prognózu odhadneme do konce roku 2019. Výsledky ukazuje Tabulka 15. Tabulka 15: Predikce HDP_ČR do konce roku 2019 Období Bodový odhad HDP_ČR v mil. Kč Intervalový odhad HDP_ČR v mil. Kč Q3 2017 1275301 1242689 1307913 Q4 2017 1308320 1262200 1354440 Q1 2018 1220540 1164055 1277026 Q2 2018 1322466 1257242 1387689 Q3 2018 1330737 1249178 1412296 Q4 2018 1363811 1268681 1458941 Q1 2019 1276087 1169094 1383079 Q2 2019 1378067 1260401 1495732 Q3 2019 1386393 1251811 1520975 Q4 2019 1419522 1269925 1569119 Dále zobrazíme v jednom grafu hodnoty půvdní časové řady a hodnoty modelované časové řady, jak ukazuje Obrázek 36. Modely typu ARIMA a prognózování časových řad 150 Obrázek 36: Grafické zobrazení původní a odhadnuté časové řady SHRNUTÍ KAPITOLY V této závěrečné kapitole jste se seznámili s časovými řadami typu ARIMA. Box-Jenkinsova metodologie, která se touto problematikou zabývá, klade důraz nikoliv na konstrukci jednorovnicového nebo vícerovnicového modelu, jak tomu bylo např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČŘ. Postupně jste se seznámili s vlastnostmi autoregresivních procesů AR, procesů pohyblivých průměrů MA, integračních procesů I, jakož i procesů vzniklých jejich kombinací ARIMA. Dále byly tyto procesy rozšířeny též na sezónní procesy. Úkolem pak bylo pro konkrétní časovou řadu nalézt vhodný konkrétní model typu ARIMA a nalezený model použít pro účely prognózy (predikce, extrapolace) hodnot dané časové řady. Celý postup tvorby prognózy ČŘ autoři metody ARIMA formulovali ve 4 krocích, které nazýváme Box-Jenkinsova metodologie prognózování ČŘ. Jednotlivé kroky jsou (1) Identifikace modelu, (2) Odhad modelu, (3) Verifikace modelu a (4) Prognóza pomocí modelu. Jednotlivé kroky Box-Jenkinsovy metodologie byly ilustrovány na příkladu časové řady čtvrtletního HDP České republiky s pomocí statistického programu SPSS. 10.4 Samostatné úkoly 10.1 Uvažujte časovou řadu počtu vyrobených součástek v tis. ks v letech 1996 - 2017. Hodnoty časové řady jsou uvedeny v následující tabulce. Najděte vhodný ARIMA model této časové řady a pomocí něj prognózujte čtvrtletní hodnoty až do konce roku 2019. Použijte přitom 4 kroky Box-Jenkinsovy metodologie. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 151 1Q/1996 2872,8 1Q/2001 3154 1Q/2006 3830,8 1Q/2011 4221,8 1Q/2016 4880,8 2Q/1996 2860,3 2Q/2001 3190,4 2Q/2006 3732,6 2Q/2011 4254,8 2Q/2016 4900,3 3Q/1996 2896,6 3Q/2001 3249,9 3Q/2006 3733,5 3Q/2011 4309 3Q/2016 4903,3 4Q/1996 2873,7 4Q/2001 3292,5 4Q/2006 3808,5 4Q/2011 4333,5 4Q/2016 4855,1 1Q/1997 2942,9 1Q/2002 3356,7 1Q/2007 3860,5 1Q/2012 4390,5 1Q/2017 4824 2Q/1997 2947,4 2Q/2002 3369,2 2Q/2007 3844,4 2Q/2012 4387,7 2Q/2017 4840,7 3Q/1997 2966 3Q/2002 3381 3Q/2007 3864,5 3Q/2012 4412,6 3Q/2017 4862,7 4Q/1997 2980,8 4Q/2002 3416,3 4Q/2007 3803,1 4Q/2012 4427,1 4Q/2017 4868 1Q/1998 2027,3 1Q/2003 3466,4 1Q/2008 3756,1 1Q/2013 4460 2Q/1998 3089,7 2Q/2003 3525 2Q/2008 3771,1 2Q/2013 4515,3 3Q/1998 3125,8 3Q/2003 3574,4 3Q/2008 3754,4 3Q/2013 4559,3 4Q/1998 3175,5 4Q/2003 3567,2 4Q/2008 3759,6 4Q/2013 4625,5 1Q/1999 3253,3 1Q/2004 3591,8 1Q/2009 3783,5 1Q/2014 4655,3 2Q/1999 3267,6 2Q/2004 3707 2Q/2009 3886,5 2Q/2014 4704,8 3Q/1999 3264,3 3Q/2004 3735,6 3Q/2009 3944,4 3Q/2014 4734,5 4Q/1999 3289,1 4Q/2004 3779,6 4Q/2009 4012,1 4Q/2014 4779,7 1Q/2000 3259,4 1Q/2005 3780,8 1Q/2010 4089,5 1Q/2015 4809,8 2Q/2000 3267,6 2Q/2005 3784,3 2Q/2010 4144 2Q/2015 4832,4 3Q/2000 3239,1 3Q/2005 3807,5 3Q/2010 4166,4 3Q/2015 4845,6 4Q/2000 3226,4 4Q/2005 3814,6 4Q/2010 4194,2 4Q/2015 4859,7 10.5 Řešení úkolů, výsledky 10.1 a) Identifikace modelu Na základě tvaru korelačních funkcí diferencované ČŘ vybíráme model ARIMA (1; 1; 0). b) Odhad parametrů modelu ARIMA Model Parameters Estimate SE t Sig. Constant 23,122 10,586 2,184 ,032 AR Lag 1 -,443 ,097 -4,567 ,000 Difference 1 Modely typu ARIMA a prognózování časových řad 152 Koeficient AR1= – 0,443 je statisticky významný na hladině významosti 0,01 (protože hodnota signifikance = 0,000 je mneší než 0,01). c) Verifikace modelu Korelogramy potvrzují, že ACF i PACF jsou nulové, proto reziduum je bílý šum. d) Predikce počtu vyrobených výrobků do 4. čtvrtletí 2019 Období Bodový odhad Intervalový odhad (95%) Q1 2018 4899,02 4616,74 5181,29 Q2 2018 4918,64 4595,52 5241,76 Q3 2018 4943,31 4556,50 5330,12 Q4 2018 4965,75 4535,63 5395,87 Q1 2019 4989,17 4515,27 5463,08 Q2 2019 5012,16 4500,02 5524,30 Q3 2019 5035,34 4486,88 5583,80 Q4 2019 5058,44 4476,23 5640,65 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 153 Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 154 LITERATURA ANDĚL,Jiří, 2007. Statistické metody. 4. upr. vyd. Praha: Marfyzpress, 299 s. ISBN 80- 7378-003-8. ARLT, Josef, 1999. Moderní metody modelování ekonomických časových řad. 1.vyd. Praha: Grada Publishing, 307 s. ISBN 80-716-9539-4. CIPRA,Tomáš, 1986. Analýza časových řad s aplikacemi v ekonomii. 1.vyd. Praha: Státní nakladatelství technické literatury, 246 s. GUJARATI, Damodar N, c2003. Basic econometrics. 4th ed. Boston: McGraw-Hill, xxix, 1002 s. ISBN 978-0-07-233542-2. HÁTLE, Jaroslav a LIKEŠ, Jiří, 1974. Základy počtu pravděpodobnosti a matematické statistiky. 2. vyd. Praha: SNTL. 463 s. HINDLS, Richard, SEGER, Jan a HRONOVÁ, Stanislava, 2002. Statistika pro ekonomy. 1. vyd. Praha: Professional Publishing, 415 s. ISBN 80-864-1926-6. KAŇKA, Miloš, 1998. Vybrané partie z matematiky pro ekonomy. 1.vyd. Praha: VŠE, 231 s. ISBN 80-707-9537-9. MAREK, Luboš a kol., 2007. Statistika pro ekonomy: aplikace. 2. vyd. Praha: Professional Publishing. 485 s. ISBN 978-80-86946-40-5. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2000. Statistika A. Vyd. 3., rozš. a upr. V Opavě: Slezská univerzita, Obchodně podnikatelská fakulta v Karviné, 162 s. ISBN 80- 7248-097-9. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2000. Statistika B. Vyd. 2., rozš. a upr. V Opavě: Slezská univerzita, Obchodně podnikatelská fakulta v Karviné, 143 s. ISBN 80- 724-8099-5. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2003. Kvantitativní metody B: statistika. Vyd. 1. Karviná: Slezská univerzita v Opavě, Obchodně podnikatelská fakulta v Karviné, 206 s. ISBN 80-724-8198-3. SEGER, Jan, HRONOVÁ, Stanislava a HINDLS, Richard, 1998. Statistika v hospodářství. 1.vyd. Praha: ETC Publishing, 636 s. ISBN 80-860-0656-5. Jaroslav Ramík, Radmila Stoklasová - Statistické zpracování dat 155 SHRNUTÍ STUDIJNÍ OPORY Tento text představuje studijní oporu pro studium všech akreditovaných studijních programů v navazujícím magisterském studiu na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné. Předmět Statistické zpracování dat navazuje na předmět Statistika obsahující základní bakalářský kurz statistiky na SU OPF, nebo na obdobný ekvivalentní předmět základů statistiky v bakalářském stupni studia na jiné VŠ ekonomického zaměření v ČR. Tento text je inovací předchozí studijní opory. V tomto předmětu je kladen důraz především na uplatnění statistických metod při zpracování ekonomických dat v aplikovaných ekonomických disciplínách, jako jsou zejména marketing a management. Samotný učební text, nebo jak se říká v moderní terminologii: studijní opora - umožňující studentovi plnohodnotné a zároveň samostatné studium – je rozčleněn do 10 tematických kapitol. Vysokoškolské studium v případě předmětu Statistické zpracování dat vyžaduje enormní úsilí studenta zaměřené na pravidelnost a vytrvalost ve studiu i samostudiu, schopnost koncentrace na předmět, aktivní přístup spočívající na samostatném řešení příkladů. V tom všem by tato studijní opora měla studentům pomoci. Dalšími podpůrnými zdroji ke studiu mohou být klasické učebnice a skripta a další doporučená literatura. 156 PŘEHLED DOSTUPNÝCH IKON Čas potřebný ke studiu Cíle kapitoly Klíčová slova Nezapomeňte na odpočinek Průvodce studiem Průvodce textem Rychlý náhled Shrnutí Tutoriály Definice K zapamatování Případová studie Řešená úloha Věta Kontrolní otázka Korespondenční úkol Odpovědi Otázky Samostatný úkol Další zdroje Pro zájemce Úkol k zamyšlení . Název: Statistické zpracování dat Autor: Prof. RNDr. Jaroslav Ramík, CSc., Mgr. Radmila Stoklasová, Ph.D. Klikněte sem a zadejte text. Vydavatel: Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné Určeno: studentům SU OPF Karviná Počet stran: 156 Tato publikace neprošla jazykovou úpravou.