HvropskýS Q a ^'n L ' M I N I & T E H S T V Ů SKŮLSTVÍ, O F Y _ . f c n d v C R EVROPSKÁ UNIE MLADEÍE A TĚJŮVŤCHŮVT m mriinwKkoiinMt Slezska univerzita v O p a v e INVESTICE DO ROZVOJE VZDĚLÁVÁNI Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné STATISTICKÉ ZPRACOVANÍ DAT Pro kombinovanou formu studia Jaroslav Ramík, Radmila Stoklasová K a r v i n á 2 0 1 3 Projekt OP V K č. CZ.l.07/2.2.00/28.0017 „Inovace studijních programů na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné" Název: Statistické zpracování dat Autor: prof. RNDr. Jaroslav Ramík, CSc, Mgr. Radmila Stoklasová, Ph.D. Vydavatel: Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné Určeno: studentům Obchodně podnikatelské fakulty v Karviné Počet stran: 162 A A - VA: 7,07 - 7,35 Náklad: 100 Tiskárna: Z + M Partner, spol. s r.o. Ostrava Číslo publikace: 595-200-2013 ISBN: 978-80-7248-842-1 Tato publikace neprošla jazykovou úpravou. M I N I S T E R S T V O Š K O L S T V Í , OP Vzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost Slezská univerzita v Opavě I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné STATISTICKÉ ZPRACOVÁNÍ DAT Pro kombinovanou formu studia Jaroslav Ramík a Radmila Stoklasové Karviná 2013 evropský sociální fond V ČR EVROPSKÁ UNIE Projekt OP V K č. CZ. 1.07/2.2.00/28.0017 „Inovace studijních programů na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné" Obor: Statistika. Anotace: Publikace představuje studijní oporu vysokoškolského kurzu Statistické metody pro ekonomy pro navazující studium na vysoké škole ekonomického zaměření. Obsahově pokrývá základní témata: analýza rozptylu - 1 faktor, analýza rozptylu - 2 faktory, jednorozměrná a vícerozměrná analýzy rozptylu a časové řady. Klíčová slova: Analýza rozptylu, jednoduchá regresní analýza, vícerozměrná regresní analýza, analýza časových řad, Box - Jenkinsova metodologie. Autor: p r o f. RNDr. Jaroslav Ramík, CSc. Mgr. Radmila Stoklasové, Ph.D. Recenzenti: doc. Ing. Jana Hančlová, CSc. Ing. Filip Tošenovský, Ph.D. ISBN 978-80-7248-842-1 OBSAH ÚVOD 6 1 ANALÝZA ROZPTYLU (ANOVA) - JEDEN FAKTOR 9 1.1 N E Z Á V I S L Ý A Z Á V I S L Ý F A K T O R 10 1.2 P R E D P O K L A D Y A N A L Ý Z Y R O Z P T Y L U S J E D N Í M F A K T O R E M 11 1.3 P O S T U P PŘI A N A L Ý Z E R O Z P T Y L U S J E D N Í M F A K T O R E M 12 1.4 M Í R A T Ě S N O S T I Z Á V I S L O S T I 14 l .5 S A M O S T A T N É Ú K O L Y 20 1.6 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 21 2 ANALÝZA ROZPTYLU (ANOVA) - DVA A VÍCE FAKTORŮ 22 2.1 A N A L Ý Z A R O Z P T Y L U S E D V Ě M A F A K T O R Y 22 2.2 P Ř E D P O K L A D Y ANOVA S E 2 F A K T O R Y 24 2.3 S A M O S T A T N É Ú K O L Y 32 2.4 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 33 3 REGRESNÍ ANALÝZA - JEDNOROZMĚRNÁ LINEÁRNÍ REGRESE 34 3.1 R E G R E S N Í A N A L Ý Z A 34 3.2 J E D N O D U C H Á R E G R E S N Í A N A L Ý Z A 35 3.3 M E T O D A N E J M E N Š Í C H Č T V E R C Ů 36 3.4 M Í R A V A R I A B I L I T Y , K O E F I C I E N T D E T E R M I N A C E 37 3.5 K L A S I C K Ý L I N E Á R N Í M O D E L 39 3.6 S A M O S T A T N É Ú K O L Y 44 3.7 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 45 4 REGRESNÍ ANALÝZA - JEDNOROZMĚRNÁ: INTERVALY SPOLEHLIVOSTI, TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE 46 4.1 I N T E R V A L Y S P O L E H L I V O S T I 46 4.2 T E S T Y H Y P O T É Z 47 4.3 N E L I N E Á R N Í R E G R E S N Í A N A L Ý Z A 48 4.4 P A R A B O L I C K Á R E G R E S E 50 4.5 T Ó R N Q U I S T O V Y F U N K C E 50 4.6 M E T O D A V Y B R A N Ý C H B O D Ů 52 4.7 S A M O S T A T N É Ú K O L Y 63 4.8 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 64 5 REGRESNÍ ANALÝZA - VÍCEROZMĚRNÁ 65 5.1 V Í C E R O Z M Ě R N Á R E G R E S N Í A N A L Ý Z A 65 5.2 M E T O D A N E J M E N Š Í C H Č T V E R C Ů 66 5.3 N Á H O D N Ý V E K T O R A J E H O C H A R A K T E R I S T I K Y 67 5.4 K L A S I C K Ý L I N E Á R N Í M O D E L 67 5.5 M Í R Y V A R I A B I L I T Y A K O E F I C I E N T D E T E R M I N A C E 68 5.6 I N T E R V A L Y S P O L E H L I V O S T I A T E S T Y H Y P O T É Z 69 5.7 I N D I V I D U Á L N Í T - T E S T Y O H O D N O T Á C H R E G R E S N Í C H K O E F I C I E N T Ů 70 5.8 F - T E S T H Y P O T É Z Y O H O D N O T Á C H R E G R E S N Í C H K O E F I C I E N T Ů 71 5.9 S A M O S T A T N É Ú K O L Y 77 5.10 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 79 6 REGRESNÍ ANALÝZA - VÍCEROZMĚRNÁ: MULTIKOLINEARITA, HETEROSKEDASTICITA, AUTOKORELACE 82 6.1 CO J E M U L T I K O L I N E A R I T A ? 82 6.2 CO J E H E T E R O S K E D A S T I C I T A ? 85 -3- 6.2.1 JAKZJIŠŤOVATHETER0SKEDAST1C1TU? 86 6.2.2 JAK ODSTRAŇOVATHETEROSKEDASTICITU? 6.3 CO J E A U T O K O R E L A C E ? 91 6.4 S A M O S T A T N É Ú K O L Y 92 6.5 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 93 7 FIKTIVNÍ PROMĚNNÉ 94 7.1 CO J S O U F I K T I V N Í P R O M Ě N N É ? 94 7.2 F I K T I V N Í P R O M Ě N N É A A N O V A 94 7.3 S P O L E Č N É F I K T I V N Í A K V A N T I T A T I V N Í P R O M Ě N N É 97 7.4 F I K T I V N Í P R O M Ě N N É V S E Z Ó N N Í C H M O D E L E C H 100 7.5 S A M O S T A T N É Ú K O L Y 102 7.6 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 102 8 ZÁKLADY ANALÝZY ČASOVÝCH ŘAD 103 8.1 T Y P Y E K O N O M I C K Ý C H Č A S O V Ý C H Ř A D 103 8.2 E L E M E N T Á R N Í C H A R A K T E R I S T I K Y Č A S O V Ý C H Ř A D 105 8.3 M O D E L Y E K O N O M I C K Ý C H Č A S O V Ý C H Ř A D 105 8.4 S A M O S T A T N É Ú K O L Y 107 8.5 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 107 9 ANALÝZA TRENDU ČASOVÝCH ŘAD 108 9.1 T R E N D O V Á S L O Ž K A Č A S O V Ý C H Ř A D 108 9.2 L I N E Á R N Í T R E N D 109 9.3 P A R A B O L I C K Ý T R E N D 109 9.4 M O C N I N N Ý T R E N D 110 9.5 E X P O N E N C I Á L N Í T R E N D 110 9.6 L O G I S T I C K Ý T R E N D 111 9.7 G O M P E R T Z Ů V T R E N D 112 9.8 V O L B A V H O D N É H O M O D E L U T R E N D U 112 9.9 K L O U Z A V É P R Ů M Ě R Y 113 9.10 E X P O N E N C I Á L N Í V Y R O V N Á N Í 114 9.11 S A M O S T A T N É Ú K O L Y 121 9.12 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 121 10 ANALÝZA SEZÓNNÍ SLOŽKY A NÁHODNÉ SLOŽKY 122 10.1 P E R I O D I C K Á S L O Ž K A Č A S O V Ý C H Ř A D 122 10.2 H A R M O N I C K Á A N A L Ý Z A 122 10.3 M O D E L K O N S T A N T N Í S E Z Ó N N O S T I S E S C H O D O V I T Ý M T R E N D E M 124 10.4 M O D E L K O N S T A N T N Í S E Z Ó N N O S T I S L I N E Á R N Í M T R E N D E M 125 10.5 M O D E L P R O P O R C I O N Á L N Í S E Z Ó N N O S T I 126 10.6 A N A L Ý Z A N Á H O D N É S L O Ž K Y 126 10.7 S A M O S T A T N É Ú K O L Y 132 10.8 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 133 11 STOCHASTICKÉ PROCESY 134 11.1 S T O C H A S T I C K Ý ( N Á H O D N Ý ) P R O C E S 134 11.2 S T A C I O N Á R N Í A N E S T A C I O N Á R N Í P R O C E S 135 11.3 B Í L Ý Š U M A N Á H O D N Á P R O C H Á Z K A 138 11.4 D E T E R M I N I S T I C K Ý A S T O C H A S T I C K Ý T R E N D 140 11.5 J A K P O Z N Á M E , Ž E Č Ř J E S T A C I O N Á R N Í ? 142 11.6 S A M O S T A T N É Ú K O L Y 144 1 1.7 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 145 12 MODELY TYPU ARIMA A PROGNÓZOVANÍ ČASOVÝCH ŘAD 146 -4- 12.1 Ú V O D 146 12.2 M O D E L O V Á N Í Č A S O V Ý C H Ř A D P O M O C Í A R I M A 147 12.3 A U T O R E G R E S I V N Í P R O C E S (AR) 148 12.4 P R O C E S K L O U Z A V Ý C H P R Ů M Ě R Ů ( M A ) 149 12.5 A U T O R E G R E S I V N Í P R O C E S K L O U Z A V Ý C H P R Ů M Ě R Ů ( A R M A ) 149 12.6 A U T O R E G R E S I V N Í A I N T E G R O V A N Ý P R O C E S K L O U Z A V Ý C H P R Ů M Ě R Ů ( A R I M A ) 149 12.7 S E Z Ó N N Í P R O C E S Y A R I M A ..„ 150 12.8 B O X - J E N K I N S O V A M E T O D O L O G I E P R O G N Ó Z O V A N Í Č Ř 150 12.9 P R O G N Ó Z O V A N Í P O M O C Í A R I M A M O D E L Ů 151 12.10 I D E N T I F I K A C E P R O C E S Ů A R I M A P O M O C Í A C F A P A C F 151 12.11 S A M O S T A T N É Ú K O L Y 157 12.12 Ř E Š E N Í Ú K O L Ů , V Ý S L E D K Y 159 ZÁVĚR 161 SEZNAM DOPORUČENÉ LITERATURY 162 -5- ÚVOD Tento text představuje studijní oporu pro studium všech akreditovaných studijních programů v navazujícím magisterském studiu na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné. Předmět Statistické zpracování dat navazuje na předmět Statistika (dříve Kvantitativní metody B) obsahující základní bakalářský kurz statistiky na SU OPF, nebo na obdobný ekvivalentní předmět základů statistiky v bakalářském stupni studia na jiné VŠ ekonomického zaměření v ČR. Tento text je inovací předchozí studijní opory s názvem Statistika pro navazující magisterské studium, specializované pro studenty distanční a kombinované formy studia. Inovací studijních oborů na SU OPF v rámci projektu OPVK vznikl také předmět Statistické zpracování dat. V tomto předmětu je kladen důraz především na uplatnění statistických metod při zpracování ekonomických dat v aplikovaných ekonomických disciplínách, jako jsou zejména marketing a management. Samotný učební text, nebo jak se říká v moderní terminologii: studijní opora umožňující studentovi plnohodnotné a zároveň samostatné studium - je rozčleněn do 12 tematických kapitol. Jednotlivé kapitoly odpovídají obvyklým výukovým týdnům jednoho semestru a jsou přibližně stejně obsahově rozsáhlé a obtížné. Takový rozsah učiva odpovídá klasické dvouhodinové přednášce v prezenčním studiu na vysoké škole ekonomického zaměření. V prezenčním studiu je ovšem na rozdíl od kombinované formy studia přednáška doplněna seminářem, kde se probraná látka aplikuje na konkrétní číselné příklady, které se řeší až k požadovanému výsledku pomocí počítače. Vysokoškolské studium v případě předmětu Statistické zpracování dat vyžaduje enormní úsilí studenta zaměřené na pravidelnost a vytrvalost ve studiu i samostudiu, schopnost koncentrace na předmět, aktivní přístup spočívající v samostatném řešení příkladů. V tom všem by tato studijní opora měla studentům kombinované formy studia pomoci nahradit kvalitní prezenční výuku i úlohu učebnic a skript. Studijní opora je k tomu účelu vybavena určitými nástroji, o jejichž funkcích byste měli být informováni a mohli je tudíž účelně využívat ve svůj prospěch. Pro lepší zvládnutí látky jsou vám v elektronické verzi kurzu Statistické zpracování dat k dispozici ještě doplňkové materiály v elektronické podobě. Dalšími podpůrnými zdroji ke studiu mohou být klasické učebnice a skripta a další doporučená literatura. Předpokladem pro úspěšné zvládnutí tohoto předmětu Statistické zpracování dat je zvládnutí bakalářského předmětu Statistika na SU OPF nebo odpovídajícího základního bakalářského kurzu Pravděpodobnosti - Statistiky, a to podle typu bakalářského studia na některé VŠ v ČR. Ne všechno, co jste se v základních kurzech statistiky naučili, zde využijete, řada věcí tam prezentovaných měla jiný účel. Rozhodně se vám však vyplatí nabytá schopnost přesného a logického uvažování, nezbytností je též zvládnutí matematické symboliky a základních partií teorie pravděpodobnosti a základů inferenční statistiky. Nyní něco k obsahu předmětu Statistické zpracování dat. Přesnější název předmětu by zněl: Vybrané statistické metody zpracování dat pro ekonomy, nebo ještě jinak: Vybrané statistické metody zpracování dat a jejich použití v marketingu a managementu. To jsou totiž významné oblasti uplatnění statistických metod, s nimiž se absolventi Obchodně podnikatelské fakulty SU často v praxi setkávají. Obsahem kapitol 1 a 2 je analýza rozptylu ANOVA, kapitoly 3 až 6 jsou věnovány regresní analýze - jednoduché i vícerozměrné, zbývající kapitoly 7 až 12 se věnují analýze ekonomických časových řad, ty jsou v ekonomických disciplínách mimořádně významné. Během studia budete využívat k řešení úloh známého programu Excel, s nímž jste pracovali již v předmětu Statistika. Odměna, která vás na konci studia našeho předmětu očekává, stojí za to: je to pocit, že jste překonali něco významného, že jste se přenesli přes překážku, za níž se nachází svět -6- profesionálů, kteří rozumějí odborným metodám a postupům, jež jsou obyčejným smrtelníkům nepřístupné. Získaný nadhled vám umožní snadněji pochopit a osvojit si praktické zásady analýzy informací, jimiž jsme všichni dnes zahlceni a v nichž je nám určeno žít. - 7 - -8- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 1 ANALÝZA ROZPTYLU (ANOVA) - JEDEN FAKTOR | RYCHLÝ NÁHLED KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závislost hodnot znaků Y na faktoru X, pro něž jsou k dispozici příslušná data, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Cílem, k němuž směřujeme, je buď přijmout nulovou hypotézu o vzájemné nezávislosti Y na X, nebo ji zamítnout (na zvolené hladině významnosti). Jedná se tedy o běžný statistický postup nazývaný testování statistických hypotéz, známý ze základního kurzu statistiky. V případě přijetí nulové hypotézy vyvozujeme nezávislost hodnot Y na X, v opačném případě konstatujeme, že Y na X závisí. V této kapitole se naučíte, jak tento test statistické hypotézy konkrétně provést: jak vypočítat hodnotu testového kritéria a příslušnou kritickou hodnotu a jak vyvodit z těchto hodnot příslušný závěr týkající se eventuální závislosti nebo nezávislosti hodnot znaku Y na faktoru X. Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů na hospodářský proces charakterizovaný kvantitativním statistickým znakem. Taktéž dovoluje hodnotit účinky různých přijatých hospodářských opatření. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu na dílčí rozptyly příslušející jednotlivým vlivům, podle nichž jsou data roztříděna. Kromě dílčích rozptylů je jednou složkou celkového rozptylu tzv. reziduálni rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Všeobecně používané označení ANOVA je akronymem anglických slov „ANalysis Of VAriance" (doslovný překlad: analýza rozptylu). Formálně vzato je ANOVA, ať jednofaktorová nebo vícefaktorová, testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Klasická ANOVA vychází, jak uvidíte, z předpokladu normality rozdělení hodnot daného faktoru. Pokud je takový předpoklad neudržitelný, lze použít jiného typu ANOVA, konkrétně Kruskal-Wallisovu verzi ANOVA. Jednofaktorovou ANOVA se zabývá tato kapitola, vícefaktorová a KruskalWallisova ANOVA je obsahem kapitoly následující. V tomto studijním textu předpokládáme, že čtenář má k dispozici verzi Excel 2007, eventuálně vyšší, pro osobní počítač typu PC s operačním systémem typu Windows. Pro zjednodušení práce je vhodné mít aktivovaný doplňky „Analýza dat" a „Řešitel" ve složce „Data" (viz Obr. 1.1) Obrázek 1.1 Data Revize Zobrazení ( ® Tipojeni Mastnosti I [ÄTŽ1 \W " ^ V y m a z a t E = 3 H B l ó ž i P L ^ S r b %@ + 4 J S r S E B J l Analýza dat z I Seřadit Filtr , Jpravit odkazy A t ty Upřesnit sní Seřadit a filtrovat Text do Odebrat Ověření Sloučit... Analýza Seskupit... Oddělit... Souhrn sloupců,,, stejné d a t T hypotéz"" Datové nástroje \\ Osnova ^ 11 Analýza Zdroj: Vlastní zpracování. V případě, že tyto doplňky nejsou ve složce „Data", lehce je nainstalujete tímto postupem: „Tlačítko Office" —> „Možnosti aplikace Excel" —> „Doplňky" —> „Přejít..." a v dialogovém okně zaškrtnout položky „Analytické nástroje" a „Řešitel" (viz Obr. 1.2). -9- Analýza rozptylu (ANOVA) - jeden faktor Obrázek 1.2 Doplňky Doplňky k dispozici: Analytické nástroje Analytické nástroje - VBA Internet Assistant - VBA Nástroje pro menu euro Průvodce podmíněným součtem Průvodce vyhledáváním ^eš ;e Procházet.. Analytické nástroje Obsahuje nástroje pro analýzu statistických a inženýrských dat. Zdroj: Vlastní zpracování. Kromě doplňků „Analýza dat" a „Řešitel" tabulkový procesor MS Excel disponuje širokým spektrem statistických funkcí. Všechny funkce procesoru MS Excel použité v následujícím textu budou značeny ve tvaru: =FUNKCE(proměnnál;...; proměnná N) se znaménkem „=" na začátku; použití analytického nástroje bude značeno podobným způsobem. 1.1 NEZÁVISLÝ A ZÁVISLÝ FAKTOR Často se vyskytuje situace, kdy máme k nezávislých náhodných výběrů které obecně nemusí pocházet z jednoho základního souboru, nebo jinak řečeno, nemusí být stejného typu, s rozsahy, tj. počty prvků nl,n2,...,nk. Číslo k může být libovolné podle konkrétní situace, např. 2, 3, 4, ... Tyto rozsahy výběrů rovněž nemusí být stejné, v každém z nich budiž znám průměr x. , a také rozptyl sf, i = \,2,...,k. V praktických situacích obvykle tyto výběry vzniknou tak, že základní soubor rozdělíme podle určitého statistického znaku X do k skupin, např. věkových, v každé z nich pak mámenr prvků, i = \,2,...,k. Znak X pak označujeme jako nezávislý faktor, jehož hodnoty předem stanovíme, stanovíme např. věkové skupiny takto: do 18 let, 19 až 29 let, 30 až 59 let, 60 a více let, v tomto příkladu je k = 4. Hovoříme proto často o faktoru kontrolovaném. Další příklady faktorů: velikost rodiny, měsíční příjem rodiny, velikost podniku, typ ekonomické činnosti, apod. Hodnotami faktoru X jsou obvykle kvalitativní (nečíselné) veličiny, označujeme je symbolicky xl,x2,...,xk. Tyto hodnoty mohou, ale nemusejí být nutně vzájemně uspořádány. Faktor X, jež nabývá k kvalitativních hodnot, může, ale nemusí ovlivňovat hodnoty statistického znaku Y, o kterém předpokládáme, že má na rozdíl od X kvantitativní (tedy číselnou) povahu. Cílem ANOVA je právě prokázat, že hodnoty kvalitativního znaku X ovlivňují hodnoty kvantitativního znaku Y- závislého faktoru. Hodnoty znaku Y, které přísluší hodnotě xi faktoru X, označujeme yn, yi2,—, yin. • Pro analýzu rozptylu je výhodné uspořádat výchozí údaje do přehledné tabulky, viz Tab. 1.1. -10- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Princip metody ANOVA, kterou prokazujeme závislost Y na X, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. V následujícím odstavci tento postup upřesníme. Číslo výběru Zjištěné hodnoty sledovaného znaku Počet prvků Průměr Rozptyl 1 vu , v1 2 ) . ••,yíni «1 2 2 y2 1 ,y2 2 ,. ..,y2j, yi 4 i yŕ l .yŕ 2 , ...fy- '*' yini «i y~i 2 *i k • - • V «* yk 'l Celkem n y s2 Tab. 1.1. Schéma výchozí tabulky analýzy rozptylu pro jeden faktor Zdroj: Vlastní zpracování. 1.2 PŘEDPOKLADY ANALÝZY ROZPTYLU S JEDNÍM FAKTOREM Předpokládáme, že faktor X má k úrovní (hodnot xi), s účinkem na znak Y, který lze vyjádřit vztahem: ju{ =Ju + ai,i=l,2,...,k, kde jli je průměr znaku Y v i-té skupině (příslušné k hodnotě faktoru xi), ju je celkový průměr znaku Y, ai je efekt hodnoty faktoru xi na znak Y. Formulujeme nyní nulovou hypotézu H 0 , že všechny výběry pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X nemají na hodnoty znaku Y žádný efekt (vliv). Budeme dále předpokládat, že hodnoty at pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem o2 . Formulujeme nulovou hypotézu: H 0 : E{a1) = E{a2) = ... = E{ak)=0, proti alternativní hypotéze, že Ho neplatí, tudíž alespoň pro dvě položky, např. i aj, platí: Hi : E (a j)Symbolem E(ai) označujeme střední hodnotu náhodné veličiny ai. Předpoklad konstantního rozptylu pro všechny veličiny aje podstatný, je ho možno ověřit statistickým testem, a to buď tzv. Bartlettovým testem, s nímž se seznámíte později. Normalitu rozdělení veličin ai lze taktéž ověřit příslušným testem, např. Chi-kvadrát testem dobré shody, známým ze základního kurzu statistiky, viz Ramík (2003). V praxi obvykle předpokládáme (na podkladě věcné znalosti problému), že zmíněné dva předpoklady jsou automaticky splněny a při aplikaci ANOVA je již obvykle neověřujeme. - 77 - Analýza rozptylu (ANOVA) - jeden faktor Cílem, k němuž směřujeme, je buď přijmout nulovou hypotézu Ho, nebo Ho zamítnout (na zvolené hladině významnosti). Jedná se tedy o běžný statistický postup nazývaný testování statistických hypotéz, známý ze základního kurzu statistiky, viz Ramík (2003). V případě přijetí nulové hypotézy vyvozujeme nezávislost hodnot faktoru Y na faktoru X, jinak řečeno: faktor Y na faktoru X nezávisí. V opačném případě (při zamítnutí Ho), konstatujeme, že faktor Y na faktoru X závisí, neboli faktor X ovlivňuje Y. 1.3 POSTUP PŘI ANALÝZE ROZPTYLU S JEDNÍM FAKTOREM Celkovou variabilitu znaku Y změříme výběrovým rozptylem Z Z l v í - . (1.1) n-l V souvislosti s analýzou rozptylu se budeme zabývat pouze čitatelem výše uvedeného zlomku, totiž součtem čtverců odchylek zjištěných hodnot y^oá celkového průměru ý, přičemž průměr vypočítáme podle známého vztahu: sečteme všechny hodnoty a výsledek podělíme jejich počtem, tedy n ,-=! j=i Tento celkový součet čtverců budeme označovat symbolem S, tj. ^ = I Ž U - ? ) 2 - (1-2) Í=I j=i Celkovému součtu čtverců přísluší počet stupňů volnosti dfy = n-\. Variabilitu mezi skupinami budeme měřit meziskupinovým součtem čtverců S , který definujeme následovně Sj„=ÍjH&-ÍŤ- (1-3) i=i Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfm = k-\. Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduálni a používáme přitom označení S , přičemž definujeme vnitroskupinový {reziduálni) součet čtverců takto ^ = Í Z k - y , - ) 2 . (i.4) i=i j=\ Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = n-k. Aritmetickými úpravami výše uvedených vzorců lze snadno dokázat základní vztah analýzy rozptylu, totiž, že celkový součet čtverců je roven sumě meziskupinového a vnitroskupinového součtu čtverců, symbolicky: S y = S „ + S „ . (1.5) -12- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Pro ověření nulové hypotézy Ho použijeme statistiku: 5„„ $ m n-k dfv která má při platnosti nulové hypotézy Fisherovo rozdělení F{k — \,n — k). Kritické hodnoty Fisherova rozdělení Fa(dfl,df2) jsou tabelovány pro různé hodnoty hladiny významnosti a a různé hodnoty parametrů (stupňů volnosti: Jegree of fteedom) df\ a dfo . Někdy se namísto kritických hodnot tabelují kvantily Fisherova rozdělení Fl k _a(dfl,df2). Vztah mezi kritickými hodnotami a kvantily je jednoduchý: Fa{dfvdf2) = Flta{dfl,df2). Např. 5-ti procentní kritická hodnota je rovna 95-ti procentnímu kvantilu při stejných hodnotách parametrů df\a dfi. Pro výpočet kritických hodnot lze využít Excelu. Postupuje se přitom takto: v hlavním menu postupně vybíráte: Vložit —> Funkce —> Statistické —> ¥TNW{a,df\ ; dfi). Postup testování hypotézy Ho charakterizujeme následujícími 3 kroky: Krokl. Zvolte hladinu významnosti a, která představuje chybu 1. druhu, tj. pravděpodobnost zamítnuti správné hypotézy. Praktické hodnoty hladiny významnosti a jsou: 0,1 , 0,05 , 0,01 , nebo-li v procentech: 10%, 5%, 1%. Krok 2. Vypočtěte hodnotu statistiky F podle vzorce (1.6), přičemž pro hodnoty meziskupinového součtu čtverců S a pro výpočet vnitroskupinového součtu čtverců S použijte vzorce (1.3) a (1.4). Výpočetně výhodnější, např. pro výpočet na kalkulačce, jsou následující vzorce: / \ 2 k «ř j ' /• " \ s y = T L y i ~ Z Z ^ V'= 1 J=l J Í=I j=i n k i n, A2 n (1.7) (1.8) Vi = 1 j=x J K výpočtu S lze využít základního vztahu (1.5) a právě uvedených vztahů (1.7) a (1.8): S = S — S y,v y y,m ' Krok 3. Porovnejte hodnotu statistiky F vypočtené v Kroku 2 s kritickou hodnotou Fa(k — \,n — k). Výsledek tohoto porovnání může být dvojí: I. Platí F < Fa{k-\,n-k). Potom se nulová hypotéza Ho přijímá (nezamítá) a tudíž se konstatuje, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv (na zvolené hladině významnosti). Jinak řečeno, faktor X je neúčinný. -13- Analýza rozptylu (ANOVA) - jeden faktor II. Platí F > Fa{k-í,n-k). Potom se nulová hypotéza H 0 zamítá, přijímá se hypotézu alternativní Hi, a tudíž se konstatuje, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv. Jinak řečeno, faktor X je účinný. Podaří-li se výše uvedeným testem prokázat, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv, mohou nás zajímat další informace o tom, které skupiny se významně odlišují od průměru, eventuálně jak skupinové průměry seřadit, případně zařadit do společných celků. V krajním případě by se totiž mohlo stát, že významnost rozdílnosti k skupin způsobuje jediná skupina a ostatní skupiny se navzájem neliší. Touto problematikou se zabývají metody tzv. simultánního testování, z nichž nejznámější je metoda Shaffeho. Vy se touto problematikou zde nezabývat nebudete, zájemce odkazujeme na literaturu, viz např. Anděl (2007). Metoda analýzy rozptylu je založena na předpokladech shody rozptylů v jednotlivých k skupinách. Pokud jsou předpoklady splněny, pak popsaná metoda ANOVA poskytuje nejlepší výsledky - je nejúčinnější. Není-li tento předpoklad splněn, pak použití výše uvedeného testu může poskytnout nesprávný výsledek. V takovém případě lze použít jiné metody, např. Kruskal-Wallisova ANOVA, která používá Chi-kvadrát test, s níž se seznámíte v příští kapitole. V Excelu jsou k dispozici funkce, které umožňují řešit jednofaktorové i vícefaktorové úlohy ANOVA. Naleznete je v hlavním menu: Nástroje —> Analýza dat —> ANOVA: jeden faktor... V tomto textu se s nimi naučíte pracovat. 1.4 MÍRA TĚSNOSTI ZÁVISLOSTI Variabilita podmíněných (skupinových) průměrů ýi kolem celkového průměru y je způsobena závislostí znaku Y na znaku X. Tuto variabilitu jsme vyjádřili meziskupinovým součtem čtverců Sym. Variabilita znaku Y uvnitř jednotlivých skupin - vyjádřena vnitroskupinovým (reziduálním) součtem čtverců S , je způsobena jinými (neuvažovanými) činiteli. Čím větší je S , tím větší je těsnost závislosti znaků X a Y. Protože však jsou jednotlivé součty čtverců vzájemně vázány vztahem (1.5), lze míru těsnosti závislosti vyjádřit jako podíl meziskupinového a celkového součtu čtverců. Zavádíme proto jako míru těsnosti závislosti znaku Y na znaku Xpoměr determinace P2 takto: (1.9) Odmocninu z poměru determinace P nazýváme poměr korelace. Poměr determinace nabývá hodnot z intervalu [0,1]. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k 1, tím více se také vnitroskupinový součet čtverců blíží k celkovému součtu čtverců, přičemž meziskupinový součet čtverců se blíží k nule. Naopak, čím více se poměr determinace blíží k 0, tím menší část z celkového součtu čtverců tvoří meziskupinový součet čtverců (na úkor vnitroskupinového), a tím menší je těsnost závislosti znaku Y na X. Způsob výpočtu determinačního a korelačního poměru si procvičíte na numerických příkladech. V Excelu bohužel funkce pro výpočet poměru determinace nebo korelace chybí, musí se proto k výpočtu použít vzorce (1.9). -14- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Uvědomte si však, že poměr determinace P2 je náhodná veličina (jakožto podíl dvou veličin - součtu čtverců, které jsou samy náhodnými veličinami), proto může být výsledkem kladné číslo i v případě, že výsledkem ANOVA je fakt, že zkoumaný faktor není statistický významný, neboli sledovaná veličina na faktoru nezávisí. V takovém případě by logicky mělo platit, že poměr determinace P2 je nulový, tj. P2 = 0. Tento zdánlivý rozpor vysvětlujeme statistickým přístupem: testem statistické hypotézy. V tomto případě je nulová hypotéza Ho: P2 = 0. Jako testové kritérium se použije statistika F ze vzorce (1.6). Pokud platí F < Fa(k-l,n-k), potom se nulová hypotéza Ho přijímá (a tudíž konstatujeme, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv na zvolené hladině významnosti) a poměr determinace (samozřejmě i poměr korelace) je roven nule, jinak řečeno, je statisticky nevýznamný. V opačném případě se nulová hypotéza zamítá a poměr determinace je statisticky významný. Hodnota poměru determinace i poměru korelace je nenulová. V tom případě má smysl hovořit o síle závislosti veličiny Y na faktoru X. Ř E Š E N Ý P Ř Í K L A D 1.1 Na testovacím okruhu byla testována průměrná spotřeba tří automobilů téže třídy různých výrobců Škoda, Renault a Fiat. Řidič absolvoval s každým automobilem 5 testovacích jízd. Tabulka ukazuje spotřebu benzínu na 100 kilometrů v jednotlivých jízdách. Automobil Spotřeba Skoda Renault 7,4 6,7 7,8 6,8 7,6 8,1 7,2 8,3 7,1 7,5 Fiat 6,8 6,9 7,3 7,9 7,6 Na hladině významnosti a = 0,05 zjistěte, zda má typ automobilu vliv na spotřebu benzínu. V kladném případě vypočtěte determinační a korelační poměr. Řešení: Chceme zjistit závislost znaku Y (průměrná spotřeba) na jediném znaku X (výrobce automobilu). Provedeme proto jednofaktorovou analýzu rozptylu. Faktor X má tři hodnoty: x\ = Škoda, X2 = Renault, xj, = Fiat, tzn. k = 3, s počty hodnot n\ = ri2 = «3 = 5 v každé z nich budeme testovat nulovou hypotézu Ho: E(CÍI) = E{Oi) = E(oci) = 0, tj. průměrná spotřeba je u všech vozidel stejná. Alternativní hypotéza Hi je negací nulové hypotézy. Nejprve vypočítáme podmíněné průměry yx, y2, y3 7,4 + 7,8 + ... + 8,1 5 5 5 6,7 + 7,2+... + 7,5 5 5 5 6,8 + 6,9 + . . + 7,6 -75- Analýza rozptylu (ANOVA) - jeden faktor a celkový průměr znaku Y _ Hyij 7 , 4 + 7 , 8 + . . . + 7 , 6 n A y = = = 7 , 4 . n 1 5 Dále vypočítáme pomocí vztahů ( 1 . 2 ) , ( 1 . 3 ) , popř. ( 1 . 7 ) , ( 1 . 8 ) součty Sy a Sym. 3 5 Sy = Z Z (yy - y Ý = ( 7 , 4 - 7 , 4 ) 2 + ( 7 , 8 - 7 , 4 ) 2 + . . . + ( 8 , 1 - 7 , 4 ) 2 + i=\ j=i + ( 6 , 7 - 7 , 4 ) 2 + ( 7 , 2 - 7 , 4 ) 2 + . . . + ( 7 , 5 - 7 , 4 ) 2 + + ( 6 , 8 - 7 , 4 ) 2 + . . . + ( 7 , 6 - 7 , 4 ) 2 = 3 , 4 3 Sym = Z " , ^ - - yÝ = 5 ( J i - yÝ +5(y2 - y)2 +5(y3 - y)2 = = 5 ( 7 , 5 4 - 7 , 4 ) 2 + 5 ( 7 , 3 6 - 7 , 4 ) 2 + 5 ( 7 , 3 - 7 , 4 ) 2 = 0 , 1 6 . Součet Sym má k - 1 stupňů volnosti, v našem případě dfm = 3 - 1 = 2 . Pomocí součtů Sy a Sym dopočítáme součet 5 > v , neboť Sy = Syv + Sym- Proto ^ = ^ , - ^ = 3 , 4 - 0 , 1 6 = 3 , 2 4 . Součet S^ mán-k stupňů volnosti, proto dfv = 15 - 3 = 12. Testové kritérium F vypočítáme podle vztahu ( 1 . 6 ) : Sym 0 , 1 6 F = = iSrr = 0 , 2 9 6 . Sy, 3 , 2 4 n-k 1 2 Pro stanovení kritického oboru C najdeme v tabulkách kritických hodnot Fc£k - \,n -k) kritickou hodn otu F 0 , o 5 ( 2 , 1 2 ) = 3 , 8 9 (ověřte v Excelu pomocí funkce F I N V ) . Kritický obor je proto interval od 3,89 do nekonečna, tj. C = ( 3 , 8 9 , + o o ) . Zřejmě platí 0 , 2 9 6 < 3 , 8 9 , tzn. F £ C , proto nulovou hypotézu H 0 přijímáme. Znamená to, že faktor X-výrobce automobilu je neúčinný nebo-li, že průměrná spotřeba benzínu není statisticky významně ovlivněna výrobcem automobilu. Poměr determinace i korelace je tedy 0 . -16- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Ř E Š E N Ý P Ř Í K L A D 1.2 Rozhodněte, zda velikost výnosů petržele (faktor Y) závisí na použitém druhu hnojiva (faktor X). Pokud závisí, pak pomocí determinačního poměru zjistěte těsnost této závislosti. Data jsou uvedena v následující tabulce, použijte hladinu významnosti 0,05. Hnojivo Výnosy (lkg/10 m2 ) A 40 42 45 40 44 47 B 76 75 82 68 C 60 58 62 64 70 Řešení: U tohoto příkladu si ukážeme řešení s pomocí Excelu. Nejprve však příklad vyřešíme klasickým postupem. K výpočtu hodnot součtů čtverců Sym a Sy, potřebujeme znát celkový průměr y a podmíněné průměry y1, y2, y3. 6 I X - 7=1 40 + 42 + ... + 47 = 43, y2 = 75,25;y3 = 62,8, 3 y = - 43-6 + 75,25-4 + 62,8-5 = 58,2. n 15 Nyní již můžeme vypočítat součty Sym a Sy, podle vztahů (1.2), (1.3) S y = I ^ y ~ = (40 ~5 ^2 + • • •+(47-58,2)2 + y +(76-58,2)2 +...+(68-58,2)2 + +(60-58,2)2 +...+(70- 58,2)2 = 28784. Sym ^ n ^ - y ) 2 =6(43-58,2)2 +4(75,25-58,2)2 + 5(62,8-58,2)2 = 265485. Hodnota testového kritéria je F ym k-l 2654,85 2 n-k 2878,4-2654,85 12 71,26. Kritická hodnota je Fo,o5(2, 12) = 3,89 a je mnohem menší než hodnota testového kritéria F. Proto nulovou hypotézu zamítáme a konstatujeme, faktor hnojiva významně ovlivňuje hodnoty výnosů petržele. Hodnotu determinačního poměru P2 zjistíme dosazením hodnot Sym a Sy do vztahu (1.9). p 2 = 26H85 2878,4 Hodnoty determinačního poměru blízké 1 svědčí o vysoké závislosti faktoru Y na faktoru X. Hodnota 0,92 proto znamená, že závislost výnosů petržele na použitém druhu hnojívaje vysoká. -17- Analýza rozptylu (ANOVA) - jeden faktor Řešení pomocí Excelu: Nejprve je zapotřebí připravit v Excelu data. Jednotlivé hodnoty yy pro faktoru Y pro hodnotu Xi faktoru X uspořádáme do řádků, podobně jako v tabulce v zadání. V prvním sloupci umístíme kvůli lepší orientaci název hodnoty faktoru (popisky) JC„ v tomto případě název hnojiva: A, B, C. Data ve worksheetu Excelu vypadají tedy například takto: A B C D E F G H 1 A 40 42 45 40 44 47 2 B 76 75 82 68 3 C 60 58 62 64 70 4 Data je možné uspořádat také do sloupců, přitom do prvního řádku umístíme názvy hodnot faktoru X (popisky). To je výhodné zejména u velkého množství dat, tj. pro velkou hodnotu počtu dat n. Dále otevřeme v hlavním menu postupně položky: Data -> Analýza dat... -> ANOVA: jeden faktor Pokud se tam položka Analýza dat nevyskytuje je ji zapotřebí doinstalovat (viz začátek této kapitoly). Zvolíte-li pak první položku ANOVA: jeden faktor, otevře se zadávací okno, kde postupně zadáte: Vstupní oblast: $A$1:$G$3 Sdružit: zakliknete tlačítko Řádky (je možné uspořádat data do sloupců, pak ovšem zakliknete tlačítko Sloupce Popisky v prvním sloupci - zakliknete Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit) Výstupní oblast: $A$5 (levý horní roh výstupní oblasti) Potvrdíte OK Obdržíte následující výstup, kterého "levý horní roh" začíná v buňce A5 nadpisem Anova jeden faktor: -18- Jaroslav Ramík a Radmila Stoklasová; STATISTICKÉ ZPRACOVANÍ DAT V l o ž e n íDomú Vložen E ] H - J Načíst externí data' \\\aJ\ Aktualizovat vše- 8 3 Pripojení SešitL - Microsoft Excel Rozložení stránky Vinice Qata —[Ľ—- uJ— m DIYi 4> Z * Z A I H Z J Seřadit Filtr KText do Odebrat ^ ^ sloupců,., stejné — í " Seřadit a filtrovat Datové n á stroj e Zobrazeni I * I Osnova Vŕgár _ n x . o x If5| Analýza dat ? r i Řešitel Analýza K4 A B C D E F G H 1 1 A 40 42 45 40 44 47 2 B 76 75 32 63 3 C 60 53 62 64 70 4 5 Anova: jeden faktor 6 7 Faktor 8 Výběr Počet Součet Průměr Rozptyl 9 A 6 25S 43 3 10 B 4 301 75,25 32,91667 11 C 5 314 62,3 21,2 12 13 14 ANOVA 15 "oj variabii Rozdíl MS F hodnota P Fkrit 16 Mezivýbě 2654,35 2 1327,425 71,2552 2,19E-07 3,335294 17 Všechny v 223,55 12 13.62917 13 19 Celkem 2373,4 14 H V • H [ LÍ5tl,/LÍ5t2 /'LiSt3 / € T Připraven 3 1 latam\ ™ % © Q • V první tabulce s názvem Faktor jsou uvedeny základní statistické údaje o datech: Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA, jednotlivé položky mají následující význam: Mezi výběry = meziskupinový Všechny výběry = vnitroskupinový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF - Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium = 71,25 Hodnota P = Signifikance (p-hodnota) = 0,000000219 < 0,05 = a F krit = kritická hodnota rozdělení F = 3,89 Hodnoty získané řešením v Excelu jsou stejné jako při použití „ručního" výpočtu, proto i závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. signifikanci), která, pokud je menší než zvolená hladina významnosti oc, znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu nezamítáme (přijímáme). -19- Analýza rozptylu (ANOVA) - jeden faktor 1.5 SAMOSTATNÉ ÚKOLY 1.1 Pan Novák může jet do zaměstnání čtyřmi různými trasami. Čtyřikrát projel jednotlivé trasy a zaznamenal si dobu, po kterou jel do zaměstnání. Na hladině významnosti a= 0,01 zjistěte, zda záleží na tom, kterou trasou pojede. Cesta 1 Cesta 2 Cesta 3 Cesta 4 22 27 26 28 26 29 33 30 25 26 25 32 30 28 30 26 1.2 Učitel fyziky zkoumal, jaký vliv má druh zkušebního testu na jeho úspěšnost. Vytvořil tři typy stejně obtížných testů a náhodně je rozdal mezi studenty ve třídě. Tabulka uvádí bodové zisky studentů v jednotlivých testech. Na hladině významnosti a= 0,05 zjistěte, zda má typ testu vliv na úspěšnost studentů. Typ testu TI T2 T3 75 72 64 90 78 78 70 94 70 90 78 90 85 50 1.3 Ve vepříně zjišťovali, jestli váhové přírůstky vepřů závisí na použitém druhu krmiva, či nikoli. Na hladině významnosti a= 0,05 rozhodněte, zda jsou váhové přírůstky pro různá krmiva různé, eventuálně zjistěte, který druh krmiva dává nejmenší váhové přírůstky. Krmivo A B C 21,5 19,9 23,7 22,8 24,3 22,5 26,3 20,1 20,6 24,2 20,9 21,4 25,6 21,1 28,1 1.4 Výroba součástek může v podniku probíhat na jednom ze čtyř rozdílných strojů. I když každý stroj provádí stejné operace, má každý svá specifika. Na hladině významnosti a= 0,01 testujte hypotézu o tom, že počet vyrobených součástek není ovlivněn volbou stroje. -20- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Stroj A B C D 93 108 123 133 98 153 143 163 80 123 150 168 88 158 165 145 60 143 140 130 1.5 Školský úřad Karviná chtěl srovnat úroveň znalostí maturantů gymnázií okresu Karviná. Za tímto účelem byl vytvořen test zahrnující otázky ze všech oblastí učiva a zadán náhodně vybraným studentů jednotlivých škol. Bodové výsledky studentů jsou uvedeny v následující tabulce. Gymnázium Karviná Gymnázium Český Těšín Gymnázium Bohumín Gymnázium Orlová Gymnázium Havířov 79 62 74 73 86 86 54 81 67 52 49 88 64 59 61 72 76 a. Na hladině významnosti a = 0,05 zjistěte, je-li průměrná úroveň maturantů jednotlivých škol stejná. b. Jak ovlivní výsledek průzkumu změna hladiny významnosti na 0,01 ? 1.6 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 1.1 F = 1,0 F krit = 5,95 p-hodnota = 0,43 - H 0 přijímáme (je jedno, kterou cestu zvolí). 1.2 F = 1,43 F krit = 3,98 p-hodnota = 0,28 - H 0 přijímáme (typ testu nemá vliv na úspěch). 1.3 F = 4,7 F krit = 3,89 p-hodnota = 0,03 - H 0 zamítáme (krmivo má vliv, nejvíce A). 1.4 F =15,02 F krit = 5,29 p-hodnota = 0,000 - H 0 zamítáme (typ stroje má vliv). 1.5 a) F = 0,12 F krit = 3,26 p-hodnota = 0,97 - H 0 přijímáme (škola nemá vliv), b) F = 0,12 F krit = 5,41 p-hodnota = 0,97 - H 0 přijímáme (škola nemá vliv). -21 - Analýza rozptylu (ANOVA) - dva a více faktoru 2 ANALÝZA ROZPTYLU (ANOVA) - DVA A VÍCE FAKTORU RYCHLÝ NÁHLED KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závislost znaků (faktorů) Y na X, pro něž jsou k dispozici příslušná data, spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Cílem, k němuž směřujeme nyní, je situace, kdy budeme uvažovat, že se kromě třídění do skupin vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. 2.1 ANALÝZA ROZPTYLU SE DVĚMA FAKTORY U analýzy rozptylu s jedním faktorem jste uvažovali výsledky tříděné podle jistého kvalitativního znaku X do několika (konkrétně do k) skupin o rozsazích nvn2,...,nk. Proto v tomto případě hovoříme také o ANOVA při jednoduchém třídění, neboli třídění podle jednoho faktoru. V této kapitole budeme uvažovat situaci, kdy se kromě třídění do skupin, vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná situace vzniká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Tato tzv. klasická ANOVA vychází z předpokladu normality rozdělení hodnot uvažovaných faktorů. Pokud je takový předpoklad neudržitelný, lze použít jiného typu ANOVA, tedy neparametrického testu statistické hypotézy (tento pojem si připomeňte ze základního kurzu statistiky). Konkrétně se v této kapitole seznámíte s Kruskal-Wallisovu verzi ANOVA, která využívá Chi-kvadrát test statistické hypotézy. U analýzy rozptylu s jedním faktorem jsme uvažovali výsledky tříděné podle jistého kvalitativního znaku X do několika (konkrétně do k) skupin o rozsazích nl,n1,...,nk. V tomto odstavci budeme uvažovat situaci, kdy se kromě třídění do skupin, vyskytuje další faktor, podle něhož výsledky (tj. hodnoty znaku Y) rovněž třídíme, říkáme, že je třídíme do bloků. Začneme výklad příkladem známým již z předchozí kapitoly. Příklad 1. Testovacími jízdami na zkušebním okruhu se zjišťuje průměrná spotřeba paliva automobilu Octavia při použití benzínu od různých výrobců (např. Aral, Shell, Benzina, Slovnaft). Všechny testy provede jeden řidič, když s každým druhem benzínu uskuteční několik testovacích jízd, a to tak, že pro každou značku benzínu uskuteční jiný počet jízd. Zjištěné výsledky testů, tj. změřené průměrné spotřeby na 100 km, podrobíme jednofaktorová analýze rozptylu, která nám umožní zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu. Příklad 2. Nyní budeme uvažovat podobnou situaci, kdy výsledky testů byly získány různými řidiči (např. A, B, C, D, E, F), a to tak, že každý řidič uskutečnil jednu testovací jízdu s každou značkou benzínu. Výsledky testů proto budeme členit nejen podle značky benzínu do skupin (1. faktor), ale také podle testovacích řidičů - do bloků (2. faktor). Podle -22- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT předpokladů je nyní počet výsledků ve všech skupinách stejný a je roven počtu řidičů (každý řidič jel s jednou značkou benzínu jedenkrát). Zjištěné výsledky podrobíme dvoufaktorové analýze rozptylu, která umožní jednak zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu, jednak zjistit, zda různí řidiči mají vliv na tuto spotřebu. Příklad 3. Nyní budeme uvažovat stejnou situaci jako v příkladu 2, přitom výsledky testů byly získány různými řidiči (např. A, B, C, D, E, F), a to tak, že každý řidič uskutečnil tři testovací jízdy s každou značkou benzínu. Zjištěné výsledky podrobíme dvoufaktorové analýze rozptylu s opakováním, která umožní jednak zjistit, zda značka (tj. výrobce) použitého benzínu má vliv na průměrnou spotřebu automobilu, jednak zjistit, zda různí řidiči mají vliv na tuto spotřebu. Na konci této kapitoly budou všechny tři příklady podrobně analyzovány na konkrétních číselných datech. Nyní budeme postupovat ve výkladu s obecnými daty, nejprve pro případ popsaný v příkladu 2. Taková data, podobně jako u jednofaktorové analýzy rozptylu, uspořádáme do přehledné tabulky Tab. 2.1. Číslo skupiny 1 H 1 odnot; 2 y sledo Číslo vanéh bloku j o znal r Průměr skupiny Číslo skupiny 1 Vil Vl2 yij y i r Ji. 2 V21 V22 yy yir i Ja y r 2 yy yt % k y*2 ytj ytr y k . Průměr bloku y.i y.2 y *r y Tab. 2.1. Schéma výchozí tabulky analýzy rozptylu pro dva faktory V Tab. 2.1. značíme symbolem y., průměr v i-té skupině, symbolem y . označujeme průměr hodnot v j-tém bloku, symbolem y značíme celkový průměr. Celkový součet čtverců (celkovou variabilitu) označujeme stejně, jako v (1.2), tedy: k r *,=ZZU-y)2 - (2-D i=i j=i Variabilitu mezi skupinami budeme měřit meziskupinovým součtem čtverců S , který definujeme následovně: sy,m = r t ( y , - y ) 2 • (2-2) 1=1 -23- Analýza rozptylu (ANOVA) - dva a více faktoru Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfm = k - 1. Variabilitu mezi bloky budeme měřit meziblokovým součtem čtverců S b , který definujeme následovně: s j*=k í,(y.j-y)2 • (2 -3 ) Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfb = r-\. Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduálni a používáme přitom označení S v, přičemž definujeme vnitroskupinový {reziduálni) součet čtverců takto k r 2 ^^Xh-^-^+j) • (2 -4 ) 1=1 j=\ Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = (k - l)(r - 1). Aritmetickými úpravami výše uvedených vzorců lze dokázat totiž, že celkový součet čtverců je roven sumě meziskupinového, vnitroskupinového a blokového součtu čtverců, symbolicky S y = Sy,m + S y , v + ^y,f (2.5) Tento vztah se nazývá základní vztah dvoufaktorové analýzy rozptylu. 2.2 PŘEDPOKLADY A N O V A SE 2 FAKTORY Předpokládáme, že faktor X\ má k úrovní, faktor X2 má r úrovní s efektem na znak Y, který lze vyjádřit vztahem fiv =fi + at +J3j, i=l,2,...,*, 7 = 1,2,...,/-, (2.6) kde jUy je průměr znaku Y v /-té skupině a j-tém bloku, ju je celkový průměr znaku Y, ai je efekt hodnoty faktoru X\ na znak Y, fy je efekt hodnoty faktoru X2 na znak Y. V modelu (2.6) nejprve předpokládáme, že efekty obou faktorů na znak y jsou aditivní a vzájemně nezávislé, tj. bez vzájemných interakcí. Tento předpoklad nám umožní oddělit od sebe hypotézy o efektech jednotlivých faktorů. Formulujeme nejprve nulovou hypotézu, že všechny skupiny pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X\ nemají na -24- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT hodnoty znaku Y žádný efekt (vliv). Budeme tedy v nulové hypotéze předpokládat, že ai pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem o2 , tedy formulujeme nulovou hypotézu H 0 : E{al)=E{a2) = ... = E{ak)=0, proti alternativní hypotéze, že Ho neplatí, tudíž alespoň pro dvě hodnoty, např. i a j, platí: Hi : E(at)*E(aj). Cílem, k němuž směřujeme, je přijmout nulovou hypotézu H 0 , eventuálně H 0 zamítnout (na zvolené hladině významnosti). Pro ověření nulové hypotézy Ho použijeme statistiku: F,= ±=± , (2.7) (*-l)(r-l) která má při platnosti nulové hypotézy Fisherovo rozdělení F(k-l,(k-l)(r-\)). Kritické hodnoty lze nalézt v tabulkách, nebo lze využít funkce z Excelu: FTNY(o;,k - l;(k- l)(r- 1)). Dále formulujeme nulovou hypotézu, že všechny bloky pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru X2 nemají na hodnoty znaku Y žádný efekt. Budeme tedy v nulové hypotéze předpokládat, že fi} pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem o2 , tedy formulujeme nulovou hypotézu Ho': E(j3l)=...= E(/3r) = 0 , proti alternativní hypotéze, že H 0 ' neplatí, tudíž alespoň pro dvě hodnoty, např. ť ž i", platí H r :E(/3ľ)*E(/3ľ) . Pro ověření nulové hypotézy Ho' použijeme statistiku: F2= ^ , (2.8) ( * - l ) ( r - l ) která má při platnosti nulové hypotézy Fisherovo rozdělení F(r - l,(k - l)(r - 1)). Zásadní rozdíl mezi dvoufaktorovou a jednofaktorovou analýzou rozptylu spočívá v tom, že u jednofaktorové ANOVA neuvažujeme působení dalšího faktoru, zatímco u dvoufaktorové ANOVA tak činíme. Tento rozdíl je vyjádřen ve výpočtu testového kritéria -25- Analýza rozptylu (ANOVA) - dva a více faktoru (2.7) a (2.8), kde se ve jmenovateli zlomku vyskytuje člen (k - l)(r - 1). Kdybychom na stejnou situaci aplikovali pouze jednofaktorovou ANOVA, pak by ve výpočtu hodnoty testového kritéria podle vztahu (1.6) byl na stejném místě člen (n - k) nebo člen (n - r), podle toho, zda bychom brali v úvahu skupiny nebo bloky. Tento rozdíl může zapříčinit rozdílné výsledky získané jednofaktorovou nebo dvoufaktorovou ANOVA! Ř E Š E N Ý P Ř Í K L A D 2.1 Testovacími jízdami na zkušebním okruhu se zjišťuje průměrná spotřeba benzínu Natural 95 automobilu Octavia při použití benzínu od různých výrobců (Aral, Shell, Benzina, Slovnaft). Bylo vybráno 6 řidičů A, B, C, D, E, F, z nichž každý absolvoval s každým typem benzínu jednu zkušební jízdu. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na tom, který řidič s vozem jel. Řidiči Značka benzínu A B C D E F Aral 7,5 6,9 7,9 7,3 6,9 7,8 Shell 7,6 7,2 7,5 8,0 7,3 8,2 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 Slovnaft 7,0 7,3 7,2 7,5 8,2 7,7 Řešení: Máte za úkol prozkoumat závislost průměrné spotřeby (znak Y) na typu použitého benzínu (znak X\) a na řidiči (znak X2), který s vozem jel. Znak Xi má k = 4 skupiny, znak X2 má r = 6 bloků. Pro faktor Xi formulujeme nulovou hypotézu: H 0 : E(a1)=E(a1)=E(a3)=E(a4), (2.9) proti Hi: neplatí (2.9), tj. průměrná spotřeba závisí na použitém druhu benzínu. Pro faktor X2 formulujeme nulovou hypotézu H 0 : £(#)=£(#)=...=£(#), (2-10) proti alternativní hypotéze Hl : neplatí (2.10), tj. průměrná spotřeba benzínu závisí na řidiči, který s vozem jel. Pro ověření těchto hypotéz, tj. pro výpočet testových kritérií, musíme znát hodnotu SOUČtŮ Syrtn, SyyV a Sy. Nejdříve vypočítáme podmíněné průměry yi , i = 1, 2, 3, 4, ý - ,j = 1, 2, ...,6 a také celkový průměr y . 7,5 + 6,9 + ... + 7,8 = 7,38, další průměry y2 , y 3 , y 4 vypočítáme analogicky, viz Tab. 2.2. 7,5 + 7,6 + 7,2 + 7 ya =• = 7,33, další průměry y2,...,y6 vypočítáme analogicky. Celkový průměr je -26- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT _ 7,5 + 6,9 + ... + 7,7 y = = 7,50. 24 Hodnoty všech průměrů jsou uvedeny v tabulce. Nyní lze přistoupit k výpočtu jednotlivých součtů: 4 Sy,m = ( y , - y ) 2 = 6 • [(7,38 -7,5)2 +... + (7,48 -7,5)2 ] = 0,21. s y,h =k í(y.j -y)2 =4- [(7 33-7,5)2 +... + (7,38-7,5)2 ] = 0,35. Potřebujeme znát i hodnotu součtu Syv pak snadno dopočítáme, neboť Sy = Syytn+SyyV+Syyb. 4 6S y = ZŽ (yu - y)2 = (7>5 - 7,5)2 + (6,9 - 7,5)2 +... + (7,8 - 7,5)2 + i=i j=i + (7,6 - 7,5)2 +... + (8,2 - 7,5)2 +... + (7,7 - 7,5)2 = 3,79. Potom vypočítáme SyyV = Sy - Sy,m - Sy,b = 3,79 - 0,21 - 0,36 = 3,22. Pro ověření hypotézy H 0 určíme testové kritérium F\ 5„_ 021 _ 3 y,m y,v 3,22 = 0,32 {k-lXr-1) 3-5 V tabulce kritických hodnot F-rozdělení nebo pomocí Excelu najdeme F0,05(3,15) = FINV(0,05; 3,15) = 3,29. Protože 0,32 < 3,29, přijímáme H 0 , což znamená, že použitá značka benzínu nemá na průměrnou spotřebu vliv. Pro ověření hypotézy H0 určíme testové kritérium F2 F2 = S y, 0,36 r-í _ 5 Sy,v 3,22 = 0,33 ( £ - l ) ( r - l ) 3-5 F0,05(5,15) = FINV(0,05; 5,15) = 2,9. Protože 0,33 < 2,9, přijímáme i hypotézu H0, tzn., že ani volba řidiče nemá na průměrnou spotřebu statisticky významný vliv. Na rozdíl od jednofaktorové ANOVA jsme zde v obou situacích uvažovali současné působení dvou faktorů] w Řidiči Zn. benzínu A B C D E F Průměry Aral 7,5 6,9 7,9 7,3 6,9 7,8 7,38 Shell 7,6 7,2 7,5 8,0 7,3 8,2 7,63 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 7,57 Slovnaft 7,0 7,3 7,2 7,5 8,2 7,7 7,48 Průměry 7,33 7,38 7,6 7,6 7,55 7,65 7,50 Tab. 2.2. Průměry -27- Analýza rozptylu (ANOVA) - dva a více faktoru Nakonec si ještě ukážeme řešení pomocí Excelu. Využijeme přitom funkci menu: Nástroje —> Analýza dat... —> ANOVA: dva faktory bez opakování Nejprve je zapotřebí připravit v Excelu data. Jednotlivé hodnoty yy pro faktoru Y pro hodnoty faktoru X\ = benzín a X2 = řidič uspořádáme do řádků a sloupců, podobně jako v tabulce v zadání. Data ve worksheetu Excelu vypadají tedy například takto: A B C D E F G I 1 benzin/řidič A B C D E F 2 Aral 7,5 6,9 7,9 7,3 6,9 7,8 3 Shell 7,6 7,2 7,5 8 7,3 8,2 4 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 5 Slovnaft 7 7,3 7,2 7,5 8,2 7,7 6 Dále otevřeme v hlavním menu postupně položky: Data —> Analýza dat... —> ANOVA :dva faktory bez opakování Po volbě třetí položky ANOVA: dva faktory bez opakování, se otevře zadávací okno kde postupně zadáte: Vstupní oblast: $A$1:$G$5 Popisky v prvním sloupci - zakřiknete Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit) Výstupní oblast: $L$1 (levý horní roh výstupní oblasti) Potvrdíte OK Obdržíte následující výstup, kterého "levý horní roh" začíná v buňce LI nadpisem ANOVA: dva faktory bez opakování: Anova: dva faktory bez opakování Faktor Počet Součet Průměr Rozptyl Aral 6 44,3 7,383333 0,185667 Shell 6 45,8 7,633333 0,154667 Benzina 6 45,4 7,566667 0,194667 Slovnaft 6 44,9 7,483333 0,181667 A 4 29,3 7,325 0,075833 B 4 29,5 7,375 0,2625 C 4 30,4 7,6 0,1 D 4 30,4 7,6 0,086667 E 4 30,2 7,55 0,323333 F 4 30,6 7,65 0,296667 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P Fkrit Řádky 0,21 3 0,07 0,325581 0,806868 3,287383 Sloupce 0,358333 5 0,071667 0,333333 0,884913 2,901295 Chyba 3,225 15 0,215 Celkem 3,793333 23 V první tabulce jsou uvedeny základní statistické údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. -28- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory bez opakování, jednotlivé položky mají následující význam: Řádky = meziskupinový Sloupce = vnitroskupinový Chyba = meziblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF - Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium Hodnota P = Signifikance (p-hodnota) F krit = kritická hodnota rozdělení F Hodnoty získané řešením v Excelu jsou stejné jako při použití „ručního" výpočtu, proto i závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. signifikanci), která, pokud je menší než zvolená hladina významnosti oc, znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přijímáme. V předchozích úvahách jsme měli situaci právě jednoho výskytu všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvoval jedinou jízdu s každým typem benzínu. Dále budeme uvažovat situaci vícenásobného opakování všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvuje několik jízd (například 3 jízdy - viz následující příklad 2.2) s každým typem benzínu, přitom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto výsledky odlišují výrazně či nikoliv, se opět zjišťuje statistickým testem. Podrobnou analýzu situace, která je analogická analýze případu bez opakování, již zde uvádět nebudeme. Omezíme se pouze na řešení příkladu s využitím Excelu, konkrétně položky ANOVA: dva faktory s opakováním. Ř E Š E N Ý P Ř Í K L A D 2.2 Podobně jako v příkladu 2.1 se zjišťuje průměrná spotřeba benzínu Natural 95 automobilu Octavia při použití benzínu od různých výrobců (Aral, Shell, Benzina, Slovnaft). Bylo vybráno 6 řidičů A, B, C, D, E, F, z nichž každý absolvoval s každým typem benzínu tři zkušební jízdy. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na řidiči. Údaje jsou uvedeny v následující tabulce. -29- Analýza rozptylu (ANOVA) - dva a více faktoru benzin/řidič Aral Shell Benzina Slovnaft A 7,5 7,6 7,2 7 7,7 7,4 7,6 7,4 8 7,3 8,1 7,7 B 6,9 7,2 8,1 7,3 6,7 7,4 8,5 7,6 6,6 7,6 8,8 7,8 C 7,9 7,5 7,8 7,2 8 7,8 7,7 7,1 8,3 8,1 7,6 7 D 7,3 8 7,6 7,5 7,2 8 7,8 7,7 7,1 7,9 8 7,8 E 6,9 7,3 7,8 8,2 6,8 7,2 8 8,1 6,7 7 8,1 8 F 7,8 8,2 6,9 7,7 7,7 8,4 7,5 7,7 7,5 8,5 7,9 7,7 Tab. 2.3. Řidiči verus Benzíny s opakováním Řešení: Data ve worksheetu Excelu vypadají přesně tak jako v Tab. 2.3, jsou umístěny např. v poli A I až E19. Dále otevřeme v hlavním menu postupně položky: Data -» Analýza dat... -» ANOVA: dva faktory s opakováním Po volbě druhé položky ANOVA: dva faktory s opakováním, se otevře zadávací okno, kde postupně zadáte: Vstupní oblast: $A$1:$E$19 Řádků na výběr: 3 (tj. počet opakování) Alfa: 0,05 (hladina významnosti je předvolena, lze ji však změnit) Výstupní oblast: např. $L$1 (levý horní roh výstupní oblasti) Potvrdíte OK. Obdržíte následující výstup, kterého "levý horní roh" začíná v buňce L I nadpisem ANOVA: dva faktory s opakováním. V první tabulce jsou uvedeny základní statistické údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. -30- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Anova: dva faktory s opakováním Faktor Aral A Shell Benzina Slovnaft Celkem Počet 3 3 3 3 12 Součet 23,2 22,3 22,9 22,1 90,5 Průměr 7,73 7,43 7,63 7,37 7,54 Rozptyl 0,06 0,02 0,20 0,12 0,10 B Počet 3 3 3 3 12 Součet 20,2 22,2 25,4 22,7 90,5 Průměr 6,73 7,40 8,47 7,57 7,54 Rozptyl 0,02 0,04 0,12 0,06 0,46 C Počet 3 3 3 3 12 Součet 24,2 23,4 23,1 21,3 92 Průměr 8,07 7,80 7,70 7,10 7,67 Rozptyl 0,04 0,09 0,01 0,01 0,16 D Počet 3 3 3 3 12 Součet 21,6 23,9 23,4 23 91,9 Průměr 7,200 7,967 7,800 7,667 7,658 Rozptyl 0,010 0,003 0,040 0,023 0,103 E Počet 3 3 3 3 12 Součet 20,4 21,5 23,9 24,3 90,1 Průměr 6,80 7,17 7,97 8,10 7,51 Rozptyl 0,01 0,02 0,02 0,01 0,33 F Počet 3 3 3 3 12 Součet 23 25,1 22,3 23,1 93,5 Průměr 7,67 8,37 7,43 7,70 7,79 Rozptyl 0,02 0,02 0,25 0,00 0,19 Celkem Počet 18 18 18 18 Součet 132,6 138,4 141 136,5 Průměr 7,37 7,69 7,83 7,58 Rozptyl 0,28 0,20 0,19 0,13 Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory s opakováním. ANOVA Zdroj variability SS Rozdíl MS F Hodnota P Fkrit Výběr 0,69 5 0,14 2,64 0,03 2,41 Sloupce 2,08 3 0,69 13,23 0,00 2,80 Interakce 10,23 15 0,68 12,99 0,00 1,88 Dohromady 2,52 48 0,05 Celkem 15,53 71 Jednotlivé položky mají následující význam: Výběr = meziskupinový Sloupce = vnitroskupinový Interakce = meziblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) -31 - Analýza rozptylu (ANOVA) - dva a více faktoru Rozdíl = stupeň volnosti (DF - Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium Hodnota P = Signifikance (p-hodnota) F krit = kritická hodnota rozdělení F Hodnoty získané řešením v Excelu jsou analogické jako v příkladu 2.1, tedy v případě ANOVA bez opakování. Navíc je tu p-hodnota uvedená v řádku Interakce, která se týká testu vzájemné závislosti faktorů. Nulová hypotéza předpokládá, že faktoru jsou vzájemně nezávislé. Pokud je tato hodnota menší než zvolená hladina významnosti a, znamená to, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přijímáme. V této kapitole jsme uvažovali situaci, kdy se kromě třídění do skupin vyskytují další faktory, říkáme jim bloky, podle nichž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná situace vzniká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrickým testem statistické hypotézy, s nímž jste se seznámili v základním kurzu statistiky. Nejprve jsme měli situaci právě jednoho výskytu všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvoval jedinou jízdu s každým typem benzínu. Poté jsme uvažovali situaci vícenásobného opakování všech kombinací hodnot skupin a bloku obou uvažovaných faktorů. Například každý řidič absolvuje několik jízd s každým typem benzínu, přitom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto výsledky odlišují výrazně či nikoliv, se opět zjistilo statistickým testem. K řešení příkladů jsme použili Excel, konkrétně položku Analýza dat. 2.3 SAMOSTATNÉ ÚKOLY Řešte v Excelu. 2.1 Ve čtyřech městech okresu Karviná jsme v jednotlivých dnech sledovali průměrnou spotřebu pitné vody (v m3 ) na jednoho obyvatele. Zjistěte, zda je průměrná spotřeba vody závislá na dni v týdnu, a je-li spotřeba v různých městech různá. Uvažujte hladinu významnosti 0,01. Zjištěné údaje jsou uvedeny v tabulce. Karviná Orlová Bohumín Český Těšín Po 0,64 0,75 0,54 0,76 Ut 0,78 0,63 0,61 0,83 St 0,93 0,82 0,7 0,91 Ct 0,66 0,62 0,56 0,62 Pá 0,99 1,3 0,79 0,99 So 1,22 1,65 1,3 0,98 Ne 1,05 1,3 1,24 1,1 2.2 Výroba součástek může v podniku probíhat na jednom ze čtyř rozdílných strojů. I když každý stroj provádí stejné operace, má svá specifika. U každého stroje pracuje jeden dělník. Na hladině významnosti a = 0,01 testujte hypotézu o tom, že počet vyrobených součástek není ovlivněn volbou stroje ani dělníkem, který na něm pracuje. -32- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Dělník Stroj Dělník A B C D 1 93 108 123 133 2 98 153 143 163 3 80 123 150 168 4 88 158 165 145 5 60 143 140 130 2.4 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 2.1 DNY: F = 12,95 F krit = 4,01 p-hodnota = 0,000 - H 0 zamítáme (průměrná spotřeba pitné vody závisí na dnu v týdnu) MĚSTO: F = 2,07 F krit = 5,1 p-hodnota = 0,14 - H 0 přijímáme (nebyla prokázána závislost průměrné spotřeby pitné vody na městě). 2.2 DĚLNÍK: F = 2,45 F krit = 5,41 p-hodnota = 0,1 - H 0 přijímáme (nebyla prokázána závislost počtu vyrobených součástek na dělníkovi, který na stroji pracuje). STROJ: F = 20,47 F krit = 5,95 p-hodnota = 0,000 - H 0 zamítáme (počet vyrobených součástek závisí na stroji). -33- Regresní analýza - jednorozměrná lineární regrese 3 REGRESNÍ ANALÝZA - JEDNOROZMĚRNÁ LINEÁRNÍ REGRESE RYCHLÝ NÁHLED KAPITOLY Analýzu rozptylu z první kapitoly je možné chápat jako analýzu závislosti kvantitativního znaku (proměnné) na kvalitativním znaku - faktoru (proměnné). Naproti tomu závislostí kvantitativního znaku na kvantitativním znaku (nebo více kvantitativních znacích) se zabývá regresní analýza. V případě závislosti dvou znaků mluvíme o jednorozměrné regresi (případně jednoduché regresi), u znaku závislém na více kvantitativních veličinách hovoříme 0 vícerozměrné regresi {vícenásobné regresi). V této kapitole budeme vyšetřovat nejprve nejjednodušší lineární závislost dvou znaků, v další kapitole se budeme zabývat 1 nelineárními závislostmi dvou znaků důležitých z hlediska ekonomických aplikací. V následujících kapitolách pak budeme vyšetřovat závislosti více než dvou statistických znaků. Nejprve si ozřejmíte základní rozdíl mezi ANOVA a regresní analýzou, formulujete model jednoduché lineární regresní analýzy, definujete a ozřejmíte pojem regresní přímky a regresních koeficientů. Poté bude vysvětlena metoda nejmenších čtverců k nalezení „nejlepších" hodnot regresních koeficientů v regresním modelu. Míra přiléhavosti dat k regresní křivce bude stanovena pomocí koeficientu determinace a jeho odmocniny koeficientu korelace. Nakonec se seznámíte s tzv. klasickým jednoduchým regresním modelem, který stanovuje 3 základní podmínky, kterým by měl vyhovovat regresní model vzhledem k existujícím datům. Vše bude demonstrováno na příkladech, které budou řešeny mimo jiné pomocí funkcí Excelu. 3.1 REGRESNÍ ANALÝZA Analýzu rozptylu z první kapitoly je možné chápat jako analýzu závislosti kvantitativního znaku (proměnné) na kvalitativním znaku - faktoru (proměnné). Naproti tomu závislostí kvantitativního znaku na kvantitativním znaku (nebo více kvantitativních znacích) se zabývá regresní analýza. V případě závislosti dvou znaků mluvíme o jednorozměrné regresi (případně jednoduché regresi), u znaku závislém na více kvantitativních veličinách hovoříme o vícerozměrné regresi {vícenásobné regresi). V této kapitole budeme vyšetřovat nejprve nejjednodušší lineární závislost dvou znaků, v další kapitole se budeme zabývat i nelineárními závislostmi dvou znaků důležitých z hlediska ekonomických aplikací. V následujících kapitolách pak budeme vyšetřovat závislosti více než dvou statistických znaků. V regresní analýze studujeme vztah mezi jedinou proměnnou (hodnotami statistického znaku) nazývanou závisle proměnnou (někdy vysvětlovanou proměnnou), označujeme ji F, a obecně několika proměnnými (hodnotami statistických znaků), které nazýváme nezávisle proměnné (někdy vysvětlující proměnné), a označujeme je symboly X\, X2,.... Pokud se zabýváme jedinou nezávisle proměnnou X, hovoříme o jednoduché regresi, pokud je nezávisle proměnných více nezjedná, mluvíme o vícrozněrnéné (vícenásobné) regresi (někdy též mnohonásobné regresi). V této a následující kapitole se věnujeme jednoduché regresi. Závisí-li veličina Y na veličině X, pak to matematicky vyjadřujeme zápisem Y=f{X), (3.1) -34- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT což je funkční vztah, známý mimo jiné z fyziky (například Newtonův gravitační zákon: F je přitažlivá síla, X je vzdálenost hmotných bodů). V našem případě jsou Y a X statistické znaky (náhodné veličiny), pak hovoříme o statistické závislosti, funkční vztah (3.1) přejde v regresní vztah (regresní model) y=f(x) + e, (3.2) kde y, resp. x, představují hodnoty znaku Y, resp. X, e je náhodná složka, funkci / nazýváme regresní funkce. Jestliže je regresní funkce/ lineární, což značí, že má tvar regresní přímky f(x) = j3Q + j3lX, (3.3) potom hovoříme o jednoduché lineární regresi, nemá-li regresní funkce lineární tvar, hovoříme o jednoduché nelineární regresi. Ve vzorci (3.3) jsou /?0 ,A parametry regresní funkce neboli regresní koeficienty. Mezi nejpoužívanější nelineární regresní funkce patří: regresní parabola: /(*) = (3.4) regresní hyperbola: /(*) == Ä + Ä - . X (3.5) regresní logaritmická funkce: /(*) == A + A i o g * . (3.6) regresní mocninná funkce: /(*) = (3.7) regresní exponenciální funkce: /(*) == A Ä * . (3.8) Výše uvedené nelineární regresní funkce lze převést na lineární vhodnou transformaci, jak uvidíme v následující kapitole. Kromě výše uvedených příkladů nelineárních regresních funkcí existuje celá řada dalších významných nelineárních funkcí, např. Tornquistovy funkce, které nelze na lineární funkci jednoduše převést. Budeme se jimi zabývat v následující kapitole. 3.2 JEDNODUCHÁ REGRESNÍ ANALÝZA Představte si výběr párových hodnot (yi, x{), (y>2, X2), (yi, X3),..., (y„, x„), získaných (např. změřených) na statistických jednotkách základního souboru. Zde jsou hodnotami závisle proměnné Y a x,- jsou hodnotami nezávisle proměnné X. Zmíněné párové hodnoty můžeme získat zejména dvojím způsobem: -35- Regresní analýza - jednorozměrná lineární regrese (A) Hodnoty nezávisle proměnné x-{ jsme předem pevně zvolili a k nim jsme „změřili" příslušné hodnoty y,-. V této situaci jsou hodnoty znaku X pevné (nenáhodné), zatímco hodnoty znaku Y považujeme za náhodné veličiny. (B) Párové hodnoty (y,-, xi) „změříme" na n náhodně zvolených jednotkách základního souboru. V této situaci jak hodnoty znaku X, tak hodnoty znaku Y považujeme za náhodné veličiny. Výše uvedený datový soubor párových hodnot můžeme geometricky znázornit v rovině bodovým grafem, kde na vodorovnou osu „x" nanášíme hodnoty nezávisle proměnné a na svislou osu „y" příslušné hodnoty závisle proměnné. Výsledkem je geometrické znázornění n bodů v rovině, z jejichž vzájemné polohy můžeme soudit na regresní závislost znaku Y na X. Úkolem jednoduché lineární regrese je „proložit" danými body přímku (tj. nalézt lineární regresní funkci), která nejlépe charakterizuje polohu daných n bodů. Z předchozího odstavce víme, že tato regresní funkce má tvar f (x) = J30 + fix, kde Pa,fi jsou zatím neznámé hodnoty parametrů regresní přímky. Regresní model (3.2) má nyní tvar Odhady b(j,bl těchto neznámých parametrů - regresní koeficienty získáme metodou nejmenších čtverců. Této metodě, která patří mezi nejdůležitější metody používané ve statistice, bude věnován následující odstavec. 3.3 METODA NEJMENŠÍCH ČTVERCŮ Uvažujte data ve formě párových hodnot - bodů: (yi, xi), (y2, x2), (y3, X 3 ) , . . . , (y„, xn). Úkolem jednoduché regrese je najít regresní funkci, která „nejlépe charakterizuje polohu" daných n bodů. Nejprve budeme uvažovat obecný tvar regresní funkce f(x;fi0,fi) se dvěma parametry fi0,fi (nemusí to být nutně regresní přímka). Speciálními případy této regresní funkce je lineární funkce (3.3) a také nelineární funkce (3.4) - (3.8). Postup metody nejmenších čtverců bude vždy stejný, tj. nezávislý na konkrétním tvaru regresní funkce. Odhady b{),\ neznámých parametrů fi0,fi získáme tak, že nalezneme hodnoty \,bx, pro něž nabývá své minimální hodnoty reziduálni součet čtverců odchylek hodnot závisle proměnné y, od teoretické hodnoty Yi = fix^b^b^), tj. Jak je známo z matematické analýzy, své minimum funkce SR (zde je to funkce proměnných bQ,b{) vždy nabývá pro ty hodnoty bQ,b{, pro něž se anulují její parciální derivace: y, = ]B0 + fixi + £i, i = 1, 2,..., n. (3.9) n f=fJ{yi-f(xi,bQ,bl)f.S*=j:[yt-Yt) (3.10) K = 0, K = 0. (3.11) dho dh -36- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Vztahy (3.11) představují soustavu 2 rovnic o 2 neznámých b{),b{, která se nazývá soustava normálních rovnic. Jejím řešením získáme hledané odhady regresních parametrů zvolené regresní funkce. Vyřešíme nyní soustavu (3.11) pro speciální případ, který nás zejména zajímá, totiž pro lineární regresní funkci f(x;j30,j3l) = j30+j3lx. Dosadíme-li tuto funkci do vztahu (3.10), vypočteme příslušné parciální derivace, které položíme rovny 0, získáme konkrétní soustavu normálních rovnic = v + *i£*.-' (3.12) i=l i=l n n n 1=1 1=1 1=1 Z těchto rovnic již snadno (v konkrétním případě pro dané hodnoty y, , Xi známou „dosazovací metodou") vypočteme hledané odhady W takto: n b i=—n , K = y-b,x. (3.13) Z 2 —2 xi —nx i=i Z analytické geometrie si připomeňte, že regresní koeficient b0 představuje průsečík regresní přímky s osou „y", tedy hodnotu YQ pro x = 0, tento regresní koeficient se někdy nazývá úrovňová konstanta. Regresní koeficient b\ vyjadřuje směrnici přímky, tedy sklon přímky k ose ,yc", tj. změnu funkční hodnoty Y při změně nezávisle proměnné x o jednotku. Pro jiné než lineární tvary regresní funkce je postup metody nejmenších čtverců obdobný. Výsledkem je rovněž soustava 2 normálních rovnic, tyto rovnice však již nemusí být lineární a proto soustavu již obvykle nelze snadno vyřešit. K řešení pak používáme iterační numerické metody, které zde nejsou předmětem našeho zájmu. V části Řešené příklady uvedeme způsob nalezení odhadů regresních koeficientů metodou linearizace exponenciální a mocninné regresní funkce pomocí logaritmické transformace. Na tomto místě bychom chtěli zvýraznit jeden důležitý fakt, který budeme v následujícím výkladu neustále využívat. Data pro regresní analýzu jsou výsledkem náhodného výběru, ať již jsme použili při jejich získání postup (A), nebo (B). Proto také výsledek jednoduché lineární regresní analýzy - odhady neznámých parametrů /?„,/?!, tj. regresní koeficienty b^,bx, budou náhodné veličiny. Při každém dalším náhodném výběru dat bude výsledek, tj. odhad bQ,bl, obecně jiný! Má proto význam hovořit dále o statistických charakteristikách těchto odhadnutých parametrů, jako např. střední hodnota, rozptyl, apod. 3.4 MÍRA VARIABILITY, KOEFICIENT DETERMINACE Metoda nejmenších čtverců nás nyní přivedla k postupu, který jsme již použili v předchozí kapitole při analýze rozptylu. V ANOVA se jednalo o rozklad celkové variability znaku Y, vyjádřené jako celkový součet čtverců, na meziskupinový a vnitroskupinový (reziduálni) součet čtverců. V analýze rozptylu jsme pracovali se znakem X, který měl kvalitativní povahu, a proto nebylo možné vyjádřit závislost regresním modelem. V regresní analýze má znak X - nezávisle proměnná - kvantitativní povahu, a proto je regresní model -37- Regresní analýza - jednorozměrná lineární regrese závislosti Y na X možný. Použijeme analogii s ANOVA v tom, že znak X zde bude nabývat hodnot x\, X2,—,x„ a i-tá skupina bude nyní charakterizována teoretickou hodnotou Yi = f{xi;ba,bl), namísto skupinového průměru y. v ANOVA. Potom celkovou variabilitu vysvětlované proměnné charakterizuje celkový součet čtverců: 1=1 Část celkové variability vysvětlenou regresním modelem charakterizuje teoretický součet čtverců: ST=fj(Yi-ýf, (3.15) 1=1 nevysvětlenou část celkové variability představuje reziduálni součet čtverců (3.10): SR=fj(yi-Yif, (3.16) i=i kde ei = y,- - Yi nazýváme reziduum. Lze dokázat, že mezi jednotlivými součty čtverců platí základní vztah: SY= ST+SR. (3.17) Obdobně jako v analýze rozptylu jsme zavedli k vyjádření těsnosti vztahu Y a X poměr determinace, nyní zavedeme analogický pojem charakterizující přiléhavost dat k regresnímu modelu. Tímto pojmem je koeficient determinace, který definujeme vztahem R2 =\-^. (3.18) S y Ze vztahu (3.17) vyplývá, že koeficient determinace nabývá hodnoty z intervalu [0,1] a určuje tu část celkové variability pozorovaných hodnot Sy, kterou lze vysvětlit daným regresním modelem. Jinak řečeno, po vynásobení koeficientu determinace hodnotou 100 obdržíme, kolik procent celkové variability je vysvětlitelných regresním modelem. Koeficient determinace je proto důležitou charakteristikou vhodnosti zvoleného regresního modelu. Vztah (3.18) vzniká podílem náhodných veličin, a proto jakožto náhodná veličina je odhadem koeficientu determinace R2 . Pro malé rozsahy výběru n je odhad (3.18) vychýlený, viz Ramík (2003), tj. nadhodnocuje přiléhavost k regresnímu modelu. Proto se používá nevychýlený odhad koeficientu determinace R2 adj (z angl. adjusted), který nazýváme korigovaný (upravený) koeficient determinace: * Í = l - ( l - t f 2 K 4 - (3-19) n-2 Pro velké hodnoty n je však zlomek ve vzorci (3.19) blízký k jedné a korigovaný koeficient se blíží k „nekorigovanému". -38- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 3.5 KLASICKÝ LINEÁRNÍ MODEL Klasickým jednoduchým lineárním regresním modelem se nazývá regresní model (3.9): y, = fio+ftxi + § , i = l,2,...,n, splňující následující podmínky: (1) Hodnoty vysvětlující proměnné se volí předem, viz (A) odstavec 3.2, nejsou to tedy náhodné veličiny. (2) Náhodné složky $ v modelu (3.9) mají normální rozdělení pravděpodobnosti se střední hodnotou 0 a (neznámým) rozptylem o2 . Konstantnost rozptylu nazýváme homoskedasticita. (3) Náhodné složky jsou nekorelované, tj. Cov(£{, £j) = 0 pro každé i rj, i,j = \,2,...,n. (Cov značí kovarianci, viz Ramík (2003)) Podmínky (1) až (3) požadujeme tehdy, chceme-li zajistit splnění některých dalších vlastností: např. zjistit intervaly spolehlivosti koeficientů regresní funkce, interval spolehlivosti hodnoty regresní funkce, eventuálně chceme-li provádět testy hypotéz o některých prvcích regresního modelu. Těmito tématy se budeme zabývat v následujících odstavcích. Pokud totiž tyto podmínky splněny nejsou, nelze zajistit „spolehlivé předpovědi". V praxi jsou podmínky klasického modelu často splněny, nejsme-li si však jejich platností jisti, můžeme provést testy hypotéz jak o normalitě rozdělení náhodné složky (např. test dobré shody, viz např. Ramík (2003)), tak i testy o nekorelovanosti náhodných složek (např. Mest). Další testy uvedeme později v souvislosti s časovými řadami. Na Obr. 3.1 je znázorněna situace, kdy podmínky klasického lineárního modelu jsou splněny, na Obr. 3.2 je zachycena situace, kdy není splněna ani podmínka normality náhodných složek (na obrázku jsou všechny £, prakticky stejn é), an i podmín ka n ekorelovan osti (hodn oty y,- se n acházejí vedle sebe po jedné stran ě grafu regresn í fun kce). Data a regresní křivka 15 j 10 1 — — I — — I — — I — — h - 0 5 10 15 20 ř Obr. 3.1. Podmínky klasického modelu jsou splněny -39- Regresní analýza - jednorozměrná lineární regrese Data a regresní křivka 25 j • • • 20 -- • 5 -- 0 \ 1 \— 0 5 10 15 20 ř Obr. 3.2 Podmínky klasického modelu nejsou splněny Ř E Š E N Ý P Ř Í K L A D 3.1 Společnost na výrobu bytového textilu zkoumala, jak souvisí zisk z prodeje s výdaji na reklamu. Tab. 3.1 uvádí údaje obdržené v deseti náhodně vybraných firmách. a. Načrtněte bodový graf a určete typ regresní funkce popisující danou závislost. b. Stanovte koeficienty regresní funkce z a. c. Vypočítejte koeficient determinace a zhodnoťte těsnost závislosti vyjádřenou regresním modelem z bodu b. Pozorování Výdaje na reklamu (tis. Kč) Zisk z prodeje (10 tis. Kč) 1 6 5 2 8 8 3 9 9 4 9 12 5 12 21 6 15 25 7 16 32 8 20 36 9 22 51 10 23 59 Tab. 3.1. Výdaje na reklamu Řešení („ruční" výpočet): a. Zkoumá se závislost zisku z prodeje na výdajích na reklamu, proto sestrojíte bodový graf tak, že na osu x nanesete výdaje, na osu y zisk. Z grafu vidíte, že jde o přímou závislost, kterou je možné popsat regresní přímkou -40- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT b. Máte za úkol stanovit hodnoty koeficientů bo, bu neboli na základě dat z tabulky odhadnout hodnoty parametrů J3\, fii. Využijeme výsledků metody nejmenších čtverců, nebudete však dosazovat přímo do soustavy rovnic (3.12), ale použijete vztahy pro bo, b\, tj. (3.13), které je možné zdané soustavy vyjádřit, a to v numericky výhodném a snadno zapamatovatelném tvaru: b = xj_-x-y = 462,1-14-25,8 = 100,9= 2 ^ 1 x 2 -x2 230-142 34 b0 = y - hš = 25,8 - 2,97 • 14 = -15,75. Výpočty potřebných hodnot pomocí kalkulačky jsou uvedeny v následující tabulce. i Xi yi Yt (Yi - ý)2 (Ji-y)2 1 6 5 36 0 2,04 565,21 432,64 2 8 8 64 64 7,98 318,22 316,84 3 9 9 81 81 10,95 221,15 282,24 4 9 12 81 108 10,95 221,15 190,44 5 12 21 144 252 19,86 35,62 23,04 6 15 25 225 375 28,77 8,61 0,64 7 16 32 256 512 31,74 34,84 38,44 8 20 36 400 720 43,62 315,88 104,04 9 22 51 484 1122 49,56 562,08 635,04 10 23 59 529 1357 52,53 711,60 1102,24 Součet 140 258 2300 4621 258 2994,3 3125,6 Průměr 14 25,8 230 462,1 Lineární regrese y = 2,9676x - 15,747 Obr. 3.3. Graf regresní přímky Hledaná regresní přímka má tvar: F = -15,75 + 2,97*. c. K tomu, abychom vypočítali determinační koeficient, musíme znát hodnotu součtu ST a součtu SY. Tyto součty vypočítáme podle vztahů (3.14), (3.15). Pro výpočet teoretického součtu musíme pro každé x,-, i = !,...,!0, znát teoretickou hodnotu 7„ i = 0 -41 - Regresní analýza - jednorozměrná lineární regrese Yi = -15,75 + 2,97 • x, = -15,78 + 2,97 • 6 = 2,04. Tato hodnota udává, jaký by měl být zisk při výdajích x = 6. Protože však jde o stochastickou závislost mezi společenskými veličinami, může se tato hodnota lišit od skutečně zjištěné hodnoty y = 5. Všechny teoretické hodnoty Yi i hodnoty součtů Sy a ST jsou uvedeny v tabulce. Koeficient determinace vypočítáme dosazením součtů Sy, ST do vztahu (3.18). R 2 = S^= 29943 = SY 3125,6 Tato hodnota znamená, že pomocí regresní přímky Y =-15,78+ 2,97x je vysvětleno 95,8% chování proměnné Y. Nakonec ještě ukážeme řešení pomocí Excelu. Využijeme přitom graf funkce s funkcí Přidat spojnici trendu. V dalším řešeném přikladu si pak ukážeme ještě další možnost řešení úlohy jednoduché (i vícenásobné) regrese s využitím menu: Data -» Analýza dat... -» Regrese. Data jsou uspořádána ve worksheetu ve 2 sloupcích: A B Výdaje na Zisk reklamu (tis. z prodeje Kč) (10 tis. Kč) 1 2 6 5 3 8 8 4 9 9 5 9 12 6 12 21 7 15 25 8 16 32 9 20 36 10 22 51 11 23 59 12 Po volbě položky Vložit graf —> XY bodový..., se otevře zadávací okno, kde zadáte: Oblast dat: $A$1:$B$11 Sloupce: V (zakřiknout) Potvrdíte OK Obdržíte bodový graf, viz Obr. 3.3. (ještě bez regresní přímky). Poklepem pravým tlačítkem myši na některý z bodů grafu obdržíte nabídku menu, kde zvolíte: Přidat spojnici trendu Typ trendu regrese: zvolíte Lineární Dále otevřete záložku Možnosti, kde zakliknete: Zobrazit rovnici regrese (rovnice regresní přímky) a Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace i?2 ). Potvrdíte OK. Obdržíte výsledek téměř takový, jaký je na Obr. 3.3. K původním bodům se zobrazí regresní přímka, dále rovnice regresní přímky a hodnotu koeficientu determinace R . Ř E Š E N Ý P Ř Í K L A D 3.2 Společnost Air - Ostrava, zajišťující lety na trase Ostrava - Praha, sleduje při plánování letů také na hmotnost užitečného zatížení letadla, jehož významnou část tvoří pasažéři a jejich -42- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT zavazadla. Zjistilo se, že hmotnost zavazadel cestujících souvisí s dobou, na kterou odcestovali. a. Najděte rovnici regresní přímky popisující danou závislost. b. S jakou hmotností zavazadel lze počítat, bude-li na palubě 15 cestujících vracejících se za 2 dny, 7 cestujících vracejících se za 5 dnů, 5 cestujících vracejících se za 6 dnů a 1 cestující vracející se za 14 dní. Výsledky průzkumu jsou zaznamenány v tabulce. Pozorování Dny Hmotnost 1 13 46 2 12 43 3 9 29 4 16 52 5 10 31 6 5 18 7 2 11 8 3 12 9 8 25 10 2 10 11 14 48 12 19 60 13 3 15 14 5 20 15 2 12 Řešení: Prezentujeme zde pouze „ruční" výpočet řešení (s kalkulačkou), řešení pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu ponecháváme na čtenáři. a. K výpočtu regresních koeficientů bo, b\ použijeme opět vztahů (3.13): bx = ^2^1 = 324,4-8,2-28,8 = = _ = _ . = ^ _ - 2 96,73-8,22 Regresní přímka má tedy tvar F = 4,27 + 2,99*. i 1 13 46 598 169 2 12 43 516 144 3 9 29 261 81 4 16 52 832 256 5 10 31 310 100 6 5 18 90 25 7 2 11 22 4 -43- Regresní analýza - jednorozměrná lineární regrese 8 3 12 36 9 9 8 25 200 64 10 2 10 20 4 11 14 48 672 196 12 19 60 1140 361 13 3 15 45 9 14 5 20 100 25 15 2 12 24 4 Součet 123 432 4866 1451 Průměr 8,2 28,8 324,4 96,73 b. Vypočítáme hodnotu 7 pro x = 2: 7(2) = 4,27 + 2,99 • 2 = 10,25, x = 5: 7(5) = 4,27 + 2,99-5 = 19,22, JC = 6: 7(6) = 4,27 + 2,99 • 6 = 22,21, x=14: 7(14) = 4,27+ 2,99-14 = 46,13. Potom hmotnost zavazadel m, se kterou lze počítat, snadno zjistíte, uvážíte-li počty příslušných cestujících: m = 15 • 7(2) + 7 • 7(5) + 5 • Y(6) +1 • Y(14) = 153,75 +134,54 +111,05 + 46,13 = 445,47. 3.6 SAMOSTATNÉ ÚKOLY 3.1 Personální ředitel firmy shromáždil údaje o věku (X) a době pracovní neschopnosti (7) dvaceti náhodně vybraných stálých zaměstnanců. Zjištěné údaje jsou zaznamenány v tabulce. X 7 X 7 20 4 58 20 35 14 46 13 35 15 43 16 34 10 33 10 32 10 29 10 28 9 36 11 25 12 48 14 46 15 55 15 38 15 36 14 50 16 19 6 Načrtněte bodový graf a najděte rovnici regresní funkce vyjadřující danou závislost. Zhodnoťte výstižnost (přiléhavost) regresní funkce vzhledem k datům. -44- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 3.2 Bylo sledováno, jak souvisí množství vadných výrobků (v % z vyrobených výrobků) s výkonem soustružníka (v % z předepsané normy). Bylo vybráno deset pracovníků, naměřené údaje jsou uvedeny v tabulce. Výkon 56 68 72 85 92 102 107 111 123 142 Vadné výrobky 5,2 3,9 3,5 2,4 2,04 2 2,2 2,24 2,4 2,51 Stanovte regresní model a určete přiléhavost regresní přímky k datům. 3.3 Tabulka zachycuje stáří (v letech) osmi vybraných strojů v potravinářském závodě a týdenní náklady (v Kč) na provoz těchto strojů. Stáří stroje 1 2 3 4 5 6 7 8 Náklady 44 52 61 80 94 108 111 116 a. Odhadněte parametry lineární regresní funkce, která by měla vystihovat průběh závislosti nákladů na stáří. b. Určete koeficient determinace R2 a interpretujte jej. c. Jaké týdenní náklady můžeme očekávat u stroje starého 4 roky? 3.7 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 3.2 F = -0,0285x + 5,56; R2 =0,53. 3.3 a) y = 3244+11,36* b) R2 =0,97 tzn. modelem je vysvětleno 97% celkové variability. c) y(4) = 3244+11,364 = 77,58 Kč. -45- Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 4 REGRESNÍ ANALÝZA - JEDNOROZMERNÁ: INTERVALY SPOLEHLIVOSTI, TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE RYCHLÝ NAHLED KAPITOLY Tato kapitola vám rozšíří znalosti v jednorozměrné regresní analýze. Za předpokladů jednorozměrného klasického regresního modelu se budete zabývat stanovením intervalů spolehlivosti a dále testy hypotéz regresních koeficientů a testem nulovosti koeficientu determinace. Další odstavce se zabývají jednorozměrnou nelineární regresí. Nejprve budou vyšetřovány regresní funkce, které lze s pomocí vhodné transformace převést na funkce lineární dále parabolická regresní funkce a nakonec nelineární regresní funkce tzv. Tornquiustova typu. Pro výpočet parametrů těchto funkcí se používá metoda vybraných bodů s pomocí Excelu. V této kapitole si rozšíříte znalosti v jednorozměrné regresní analýze. V návaznosti na jednorozměrný klasický regresní model se budete zabývat intervaly spolehlivosti a testy hypotéz regresních koeficientů a také testem koeficientu determinace. Poté se začnete zabývat jednorozměrnou nelineární regresí. Nejprve budou vyšetřovány ty regresní funkce, které lze s pomocí vhodné transformace převést na funkce lineární. Následuje parabolická regresní funkce a nakonec nelineární funkce tzv. Tornquiustova typu. Pro výpočet parametrů těchto funkcí, jež mají uplatnění především v marketingu, poznáte novu metodu tzv. metodu vybraných bodů, která zde nahradí známou metodu nejmenších čtverců s využitím Excelu. 4.1 INTERVALY SPOLEHLIVOSTI Jsou-li splněny předpoklady klasického lineárního modelu (3.9), tj. modelu yi = fio+frx; + £i, i = l,2,...,n, potom pro rozdělení odhadů regresních koeficientů b0,bx jakožto náhodných veličin platí toto: Regresní koeficient bj má normální rozdělení pravděpodobnosti se střední hodnotou /3j a rozptylem o 2 hj, kde 7 = 0 nebo 1, čísla fy jsou definována následujícími vztahy: K= v r f v r ( 4 - 1 } K = r^T—v • ( 4 - 2 ) V klasickém lineárním modelu předpokládáme, že náhodné složky mají konstantní rozptyl o2 , jeho hodnotu však neznáme. Neznámý rozptyl o 2 můžeme nahradit jeho bodovým odhadem 4 = ^ 7 , (4-3) n — 2 -46- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT který nazýváme reziduálni rozptyl. Jak je vidět, v reziduálním rozptylu vystupuje v čitateli reziduálni součet čtverců (3.16) dělený číslem n - 2, což je počet stupňů volnosti, tj. rozsah dat n mínus počet regresních parametrů v modelu: 2. Odmocninu reziduálního rozptylu SR nazýváme směrodatná chyba. Oboustranný interval spolehlivosti pro regresní koeficient bj, při zadaném koeficientu spolehlivosti (1 - a), je následující interval: [bj-h-an(n-2) sRy[h~ ,bj + h^n-T) sRJh~~\,j = 0 nebo 1. (4.4) Připomínáme, že zde t\.an.(n - 2) je příslušný kvantil Studentova ř-rozdělení, podrobnosti, viz Ramík (2003), fy jsou dány vztahy (4.1), (4.2). Bodový odhad regresních koeficientů bj neříká nic o eventuální variabilitě tohoto koeficientu. Tuto informaci doplňuje směrodatná chyba (4.3) a zejména interval spolehlivosti (4.4), který informuje, v jakém rozmezí se regresní koeficient může pohybovat v rámci zadané spolehlivosti. Odhadnutý lineární regresní model (3.1), který má tvar y = bo + b\x + e , (4.5) resp. regresní funkce Y= bo + bix, (4.6) má praktický význam zejména při odhadu chování modelu v případě, že nezávisle proměnná nabývá nějakou v datech se nevyskytující hodnotu, označme ji např. XQ. Model (4.5), resp. regresní funkce (4.6), pak slouží k předpovědi (predikci, prognóze, extrapolaci) hodnoty závisle proměnné. Bodový odhad předpovědi získáme dosazením XQ do (4.5), resp. (4.6), neboť predikovaná hodnota chyby (rezidua) e je 0, tedy Y0 = b0 + bix0 . (4.7) Informaci o tom, v jakém rozmezí se predikovaná hodnota závisle proměnné y může pohybovat, poskytne oboustranný interval spolehlivosti: [YQ-h.adn-T) sR4Ř, Y0 + h.^n-2) sR4Ti ], (4.8) kde H =1 + 1 + (nx0 -^x,.)2 Ostatní symboly v (4.8) mají stejný význam, jako v intervalu (4.4). 4.2 TESTY HYPOTÉZ Metodou nejmenších čtverců lze zjistit, zda regresní koeficienty bj jsou nenulová čísla, musíme mít však stále na paměti, že se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda naše původní parametry J3j jsou přesto nulové. Za předpokladů klasického lineárního modeluje možno testovat nulovou hypotézu: H0 : J3j=0, j' = 0nebo 1 (4.9) proti oboustranné alternativní hypotéze Hi: 0j*O, j' = 0nebo 1. (4.10) Při tomto testu použijeme testové kritérium -47- Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese b T= . 1 , (4.11) Ín-2 1 které má při platnosti H 0 ř-rozdělení s n - 2 stupni volnosti, SR je reziduálni součet čtverců, hj je dáno vztahy (4.1), (4.2), přičemž j = 0 nebo 1. Na hladině významnosti a (viz Ramík (2003)) je kritický obor vymezen nerovností \T \> h-an(n-2), kde tl_a/2(n-2) je příslušný kvantil Studentova ř-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. Přijmete-li např. na dané hladině významnosti a nulovou hypotézu Ho: /?, = 0, pak to znamená, že y nezávisí na x, jinak řečeno, pro libovolnou hodnotu nezávisle proměnné x nabývá závisle proměnná y neustále stejné hodnoty /30. Vypočítaná hodnota koeficientu determinace je prakticky vždy kladná. Musíme však mít stále na paměti, že u hodnot vstupujících do výpočtu koeficientu determinace se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda teoretický koeficient determinace R2 není přesto nulový. Za předpokladů klasického lineárního modelu je možno testovat nulovou hypotézu: H0 :R2 = 0, proti oboustranné alternativní hypotéze Hi:R2 * 0. Při tomto testu použijeme testové kritérium které má při platnosti Ho ř-rozdělení s n - 2 stupni volnosti, Ŕ1 je vypočítaný koeficient determinace. Na hladině významnosti a (viz Ramík (2003)) je kritický obor vymezen nerovností T>t1_a(n-2), kde tl_a(n - 2) je příslušný kvantil Studentova ř-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. 4.3 NELINEÁRNÍ REGRESNÍ ANALÝZA V tomto odstavci si povšimneme jednoduchého regresního modelu s nelineární regresní funkcí, který se však dá pouhou substitucí na lineární model převést. Konkrétně se jedná o dvě regresní funkce zmíněné již v kapitole 3: regresní mocninná funkce: f(x) = / i 0 x A , (4.12) regresní exponenciální funkce: f(x) = f5[)f5l x . (4.13) -48- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACO VÁNÍ DAT Regresní model s regresní funkcí (4.12) má tvar: y = /30x&+£, (4.14) avšak namísto něj uvažujeme model, jež vznikne logaritmováním (4.12), kde položíme y = f (x), tj. In y = ln/?0 +fillnx + e', přitom In označuje přirozený logaritmus o základu e = 2,718... Jestliže nyní položíte substituce y' = l n y , x' = lnx, (4.15) Ä = l n A . Ä = Ä . (4-16) pro transformaci (4.15) původních dat y „ xiy obdržíte „čárkovaný" jednoduchý lineární regresní model y' = /r0+fix'+£', (4.17) jehož parametry P'0,P[(regresní koeficienty) lze odhadnout metodou nejmenších čtverců aplikovanou na lineární model (4.17), a obdržíte tak jejich odhady b'0,b[. S použitím vztahů (4.15) a (4.16) dostanete nazpět odhady b0,bx původního nelineárního regresního modelu (4.12): b0=eb °,b1 =b[. Analogickým postupem lze linearizovat jednoduchý nelineární regresní model s exponenciální regresní funkcí (4.13), která je v ekonomii známa jako Cobb-Douglasova jednofaktorová produkční funkce: y = Mx +£, (4.18) který substitucemi y = ln y , x' = x, (4.19) j3'0=m/30, A' = h i A , (4.20) lze rovněž transformovat na „čárkovaný" lineární model (4.17), jehož parametry P'0,P[ odhadneme metodou nejmenších čtverců, a obdržíme tak jejich odhady b'Q,b[. S použitím vztahů (4.20) vypočteme nazpět odhady W původního nelineárního regresního modelu (4.18): bQ=eh '° ,bl=eh; . (4.21) Je však třeba upozornit, že na intervalové odhady, resp. testy hypotéz, regresních koeficientů b'0,b[ lze použít postup zpočátku této kapitoly pouze tehdy, když transformovaná, tj. „čárkovaná" data y-,JC(', splňují podmínky klasického regresního modelu z kapitoly 3. Meze intervalových odhadů, tedy krajní body intervalů spolehlivosti pak vypočítáme s použitím zpětných transformací (4.21). Dalšími užitečnými nelineárními regresními funkcemi s uplatněním především v marketingu a výzkumu trhu (logistické funkce, Gompertzovy funkce, aj.) se budete zabývat v kapitole věnované analýze časových řad. Tam se budete zabývat i problémem výběru vhodného typu regresní funkce. V následujících odstavcích se ještě věnujeme známé parabolické regresní funkci a dále Tôrnquistovým funkcím, které nelze převést jednoduše na lineární tvar, jak tomu bylo v tomto odstavci. Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 4.4 PARABOLICKÁ REGRESE V kapitole 3.1. jsme označili parabolickou regresní funkci (3.4) za regresní funkci, kterou lze substitucí x = x2 převést na lineární tvar. V tomto případě se však jednalo pouze o speciální tvar paraboly (s vrcholem na ose y) se dvěma parametry. Obecný tvar paraboly však má parametry tři a vypadá takto: f(x) = /3Q + fix + /32x2 . (4.22) Jednoduchý regresní model s parabolickou regresní funkcí pak má tvar y = jBQ+jB1x + j82x2 + £. (4.23) Máme-li tedy k dispozici data, tj, dvojice hodnot (yi, xi), (y2, xi), (V3, X3),..., (yn, xn), pak lze odhady b0,bvb2 regresních parametrů P0,/3u/32 získat metodou nejmenších čtverců, přičemž je zapotřebí řešit soustavu 3 normálních rovnic o 3 neznámých: ^y^nb.+b^+b^x2 , (4.24) YJ =b ňYj x í + b i H x i 2 + b 2 Xx í ' X y i x i 2 = b o Y ; x i 2 + b i Y j x i +^ X x í • Uvědomte si, že neznámejšou v této soustavě rovnic b0,bvb2, zatímco y„ x, jsou známé hodnoty, které se dosadí do sum E v soustavě (4.24). Tuto soustavu 3 lineárních rovnic o 3 neznámých je snadné vyřešit např. známou Gaussovou eliminační metodou. Číselný příklad uvedeme v následující části věnované řešeným příkladům. 4.5 TÔRNQUISTOVY FUNKCE Zejména v marketingu se využívají Tornquistovy regresní funkce (též Tornquistovy křivky), což jsou regresní funkce s více parametry, které podle použití rozdělujeme na tři typy: Tornquistovy křivky I. typu vyjadřují závislosti poptávky po spotřebním zboží f(x)na výši příjmů x ekonomických subjektů (např. rodin). Tyto křivky mají tvar: f(x)=-fe-. (4.25) x + A Křivky tohoto typu se používají například při plánování a prognózovaní ve spotřebním průmyslu. Regresní funkce (4.25) slouží k modelování poptávky po zboží nezbytného charakteru (mléko, pečivo, obuv, apod.). Při modelování poptávky po zboží relativně nezbytného charakteru (elektrospotřebiče, maso a uzeniny, apod.) se používají Tornquistovy křivky II. typu, které mají tvar: / ( x ) = £ ) ( * - # ) ( 4 2 6 ) x + j32 Tornquistovy křivky III. typu se používají při modelování poptávky po zboží zbytného charakteru (auta, šperky, umělecká díla, apod.). Tyto regresní funkce se třemi parametry mají tvar: / ( X ) = M * - A ) ( 4 2 7 ) x + p2 -50- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Odhady regresních parametrů funkcí (4.25) - (4.27) lze získat opět metodou nejmenších čtverců, avšak s použitím PC a Excelu, neboť soustava 3 normálních rovnic o 3 neznámých je nelineární, a proto se k řešení používají iterační numerické metody. Pro ruční výpočet můžeme alternativně využít i metodu vybraných bodů. Tornquistova křivka I. typu 1 j 0,9 - 0,8 - 0,7 -- 0,6 Sř 0,5 ^ 0,4 - 0,3 - 0,2 --, 0,1 / 0 - 0 x Obr. 4.1. Tornquistova křivka I. typu, J30 = {3l = j32 =1 Tornquistova křivka II. typu 1 j 0,8 - 0,6 ^ 0,4 - 0,2 - 0 -- 0 2 4 6 8 10 12 x Obr. 4.2. Tornquistova křivka II. typu, {3Q = j3l = /32 = 1 Tornquistova křivka III. typu 1 0,8 0,6 5^0,4 0,2 0 x Obr. 4.3. Tornquistova křivka III. typu, = j5x = l,/32 = 80 10 12 0 2 4 6 8 10 12 -57 - Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 4.6 METODA VYBRANÝCH BODŮ Ukážeme si zde jinou metodu výpočtu neznámých parametrů, která sice nevede z teoretického pohledu k nejlepším odhadům, avšak její výhoda spočívá ve výpočetní nenáročnosti umožňující „ruční" výpočet. Tato metoda se nazývá metoda vybraných bodů a spočívá v tom, že z daných údajů (ľ,, x,) vybereme 3 charakteristické hodnoty - body, kterými necháme Tôrnquistovu křivku procházet, jinými slovy, položíme empirické hodnoty rovny hodnotám teoretickým. Jestliže charakteristické hodnoty poptávky YVY2,Y3 odpovídají hodnotám výše příjmů xl,x2,x3, pak ze vztahu (4.26) obdržíte soustavu 3 rovnic o 3 neznámých b0,bvb2: Y =bQ(xl-b1) x1+b2 Y = b0(x2-bl) x2+b2 Y = b o(x 3-b i) x3+b2 (4.28) jejichž řešením např. postupným dosazováním získáme odhady neznámých parametrů b0,bl,b2. Ř E Š E N Ý P Ř Í K L A D 4.1 Data v tabulce představují ceny brožovaných knih a k nim příslušné počty jejich stran. a. Určete lineární regresní model popisující závislost ceny knih na počtu stran. b. Určete interval, ve kterém bude s pravděpodobností 95% ležet regresní koeficient b\. c. Na hladině významnosti 5% testujte, zdaje regresní koeficient b\ statisticky významný. d. Vypočtěte koeficient determinace a na hladině významnosti 5% testujte, zdaje statisticky významný. e. V jakém rozmezí se bude pohybovat cena knihy s 250 stranami? Uvažujte hladinu významnosti 0,01. Měření č. 1 2 3 4 5 6 7 Počet stran 20 35 48 50 130 200 86 Cena knihy 40 50 70 106 118 179 100 Řešení: a. Koeficienty regresní přímky Y = bo + bix určíte pomocí vztahů (3.13): 10135,71-81,29-94,71 2436,73x-y-x-y 2 —2 X -x 10103,57 -8L292 3495,51 = 0,70 b0 = ý - b, -x = 94,71-0,7-81,29 = 37,81. Hledaná regresní přímka má tvar y = 37,81 + 0,1 x. b. Úkolem je najít 95% oboustranný interval spolehlivosti pro koeficient b\. Obecný tvar tohoto intervalu je následující (viz (4.4)): \b\-t\.adn-T)sR^hi ,b\ + h-adn-2) sR^], kde sR je odmocnina z reziduálního rozptylu Sg = ——, h\ je definováno vztahem (4.2). n-2 -52- Jaroslav Ramík a Radmila Stoklasová; STATISTICKÉ ZPRACOVANÍ DAT i Xi yi Yi (yi-Yt)2 (yi-y)2 1 20 40 400 800 51,81 139,48 2993,18 2 35 50 1225 1750 62,31 151,54 1998,98 3 48 70 2304 3360 71,41 1,99 610,58 4 50 106 2500 5300 72,81 1101,58 127,46 5 130 118 16900 15340 128,81 116,86 542,42 6 200 179 40000 35800 177,81 1,42 7104,80 7 86 100 7396 8600 98,01 3,96 27,98 Součet 569 663 70725 70950 1516,83 13405,43 Průměr 81,29 94,71 10103,57 10135,7 Nejprve se vypočítá reziduálni součet čtverců SR (v tabulce výpočtů je to hodnota v předposledním sloupci dole): S*=ŽU-^)2 =1516,83. Teoretické hodnoty i 7 , obdržíme postupným dosazováním hodnot JC, do rovnice regresní přímky. Hodnoty Yt, jednotliví sčítanci i součet SR jsou uvedeni v tabulce. Nyní můžeme vypočítat hodnotu reziduálního rozptylu s2 R . 2 1516,83 s„ = = 303,37. 7 - 2 Potom SR = V * í = V303,37 =17,42. Dále stanovíme hodnotu h\. n 7 7 = 0,00004. ' " Z > / 2 - ( l > / ľ V-70725-5692 171314 V tabulkách Studentova rozdělení nalezneme (1 - 0d2) = 97,5% kvantil ř-rozdělení o n - 2 = 7 - 2 = 5 stupních volnosti, tj. tQ975(5) = 2,57. Dosazením výše vypočítaných hodnot do vztahu pro interval spolehlivosti určíme jeho pravou a levou stranu: L = 0,1- 2,57 • 17,42 • ^0,00004 = 0,42. P = 0,7 + 2,57 • 17,42 • ^0,00004 = 0,98. Regresní koeficient b\ bude s 95%-ní pravděpodobností ležet v intervalu [0,42; 0,98]. c. Ačkoliv je hodnota koeficientu b\= 0,7, nesmíte zapomínat na to, že pracujete s náhodným výběrem a že teoretická hodnota parametru fi\ přesto může být nulová. Bude se proto testovat nulová hypotéza H0 :Ai = 0 proti oboustranné alternativní hypotéze H i : # * 0 . K ověření nulové hypotézy vypočítáme hodnotu testového kritéria (4.11) b ' ' 0,7 0,7 T = n-2 1 ^ . 0 , 0 0 0 0 4 W 1 7 - 2 6,35. -53- Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese V tabulkách ř-rozdělení nalezneme ro,97s(5) = 2,57. Protože 6,35 > 2,57, zamítáme nulovou hypotézu ve prospěch hypotézy alternativní, což znamená, že na zvolené hladině významnosti je parametrfi\nenulový a tedy statisticky významný. d. Koeficient determinace R2 vypočítáme podle vztahu R2 =1 ^ = 1- 1516,83 13405,43 = 0,89. Testové kritérium stanovíte podle vztahu (4.11*) T \R2 {n-2) 0,89.5 \-RÁ 6,35. V 1-0,89 Protože 6,35 > 2,57, zamítá se nulová hypotéza ve prospěch hypotézy alternativní, což znamená, že na zvolené hladině významnosti je koeficient determinace R nenulový a tedy statisticky významný. e. Máte stanovit 99% interval spolehlivosti pro predikovanou hodnotu Y, je-li XQ = 250. Podle (4.8) je tvar tohoto intervalu [Y0 - h.adn-2) Sr4H , Y0 + h-ďi(n-2) sffVŽŽ ], kde Y0 = b0 + bix = 37,81 +0,7 -250 = 212,81, h.odn -2) = 4,032, SR = 17,42 , H = l + 1 + (nx0 ~Y,x if Z X - (Z*,)2 = 1 + 1 + (7-250-569)2 7-70725-5692 = 1 + f 139476ŕ J 1 + V 171314 = 1 + --9,14 = 2,31. 7 Meze hledaného intervalu jsou: L = 212,81 - 4,032 • 17,42 • ^231 = 106,06. P = 212,81 + 4,032 • 17,42 • ^231 = 319,56. Cena knihy se bude s 99%-ní pravděpodobností pohybovat v intervalu [106,06;319,56]. Nakonec si ukážeme řešení pomocí Excelu. Na tomto místě to bude další možnost řešení úlohy jednoduché (i vícenásobné) regrese s využitím menu: Data Analýza dat... Regrese. Data jsou uspořádána ve worksheetu ve 2 sloupcích: A B C 1 Počet stran Cena knihy 2 20 40 3 35 50 4 48 70 5 50 106 6 130 118 7 200 179 8 86 100 9 Otevře se okno regrese, které vyplníte takto: -54- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Regrese | ? ||X -Vstup— Vstupní oblast V: Vstupní oblast X: | $ B $ 1 : $ B $ 8 3 [ÍÄÍliíÄíi 53 Popisky IKonstanta je nula R Hladina spolehlivosti [99 % |íAÍ20 -Možnosti výstupu — í* Výstupní oblast: C~ Nový [ist: | P Nový sešit Rezidua IRezidua IGraf s rezidui IStandardní rezidua |~~ Graf regresní přímky ~a Nilormální pravděpodobnostjGraF pravděpodobnosti I Storno Nápověda Po potvrzení OK obdržíte: VÝSLEDEK Regresní statistika Násobné R 0,942 Hodnota spolehlivosti R 0,887 Nastavená hodnota spolehlivosti R 0,864 Chyba stř. hodnoty 17,416 Pozorování 7 ANOVA Rozdíl SS MS F yznamnost F Regrese 1 11888,84 11888,84 39,19608 0,001525 Rezidua 5 1516,586 303,3172 Celkem 6 13405,43 Koeficientyba stř. hodí tstat Hodnota P Dolní 95% Horní 95% Dolní 99,0% Horní 99,0% Hranice 38,059 11,19022 3,401 0,019 9,294 66,825 -7,061 83,180 Počet stran 0,697 0,111327 6,261 0,002 0,411 0,983 0,248 1,146 V první části výstupu jsou popisky s nepřesnými překlady do češtiny, uvádíme proto jejich správné významy: Násobné R = R - koeficient korelace Hodnota spolehlivosti R = R2 - koeficient determinace Nastavená hodnota spolehlivosti R = R 2 a d j - upravený koeficient determinace Chyba stř. hodnoty = s 2 - směrodatná chyba (odhad směrodatné odchylky náhod, složky) V této části výstupu je důležitá druhá hodnota - koeficient determinace R2 = 0,887, který odpovídá ručně získanému výsledku z části d. Druhá tabulka ve výstupu - ANOVA není v pravém slova smyslu metoda ANOVA, jak jsme sejí zabývali v kapitolách 1 a 2, jde tu o analogii využívající podobnosti vztahů (1.5) a (3.17). Analogicky jako v metodě ANOVA je zde výsledek F-testu statistické významnosti celého regresního modelu: Významnost F = 0,001525. Tato hodnota je menší než 0,05 a proto je celý regresní model statisticky významný. Ve třetí - poslední tabulce jsou uvedeny relevantní informace k vypočítanému regresnímu modelu. Nejprve jsou uvedeny odhady regresních koeficientů: Hranice = úrovňová konstanta = bo Počet Stran = sklon regresní přímky = koeficient u nezávisle proměnné „počet stran" = b\ Ve sloupci Hodnota P jsou uvedeny p-hodnoty (signifikance) testů nulovosti příslušných regresních koeficientů: Pro regresní koeficient bo je tato hodnota 0,019 < 0,05 - bo je statisticky významný tj. fio* 0. -55- Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese Pro regresní koeficient b\]& tato hodnota 0,002 < 0,05 - b\ je statisticky významný tj. f3\ ž 0. Intervaly spolehlivosti regresních koeficientů jsou uvedeny ve sloupcích: Dolní95%, Horní95%, resp. Dolní99,0%, Horní99,0%. Konkrétně, 95%-ní interval spolehlivosti koeficientu j3\ je [0,411 ; 0,983], což je stejný výsledek, jaký jsme obdrželi předtím ručním výpočtem. Ř E Š E N Ý P Ř Í K L A D 4.2 Při sledování závislosti vlastních nákladů na skladování zahrnující i ztráty způsobené zastavením výroby z nedostatku součástek (F) na velikosti dodávek (X) v 18 obuvnických závodech jsme obdrželi následující údaje - viz. tabulka. a. Nalezněte regresní funkci popisující závislost Y na X a určete její rovnici. b. Stanovte optimální velikost dodávky. Podnik 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Dodávka Náklady 28 32 35 62 59 58 40 42 45 49 51 53 50 46 44 42 53 56 57 60 61 64 69 40 41 38 35 36 36 38 72 75 77 40 42 46 Řešení: Jak z průběhu bodového diagramu, tak i rozboru empirických údajů plyne, že závislost mezi velikostí dodávek a náklady na skladování dobře vystihuje parabolická regresní funkce f(x) = /3o+/3lx+/J2x2 . Náklady na skladování mají zpočátku klesající tendenci- malá dodávka způsobuje vysoké náklady na převzetí připadající na jednu součástku a způsobuje výpadky ve výrobě. Tuto tendenci později vystřídá vzestup - příliš velká dodávka zvyšuje stav zásob, prodlužuje skladovací dobu a vyvolává nutnost úvěrového krytí - viz Obr. 4.4. Odhady hodnot parametrů parabolické regrese obdržíme řešením soustavy normálních rovnic E V; =nb0 +b{YJxi + b2TJ X ? i i i E = ^ E x i + b i E x ? + b 2 E x i i i i i 5><*ľ =KYUX Í + b ^ x i + ^ E x ! 4 • í i i i -56- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Regresní parabola 70 60 50 40 30 20 10 20 40 60 Obr. 4.4. Parabolická regrese y = 0,0227x2 - 2,8479x + 127,71 R2 = 0,939 • Náklady Polynomický (Náklady) 80 100 Dosazením hodnot ze součtového řádku tabulky do těchto rovnic dostaneme: 806 = 1860 +9666,+5553462 41618 = 966Z?0 + 555346, + 337208462 2330182 = 5553460 +33720846, + 21366485862. Řešením této soustavy rovnic (např. Cramerovým pravidlem) získáme regresní koeficienty b0 = 127,71; bx = - 2,8479; b2 = 0,0227. Hledaná parabola má tvar Y = 127,71 - 2,8479x+0,0227x2 . b. Optimální velikost objednávky zjistíme jako minimum funkce Y = 127,71 - 2,8479x+0,0227x2 tak, že položíme její první derivaci rovnu nule, tj. Y'= - 2,8479 + 0,0454x = 0, tudíž x = 62,7. Optimální velikost dodávky je 62 nebo 63 kusů. Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte položku Typ trendu a rergrese: Polynomický (stupeň 2), Dále otevřete záložku Možnosti, kde zakřiknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace i?2 ). Potvrdíte OK. i Xi x? x? x? 1 28 62 784 21952 614656 1736 48608 2 32 59 1024 32768 1048576 1888 60416 3 35 58 1225 42875 1500625 2030 71050 4 40 53 1600 64000 2560000 2120 84800 5 42 50 1764 74088 3111696 2100 88200 6 45 46 2025 91125 4100625 2070 93150 7 49 44 2401 117649 5764801 2156 105644 8 51 42 2601 132651 6765201 2142 109242 9 53 40 2809 148877 7890481 2120 112360 -57- Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese 10 56 41 3136 175616 9834496 2296 128576 11 57 38 3249 185193 10556001 2166 123462 12 60 35 3600 216000 12960000 2100 126000 13 61 36 3721 226981 13845841 2196 133956 14 64 36 4096 262144 16777216 2304 147456 15 69 38 4761 328509 22667121 2622 180918 16 72 40 5184 373248 26873856 2880 207360 17 75 42 5625 421875 31640625 3150 236250 18 77 46 5929 456533 35153041 3542 272734 Součet 966 806 55534 3372084 213664858 41618 2330182 Obdržíte výsledek téměř takový, jaký je na následujícím obrázku. K původním bodům se zobrazí regresní parabola, dále rovnice regresní paraboly a hodnotu koeficientu determinace R . Výsledek je stejný, jako při ručním výpočtu, viz výše. Ř E Š E N Ý P Ř Í K L A D 4.3 V jisté firmě zkoumali, jak závisí vlastní náklady na jednotku produkce (F) na objemu produkce (X). Následující tabulka uvádí zjištěné údaje v různých obdobích. a. Najděte regresní hyperbolický model popisující danou závislost. b. Pomocí koeficientu determinace zhodnoťte přiléhavost regresní funkce k datům. Období 1 2 3 4 5 6 7 8 9 10 11 12 13 Objem produkce Náklady / jednotka 0,5 0,7 456 297 0,9 206 1,4 165 1,9 3,2 4,2 118 79 57 4,8 54 6,9 40 7,9 35 8,8 30 9,2 23 10,1 14 Řešení: a. Dosadíte potřebné údaje do normálních rovnic, které získáte z hyperbolické regresní funkce (3.5) tak, že k nalezení minima součtu čtverců odchylek: f 1 F(*0 A) = S y , - ( * 0 + * í - ) v •*/ J obdržíte následující normální rovnice: 2 > ; - =n -K+b iYj— JC• JC• JC• a obdržíme soustavu 2 rovnic o 2 neznámých 1574 = 13-b0 + br -7,13 1812,19 = b0 -1,13 + b, -8,33. Řešením této soustavy získáte odhady regresních parametrů: b0= 3,32; bx = 214,71. 214 71 Hledaná regresní hyperbola má tvar: Y = 3,32 + — . se anulují parciální derivace, tj. = 0 a = 0. Tím oba ob. -58- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT b. Nejdříve vypočítáte teoretické hodnoty Yt postupným dosazením hodnot x, do rovnice regresní hyperboly Yx = 3,32 + ?±S1± = 332 + = 432,74. Xj 0,5 Všechny hodnoty Y,jsou uvedeny v tabulce, viz níže. Dále vypočítáte součty ST, Sy 13 ST = £ (Yt - y)2 = (432,74 -121,08)2 + (310,05 -121,08)2 +... + (24,58 -121,08)2 = ; = i = 203722,02. 13 Sy = ^(y,. - y)2 = (456 -121,08)2 + (297 -121,08)2 +... + (14-121,08)2 = 2060,97 . i Xi 1/Xi llx] yt/xi Yi (Yi-y)2 ( y i - y ) 2 1 0,5 456 2,00 4,00 912,00 432,74 97131,96 112171,41 2 0,7 297 1,43 2,04 424,29 310,05 35709,66 30947,85 3 0,9 206 1,11 1,23 228,89 241,89 14595,06 7211,41 4 1,4 165 0,71 0,51 117,86 156,68 1267,36 1928,97 5 1,9 118 0,53 0,28 62,11 116,33 22,56 9,49 6 3,2 79 0,31 0,10 24,69 70,42 2566,44 1770,73 7 4,2 57 0,24 0,06 13,57 54,44 4440,89 4106,25 8 4,8 54 0,21 0,04 11,25 48,05 5333,38 4499,73 9 6,9 40 0,14 0,02 5,80 34,44 7506,49 6573,97 10 7,9 35 0,13 0,02 4,43 30,50 8204,74 7409,77 11 8,8 30 0,11 0,01 3,41 27,72 8716,09 8295,57 12 9,2 23 0,11 0,01 2,50 26,66 8915,14 9619,69 13 10,1 14 0,10 0,01 1,39 24,58 9312,25 11466,13 Součet 60,5 1574 7,13 8,33 1812,19 203722,02 206010,97 Průměr 4,65 121,08 0,55 0,64 139,40 Hodnoty jednotlivých sčítanců i součtů ST, Sy jsou uvedeny v tabulce. Koeficient determinace R2 vypočítáte podle vztahu (3.18). R 2 _ S T _ 203722,02 _ Q I ) I ) Sy 206011,97 Hodnota koeficientu determinace 0,99 je vysoká, což znamená, že daným regresním modelem s vysvětlující proměnnou „objem produkce" je vysvětleno 99% variability znaku Y. Pouze 1% chování proměnné Y je ovlivněno jinými faktory. -59- Regresní analýza - jednorozměrná: intervaly spolehlivosti, testy hypotéz, nelineární regrese Ř E Š E N Ý P Ř Í K L A D 4.4 Data v tabulce ukazují poptávku po určitém druhu zboží (v tis. ks) při různých cenách (v Kč). Popište závislost poptávky na ceně mocninnou regresní funkcí. Pozorování 1 2 3 4 5 6 Cena 8,5 40 92 180 200 250 Poptávka 200 140 80 45 42 18 Řešení: Úkolem je nalézt odhady parametrů fi\, fio regresní funkce Y = j30x^ . Použijete linearizující transformace, a to tak, že obě strany rovnice zlogaritmujete a použijete vhodnou substituci (viz odstavec 4.3), čímž získáte rovnici Y' = P'0+fiíx', kde Y' = InF, x = \wc,f3'{) =m A o ' A ' = A > c ° ž J e rovnice regresní přímky. Regresní koeficienty b'0,b[ určíme pomocí známých vztahů takto: ,, J č y - 7 - 7 17,49-4,39-4,18 -0,86 e>, = — — — = = = -0,6 x ' 2 - x ' 2 20,7-4,39-4,39 1,43 bó=J'- b(x' = 4,18 - (-0,6 • 4,39) = 6,8. i x y x' y' *y x'2 1 8,5 200 2,14 5,30 11,34 4,58 2 40 140 3,69 4,94 18,23 13,61 3 92 80 4,52 4,38 19,81 20,45 4 180 45 5,19 3,81 19,77 26,97 5 200 42 5,30 3,74 19,80 28,07 6 250 18 5,52 2,89 15,96 30,49 Průměr 4,39 4,18 17,49 20,70 Odhady bo, b\ původního modelu snadno vypočítáte zpětnou transformací b[ = bl,b0 =eb °. Proto bude bx = -0,6; b0 =897,85. Hledaná mocninná regresní funkce má tvar Y = 897,85 -x^6 . Nakonec provedeme výpočet pomocí Excelu s využitím funkce Přidat spojnici trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myši, zvolíte položku -60- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Typ trendu a rergrese: Mocninný, Dále otevřete záložku Možnosti, kde zakřiknete: Zobrazit rovnici regrese (rovnice regresní přímky) a současně zakliknete Zobrazit hodnotu spolehlivosti R (hodnotu koeficientu determinace i?2 ). Potvrdíte OK. Obdržíte výsledek, jaký je na následujícím obrázku. K původním bodům se zobrazí regresní mocninná funkce, dále její rovnice a hodnotu koeficientu determinace R . Výsledek je poněkud odlišný od výsledku, který jsme získali při ručním výpočtu, viz výše. Tato odlišnost je způsobena tím, že Excel počítá koeficienty přímo metodou nejmenších čtverců bez použití linearizace s logaritmickou transformací. Metoda použita Excelem je přesnější než metoda linearizace a proto bychom ji dali při aplikaci přednost. Metoda linearizace je zase výpočetně jednodušší, je ji možno provést ručně, v době počítačů však tato výhoda ztrácí na významu. 300 j 250 200 < 150 100 50 0 — 0 Obr. 4.5. Mocninná regrese ŘEŠENÝ PŘÍKLAD 4.5 Tabulka uvádí stáří pletacích strojů (X) v letech a náklady na jejich údržbu (ľ) v tis. Kč. Popište závislost Y na X exponenciální regresní funkcí. Měření 1 2 3 4 5 6 7 8 9 10 11 12 Stáří 14 0,8 3 7,5 8,4 14,8 4,5 15,6 17,3 11,5 13,2 1,5 Náklady 47,5 8 10 17 22 76,4 12,5 76 94,5 25 30,6 12 Řešení: Úkolem je nalézt odhady regresních parametrů exponenciální regresní funkce y = M • Pomocí logaritmické transformace převedeme tuto funkci na funkci lineární: lny = ln/?o + xlnfii. Použitím substituce y'= lnY,x' = x, fi'0 =ln/30, f}[ = ln / i . Mocninná regrese y = ioo5,a 2, přitom k je celé číslo. Vysvětlující statistické znaky (proměnné) označíme X\, XI,...,XK, /-tému pozorování (/-té realizaci) hodnot vysvětlujících znaků xn ,xi2,...,xik odpovídá hodnota vysvětlovaného znaku yř . Vícenásobný lineární regresní model je zobecněním jednoduchého lineárního regresního modelu (4.9) a má následující tvar: y,= Po+ Plx n+ P2 x i2 + - + Pkx ik +£,, 1 = 1,2,...,/!. (5.1) Jak jste viděli v předchozí kapitole při aplikaci metody linearizace, bylo pro použití metody nejmenších čtverců podstatné, že regresní funkce byla lineární v parametrech f}., nikoliv v proměnné x. Tohoto důležitého faktu využijeme nyní a formulujeme poněkud obecnější model, než (5.1), totiž vícenásobný regresní model lineární v parametrech. Ten vypadá takto yi = Po + Pih (*n.x n > • ••.x ik) + Pih (xn,xi2,..., xik)+.. .+pk fk (xn ,xi2,..., xik ) + et, i = 1,2,.. .,n. (5.2) kde fj(x1,x2,...,xk), j = 1,2,...,k, jsou funkce proměnných x1,x2,...,xk, nezávislé na parametrech /3r -65- Regresní analýza - vícerozměrná 5.2 METODA NEJMENŠÍCH ČTVERCŮ Odhady regresních koeficientů bQ,bx,...,bk lze stanovit metodou nejmenších čtverců, která spočívá v minimalizaci součtu kvadrátů (tj. druhých mocnin) odchylek skutečných hodnot dat y, od teoretických hodnot Yi = b0 + blfl(xil,xi2,...,xik) + ... + bkfk(xil,xi2,...,xik). Podobně, jako u jednoduchého modelu, vypočteme odhady ze soustavy normálních rovnic: ^ - 0 , ^ = 0,... ds dbn db db„ (5.3) y 0 w w k V (5.3) se jedná o parciální derivace funkce SR podle proměnných b[. Označení F ÍJ = fi(xjl,xj2,...,xjk),i= l,2,...,k, j= 1,2,...,«, (5.4) umožní využít maticovou symboliku. Soustavu rovnic (5.2) lze maticově zapsat takto: y = Fp +£ , kde matice: 1 F„ 1 K. (5.5) ki kn se nazýva matice regresoru, P = Dále £ = >2 J n . Ä A . je vektor pozorování vysvětlované proměnné Y, resp. b = , je vektor regresních koeficientů, resp. vektor jejich odhadů. , je vektor náhodných složek. Při výpočtu vektoru odhadů b regresních koeficientů metodou nejmenších čtverců obdržíte soustavu normálních lineárních rovnic, které lze maticově vyjádřit. Pozor, používáte přitom pravidla pro sečítání a násobení matic - pravidlo „řádek krát sloupec". Toho lze dosáhnout tak, že regresní rovnici y = F.b , vynásobíte zleva transponovanou maticí FT , takže obdržíte (5.6)FT y = FT F.b , a za předpokladu, že matice FT F je regulární, a tedy existuje k ní matice inverzní (FT F)"1 , lze nalézt řešení soustavy, tj. vektor odhadů regresních koeficientů modelu (5.5), a to po vynásobení (5.6) zleva maticí (FT F)"1 , ve tvaru: b = ( F ^ y V y . (5.7) -66- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Ve speciálním případě jednoduché lineární regrese je k = 1, pak matice regresorů a další prvky z (5.6) mají tvar: 1 x 1 x, 1 x. FT F = 2>< X * Z - ,FT y = Z * ^ a soustava normálních rovnic (5.6) je následující: Z?<- 2 > ŕ T*? A] (5.8) což je tvar ekvivalentní rovnicím (3.12), (3.13). 5.3 NÁHODNÝ VEKTOR A JEHO CHARAKTERISTIKY Nyní ještě rozšíříme pojmy střední hodnoty a rozptylu používané doposud pro náhodnou veličinu (skalár), a to pro náhodný vektor: X X, (5.9) kde složky X,- jsou náhodné veličiny. Střední hodnota E(X) vektorové náhodné veličiny X je vektor středních hodnot jednotlivých složek, tj.: ~E{XX) E(X). E(X2) (5.10) E ( X n ) _ Rozptyl (variance) Var(X) vektorové náhodné veličiny X je matice: Var(X) = E((X- E(X))l (X - E(X))), (5.11) kde čárkou ' označujeme transponovanou matici (vektor). Jistě jste si všimli, že rozptyl náhodného vektoru (5.11) je čtvercová matice typu (nxn). 5.4 KLASICKÝ LINEÁRNÍ MODEL O klasickém (vícerozměrném) lineárním regresním modelu hovoříme tehdy, když matice regresorů má nejjednodušší tvar, tj. když je matice tvořena danými hodnotami pozorování vysvětlujících proměnných: Fij=xij,i= \,2,...,k, j= 1,2,...,n. (5.12) -67- Regresní analýza - vícerozměrná V tom případě má matice regresorů tvar: 1 Xj 1 x, 1 Xin (5.13) U klasického lineárního modelu požadujeme splnění podmínek 1. až 3. z minulé kapitoly, přitom u těchto podmínek nebylo důležité, zda jde o jednoduchý nebo vícerozměrný regresní model: 1. Hodnoty vysvětlujících proměnných X\, X2,...,Xk, tvořící matici regresorů F podle (5.13) se volí předem, nejsou to tedy náhodné veličiny. 2. Reziduum e v modelu (3.5) má normální rozdělení pravděpodobnosti s nulovou střední hodnotou a (neznámým) rozptylem o2 , tj.: E(e) = 0, (5.14) Var(e) = o2 l, (5.15) kde symbol I označuje jednotkovou matici. Vztah (5.15) zahrnuje zároveň podmínku 3. z klasického lineárního modelu, viz kapitola 3.5, neboť na diagonále matice Var(e) jsou rozptyly o2 jednotlivých složek náhodného vektoru e a mimo diagonálu vystupují nulové kovariance těchto složek. V tom případě hovoříme o homoskedasticitě. V opačném případě hovoříme o přítomnosti heteroskedasticity. 3. Vysvětlující proměnné X\, X2,...,Xk, nejsou kolineární, tj. sloupcové vektory matice regresorů (5.13) jsou nekorelované. V opačném případě hovoříme o přítomnosti multikolinearity. 5.5 MÍRY VARIABILITY A KOEFICIENT DETERMINACE Podobně jako u jednoduché regrese, zajímáme se nyní o celkovou variabilitu vysvětlované proměnné, kterou charakterizuje celkový součet čtverců: S y ^ b t - y ) 2 . (5-16) 1=1 Část celkové variability vysvětlenou regresním modelem charakterizuje teoretický součet čtverců: ST=fi{Yi-ý)2 , (5.17) i=i kde Yi=b0+b1f1(xn,xi2,...,xik) + ... + bkfk(xn,xi2,...,xik), bt jsou odhady regresních parametrů získané MNC. Nevysvětlenou část celkové variability představuje reziduálni součet čtverců: SR=Z(yi-Yif, (5.18) i=i kde ei = yi - Yi je reziduum, tj. odhad náhodné složky £5. -68- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Mezi jednotlivými součty čtverců platí základní vztah: SY = ST + SR. ' (5.19) Obdobně, jako v případě jednoduché regrese, zavedeme analogický pojem, charakterizující přiléhavost dat k regresnímu modelu, koeficient determinace, který definujeme vztahem: fl2=^ = l _ ^ i L . (5.20) S y S y Koeficient determinace nabývá hodnoty z intervalu [0,1] a určuje tu část celkové variability pozorovaných hodnot y„ kterou lze vysvětlit daným regresním modelem. Jinak řečeno, po vynásobení koeficientu determinace stem obdržíme, kolik procent celkové variability je vysvětlitelných regresním modelem. Nevychýlený odhad koeficientu determinace R2 adj, který nazýváme korigovaný (upravený) koeficient determinace, definujeme takto: * Í = l - ( l - * 2 ) — , (5.21) n-p kdep = k+l označuje počet parametrů v regresním modelu (5.2). 5.6 INTERVALY SPOLEHLIVOSTI A TESTY HYPOTÉZ Tento odstavec je přirozeným rozšířením kapitoly 4 pro jednoduchý klasický lineární model, tj. model (3.9) se dvěma parametry /?(,,/?,. Nyní máme analogický model, avšak s k+l parametry j30,/31,...,/3k. Jsou-li splněny předpoklady klasického lineárního modelu (5.5), tj. modelu: yt = Po+PiXn+P2xi2+... +fikxik +£,, i=\,2,...,n, (5.22) potom pro rozdělení odhadů regresních koeficientů b0,b1,...,bk, jakožto náhodných veličin, platí toto: Regresní koeficient bj má normální rozdělení pravděpodobnosti se střední hodnotou jBj a rozptylem o2 hjj , kde j = 0,l,...,fc, čísla hjj jsou diagonálními prvky matice: H = (FT F)"1 , " (5.23) kde matice F je definována vztahem (5.13). V klasickém lineárním modelu předpokládáme, že reziduálni složky mají konstantní rozptyl o2 , jeho hodnotu však zpravidla neznáme. Neznámý rozptyl o2 můžeme nahradit jeho bodovým odhadem: 4 = — , (5-24) n — p který nazýváme v souladu s (5.22) reziduálni rozptyl. V reziduálním rozptylu vystupuje v čitateli reziduálni součet čtverců (5.18) dělený číslem n - p, což je počet stupňů volnosti, tj. rozsah dat n mínus počet regresních koeficientů v modelu: p = k + 1. Odmocninu reziduálního rozptylu SR nazýváme směrodatná chyba. Oboustranný interval spolehlivosti pro regresní koeficient bj, při zadaném koeficientu spolehlivosti (1 - a), je následující interval: [bj - tucňin-p)]^- , bj + h-an{n-p) J^5L ], j = 0,1,...,*. (5.25) -69- Regresní analýza - vícerozměrná Zde t\-an(n - p) je příslušný kvantil Studentova r-rozdělení, hjj diagonální prvky matice (5.23). Interval (4.23) je speciálním případem intervalu (5.25) v případě k=l. Bodový odhad regresních koeficientů bj, vypočtený metodou nejmenších čtverců, doplňuje interval spolehlivosti (5.25), který informuje, v jakém rozmezí se regresní koeficient může pohybovat v rámci zadané spolehlivosti v případě jiného náhodného výběru dat (ze stejného základního souboru). Odhadnutý lineární regresní model (3.9), který má tvar: y = bQ+blxl+b2x2+... + bkxk+e, (5.26) kde e je reziduum, tj. odhad náhodné složky e, resp. regresní funkce: Y = b0 +blxl +b2x2 +... + bkxk, (5.27) má praktický význam zejména při odhadu chování modelu pro nezávisle proměnné nevyskytující se v datech, např. hodnoty xoi, XQ2 xot. Model (5.26), resp. regresní funkce (5.27), pak slouží k predikci hodnoty závisle proměnné. Bodový odhad předpovědi získáme dosazením xo = (xoi, XQ2 xot Y do (5.27): Y0=b0+b1x01+b2xO2+... + bkx0k. (5.28) Informaci o tom, v jakém rozmezí se predikovaná hodnota vysvětlované proměnné může pohybovat, poskytuje oboustranný interval spolehlivosti: [Yo-ti.ď2(n-p)sR^l + xT QHxQ , Y0 + h-odn-p) sR^l + xT QHxQ ], (5.29) kde H = (FT F)_ 1 a matice F je definována vztahem (5.13). Ostatní symboly v (5.29) mají stejný význam, jako v intervalu spolehlivosti (5.25). 5.7 INDIVIDUÁLNÍ T-TESTY O HODNOTÁCH REGRESNÍCH KOEFICIENTŮ Tento odstavec je rozšířením kapitoly 4.2 pro vícerozměrný lineární regresní model. Zjistíme-li metodou nejmenších čtverců, že regresní koeficientyfyjsou nějaká nenulová čísla, musíme mít stále na paměti, že se jedná o realizace náhodných veličin, a tudíž má smysl testovat, zda naše původní parametry fij nemohou být přesto nulové. Za předpokladů klasického lineárního modelu je možno pro j = 0,1,...,k testovat nulovou hypotézu: H 0 : fi = 0, (5.30) proti oboustranné alternativní hypotéze: H i : $ * 0 . (5.31) Při tomto testu použijeme testové kritérium: (5.32) které má při platnosti Ho ř-rozdělení s n - p stupni volnosti, SR je reziduálni součet čtverců, hjj jsou diagonální prvky matice H z (5.23), přičemž j = 0,1,...,Ä; p = k + 1. Na hladině významnosti a je kritický obor vymezen nerovností: H> h-aiiin-p), kde tx_al2(n- p) je příslušný kvantil Studentova ř-rozdělení, viz funkci v Excelu TINV, Nemůžeme-li např. na dané hladině významnosti a zamítnout nulovou hypotézu Ho: fij = 0, pak to znamená, že y nezávisí na x,-, jinak řečeno, pro libovolnou hodnotu vysvětlující proměnné Xj nabývá vysvětlovaná proměnná y stále stejné hodnoty. - 70- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 5.8 F-TEST HYPOTÉZY O HODNOTÁCH REGRESNÍCH KOEFICIENTŮ V minulém odstavci jste individuálními Městy zjišťovali vliv jednotlivých vysvětlujících proměnných na vysvětlovanou proměnnou. V tomto odstavci se budeme zabývat testem, který najednou odhalí, zda vůbec existuje nějaká vysvětlující proměnná, která má na vysvětlovanou proměnnou nějaký vliv. Testuje se nulová hypotéza: Ho: A = Ä = - = Ä = 0 , (5-33) proti alternativní hypotéze, že pro alespoň jeden regresní koeficient platí fij^OTestové kritérium: SY (5.34) n-p má Fisherovo rozdělení F s (p - l) a (n - p) stupni volnosti. Na hladině významnosti a je kritický obor vymezen nerovností: T>Fl_a(p-l,n-p), (5.35) kde Fx_a(p - \,n - p) je příslušný kvantil rozdělení. Pokud hodnota testového kritéria padne do kritického oboru, tedy pokud platí (5.35), potom H 0 zamítáme, což znamená, že některá z vysvětlujících proměnných má statisticky významný efekt na vysvětlovanou proměnnou y. Pokud však nulovou hypotézu nelze na dané hladině významnosti zamítnout, pak vysvětlující proměnné x, nemají statisticky významný efekt na y. ŘEŠENÝ PŘÍKLAD 5.1 Při zjišťování vlivů na pracovní neschopnost zaměstnanců 10 podniků byly získány následující údaje: Průměrný věk (roky) Podíl žen v počtu pracovníků (%) Pracovní neschopnost (%) 37 55 4,4 33 32 0,7 46 59 7,6 34 36 1,8 25 18 0,1 32 47 3,4 38 22 1,6 40 36 3,5 32 29 3,3 41 38 4,7 a. Odhadněte parametry lineární regresní funkce popisující závislost pracovní neschopnosti na průměrném věku zaměstnanců a na podílu žen mezi zaměstnanci. b. Pomocí koeficientu determinace charakterizujte přiléhavost daného regresního modelu k datům. c. Jak se změní pracovní neschopnost zaměstnanců, zvýší-li se jejich průměrný věk o 2 roky při stejném podílu žen? d. Určete 95% intervaly spolehlivosti pro regresní koeficienty bo, b\, bi. Na hladině významnosti a= 0,01 testujte hypotézu fi^= fa = 0. - 71 - Regresní analýza - vícerozměrná Řešení: a. Naším úkolem je nalézt regresní koeficienty bo, b\, b2 regresní funkce Y=b0 + biXi + b2X2, kde X\ je průměrný věk zaměstnanců, X2 je podíl žen v počtu zaměstnanců. Regresní koeficienty bo, b\, b2 vypočítáme pomocí metody nejmenších čtverců. Využijeme přitom nejprve maticové symboliky, kterou jsme použili v textu. "1 37 55" "4,4" 1 33 32 07 1 46 59 7,6 1 34 36 1,8 1 25 18 0,1 y = 0,1 1 32 47 3,4 1 38 22 1,6 1 40 36 3,5 1 32 29 3,3 1 41 38 _ 4 > 7 _ b = Vektor b vypočítáme pomocí vztahu (5.7). Matice FT F a FT y mají obecně tvar: n Z x i i Z*2/ " Z*" FT F = Z 4 Z X l í ' X 2 ; Z x i ^ í Z X l'X 2i Z 4 j Hodnoty potřebné k výpočtu těchto matic jsou uvedeny v následující tabulce: Pozorování X2 Y * l X1X2 XIY X2Y 1 37 55 4,4 1369 3025 2035 162,8 242,0 2 33 32 0,7 1089 1024 1056 23,1 22,4 3 46 59 7,6 2116 3481 2714 349,6 448,4 4 34 36 1,8 1156 1296 1224 61,2 64,8 5 25 18 0,1 625 324 450 2,5 1,8 6 32 47 3,4 1024 2209 1504 108,8 159,8 7 38 22 1,6 1444 484 836 60,8 35,2 8 40 36 3,5 1600 1296 1440 140,0 126,0 9 32 29 3,3 1024 841 928 105,6 95,7 10 41 38 4,7 1681 1444 1558 192,7 178,6 Ľ 358 372 31,1 13128 15424 13745 1207,1 1374,7 -72- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Potom "10 358 372 " " 31,1 " FT F = 358 13128 13745 FT y = 1207,1 372 13745 15424 1374,7 K matici F F musíme vypočítat matici inverzní: " 4,355 -0,131 -0,012" (FT F)_ 1 = -0,131 0,005 -0,001 -0,012 -0,001 0,001 Vektor b je výsledkem součinu matic (FT F )_ 1 a FT y: (FT F )"1 FT y = -6,59 0,18 0,09 Hledaná regresní funkce má tvar: Y = -6,59 + 0,18xi + 0,09^2. b. K tomu, abychom vypočítali determinační koeficient, musíme znát hodnotu teoretického součtu čtverců SY a celkového součtu čtverců SY. Tyto součty vypočítáme podle vztahů (5.17), (5.16). Pro výpočet teoretického součtu musíme pro každé xu, x2i, i = 1,..., 10, znát teoretickou hodnotu Yt, i= 1,...,10, např. Y\ vypočítáme takto: Yi = -6,59 + 0,18xii + 0,09x22 = -6,59 + 0,18-37 + 0,09-55 = 5,02 X2 y Y (y-y)2 (Y-y)2 1 37 55 4,4 5,02 1,664 3,648 2 33 32 0,7 2,23 5,808 0,774 3 46 59 7,6 7,00 20,160 15,132 4 34 36 1,8 2,77 1,716 0,116 5 25 18 0,1 -0,47 9,060 12,816 6 32 47 3,4 3,40 0,084 0,084 7 38 22 1,6 2,23 2,280 0,774 8 40 36 3,5 3,85 0,152 0,548 9 32 29 3,3 1,78 0,036 1,769 10 41 38 4,7 4,21 2,528 1,210 Součet 358 372 31,1 32,02 43,489 36,872 Tato hodnota udává, jaká by měla být teoreticky pracovní neschopnost při průměrném věku zaměstnanců téměř 37 let a podílu žen v počtu pracovníků 55%. Protože však jde o stochastickou závislost, liší se tato hodnota od skutečně zjištěné hodnoty y = 4,4. Všechny teoretické hodnoty Yt jsou uvedeny v následující tabulce. Jednotliví sčítanci i hodnoty součtů SY a STjsou rovněž uvedeni v tabulce. - 73- Regresní analýza - vícerozměrná Koeficient determinace vypočítáme dosazením do vztahu (3.20): Tato hodnota znamená, že pomocí regresní funkce Y = -6,59 + 0,18x1 + 0,09x2 je vysvětleno 84,8% celkové variability proměnné Y. c. Velikost změny znaku Y je při změně znaku X\ o jednotku rovna b\. Má-li se tedy zvýšit průměrný věk o 2 roky při nezměněné zaměstnanosti žen X2, zvýší se pracovní neschopnost o 2bi, tj. o 0,36%. d. Obecný tvar těchto intervalů je následující (viz (3.25)): kde SR je reziduálni součet čtverců, h-ďi(n - p) je kvantil ř-rozdělení o n-p stupních volnosti, p je počet parametrů regresní funkce, ha prvek matice H = (F'F)"1 . Hodnotu SR vypočítáme ze vztahu: SR = SY - ST = 43,49 - 36,87 = 6,62. V tabulce t-rozdělení nalezneme (l-a/2) = 97,5% kvantil t-rozdělení o n-p = 10-3 = 7 stupních volnosti: Dosazením výše vypočítaných hodnot do vztahu pro interval spolehlivosti určíme jeho pravou a levou krajní hodnotu L a P: Pro bo, tj. i = 0: 95% interval spolehlivosti pro regresní koeficient bo je [1,79;11,39]. Pro b\, tj. i = 1: ř 0 , 9 7 5 ( 7 ) = 2 >3 65, ^oo = 4,355; hn = 0,0051; h22 = 0,001, H={%}, y = 0,1,2. Pak 95% interval spolehlivosti pro regresní koeficient bi je [0,016; 0,344]. Pro b2 , tj. i = 2: Potom 95% interval spolehlivosti pro regresní koeficient b2 je [0,017; 0,163]. - 74- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT e. Pro ověření hypotézy použijeme F-test. Budeme testovat nulovou hypotézu: H0 :/3i-=# = 0 proti alternativní hypotéze Hi: alespoň jedno /?, je různé od nuly. K ověření nulové hypotézy použijeme testové kritérium (3.34): S T 36,87 Z7 P~l 2 SR 6,62 19,49. n — p 7 V tabulce F-rozdělení najdeme (l-a)% kvantil F-rozdělení o p - l a n-p stupních volnosti: Fi_ o,oi(2,7) = 9,55. Protože je 19,49 > 9,55, zamítáme nulovou hypotézu ve prospěch alternativní hypotézy, což znamená, že regresní parametry jsou vesměs nenulové, a tudíž existuje statisticky významná závislost Y na X\ a nebo X2. Řešení v Excelu. Regresní statistika Násobné R 0,912 Hodnota spolehlivosti R 0,831 (koeficient determinace) Nastavená hodnota spolehlivosti R 0,783 Chyba stř. hodnoty 1,024 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 2 36,155 18,078 17,255 0,002 Rezidua 1 7,334 1,048 Celkem 9 43,489 e) Protože hodnota Významnost F je menší než hladina významnosti 0,01; nulovou hypotézu zamítáme, tzn. že regresní parametry jsou vesměs nenulové. Chyba stř. Hodnota Dolní Horní Koeficienty hodnoty tStat P 95% 95% Hranice -6,595 2,136 -3,087 0,018 -11,645 -1,544 průměrný věk XI 0,178 0,073 2,441 0,045 0,006 0,351 podíl žen (%) X2 0,089 0,032 2,758 0,028 0,013 0,166 - 75- Regresní analýza - vícerozměrná Ř E Š E N Ý PŘÍKLAD 5 . 2 Následující tabulka obsahuje údaje o tržbách, velikosti výdajů na reklamu a o počtu obchodních zástupců pro 11 firem zabývajících se nákupem a prodejem: Reklamní výdaje Obchodní zástupci Objem prodeje (mil. Kč) (tis. Kč) 180 35 260 230 38 310 260 33 280 240 40 300 280 38 340 300 32 380 340 42 410 320 49 440 360 53 400 380 55 430 260 33 310 a. Popište závislost objemu produkce na reklamních výdajích a na počtu obchodních zástupců dvourozměrný lineárním regresním modelem. b. F-testem posuďte významnost tohoto regresního modelu. Uvažujte hladinu významnosti or=0,01. c. Na hladině významnosti a = 0,01 testujte individuální významnost regresního parametru Píd. Jaký objem produkce lze očekávat, vydá-li firma na reklamu 450 tis. Kč a současně bude mít 50 obchodních zástupců? Určete bodový odhad objemu produkce. Řešení: Řešení v Excelu. Regresní statistika Násobné R ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ 0,916 Hodnota spolehlivosti R 0,839 koeficient determinace Nastavená hodnota spolehlivosti R 0,799 Chyba stř. hodnoty 28,434 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Regrese 2 33822,799 16911,399 20,917 0,001 Rezidua 8 6468,110 808,514 Celkem 10 40290,909 - 76- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT b) Hodnota Významnost F je menší než 0,01; model je zvolen správně, zamítáme nulovou hypotézu o nulovosti obou koeficientů Chyba stř. Koeficienty hodnoty tStat Hodnota P Hranice 63,830 47,652 1,340 0,217 reklamní výdaje (tis.Kč) 0,849 0,224 3,789 0,005 obchodní zástupci 1,076 1,656 0,650 0,534 a) y = 63,83+0,85.xl+l,08.x2 c) Koeficient M = 0,849 je statisticky významný na hladině významnosti 0,01; protože Hodnota P je mešní než 0,01. d) 500,33 mil.Kč 5.9 SAMOSTATNÉ ÚKOLY 5.1 Firma sledovala, jak jsou její tržby ovlivněny výdaji na reklamu v různých sdělovacích prostředcích. Výsledky průzkumu jsou uvedeny v následující tabulce. Rádio, TV (tis. Kč) Noviny, časopisy (tis. Kč) Tržby (tis. Kč) 0 16 254 22 29 765 28 30 864 33 35 1001 39 27 911 41 36 1121 49 0 856 55 12 932 60 23 1152 63 34 1403 68 54 1702 a. Určete jednoduchý lineární regresní model popisující závislost obratu na velikosti prostředků vydaných na reklamu v novinách a časopisech. b. Určete dvourozměrný lineární regresní model popisující závislost obratu na velikosti prostředků vydaných na reklamu v novinách a časopisech a na velikosti prostředků vydaných na reklamu v rozhlase a v televizi. c. Pomocí F-testu rozhodněte, je-li vhodné k popisu závislosti používat zvolený vícenásobný lineární model. Uvažujte hladinu významnosti a= 0,05. d. Přispělo významně zavedení další vysvětlující proměnné k zlepšení výstižnosti modelu? - 7 7 - Regresní analýza - vícerozměrná e. Jaký obrat je možné očekávat, vydá-li se na reklamu v tisku 32 tis. Kč a na reklamu v rozhlase a televizi 47 tis. Kč? Proveďte bodový odhad. 5.2 Mezinárodní organizace WHO zjistila údaje o dětské úmrtnosti (v promile) - DÚ, gramotnosti žen (v procentech) - GZ a HDP na hlavu (v dolarech) - HDP u 64 rozvojových zemí: DU GZ HDP DU GZ HDP 128 37 1870 142 50 8640 204 22 130 104 62 350 202 16 310 287 31 230 197 65 570 41 66 1620 96 76 2050 312 11 190 209 26 200 77 88 2090 170 45 670 142 22 900 240 29 300 262 22 230 241 11 120 215 12 140 55 55 290 246 9 330 75 87 1180 191 31 1010 129 55 900 182 19 300 24 93 1730 37 88 1730 165 31 1150 103 35 780 94 77 1160 67 85 1300 96 80 1270 143 78 930 148 30 580 83 85 690 98 69 660 223 33 200 161 43 420 240 19 450 118 47 1080 312 21 280 269 17 290 12 79 4430 189 35 270 52 83 270 126 58 560 79 43 1340 12 81 4240 61 88 670 167 29 240 168 28 410 135 65 430 28 95 4370 107 87 3020 121 41 1310 72 63 1420 115 62 1470 128 49 420 186 45 300 27 63 19830 47 85 3630 152 84 420 178 45 220 224 23 530 142 67 560 a. Určete lineární regresní model popisující závislost dětské úmrtnosti na gramotnosti žen a HDP v rozvojových zemích. b. Pomocí F-testu rozhodněte, je-li vhodné k popisu závislosti používat zvolený vícenásobný lineární model. Uvažujte hladinu významnosti a= 0,05. c. Jsou regresní koeficienty modelu statisticky významné? Stanovte jejich intervaly spolehlivosti pro hladinu významnosti a = 0,10. d. Pomocí koeficientu determinace určete přiléhavost dat k modelu. Jak se změní dětská úmrtnost při zvýšení HDP o 1000 USD při stejném stupni negramotnosti žen? Naopak: jak se změní dětská úmrtnost při zvýšení gramotnosti žen o 1 procento při stejné úrovni HDP? - 78- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 5.10 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 5.1 a) jednoduchý lineární regresní model Regresní statistika Násobné R 0,658 Hodnota spolehlivosti R 0,433 Nastavená hodnota spolehlivosti R 0,370 Chyba stř. hodnoty 292,354 Pozorování 11 ANOVA Rozdíl SS MS F Významnost F Regrese 1 587103,478 587103,478 6,869 0,028 Rezidua 9 769235,250 85470,583 Celkem 10 1356338,727 Koeficienty Chyba stř. hodnoty tStat Hodnota P Hranice 538,482 195,714 2,751 0,022 Noviny,časopisy (tis.Kč) 17,019 6,494 2,621 0,028 Y = 539,5 + 17,2.x b) dvourozměrný lineární regresní model Regresní statistika Násobné R 0,992 Hodnota spolehlivosti R 0,985 Nastavená hodnota spolehlivosti R 0,981 Chyba stř. hodnoty 50,634 Pozorování 11 - 7 9 - Regresní analýza - vícerozměrná ANOVA Rozdíl SS MS F Významnost F Regrese 2 1335828,082 667914,041 260,514 0,000 Rezidua 8 20510,645 2563,831 Celkem 10 1356338,727 Koeficienty Chyba stř. hodnoty tStat Hodnota P Hranice 87,214 42,969 2,030 0,077 Rádio,TV (tis.Kč) 13,905 0,814 17,089 0,000 Noviny,časopisy (tis.Kč) 12,275 1,158 10,596 0,000 F = 87,21+13,9.jcl + 12,27.x2 c) Ano, hodnota Významnost F je menší než 0,05; proto vícenásobný lineární model je vhodný. d) Ano, koeficient determinace se z hodnoty 0,43 zvýšil na hodnotu 0,98. e) 1 133,15 tis.Kč = 1 133 150 Kč 5.2 a) Regresní statistika Násobné R 0,841 Hodnota spolehlivosti R 0,708 Nastavená hodnota spolehlivosti R 0,698 Chyba stř. hodnoty 41,748 Pozorování 64 ANOVA Rozdíl SS MS F Významnost F Regrese 2 257362,373 128681,187 73,833 0,000 Rezidua 61 106315,627 1742,879 Celkem 63 363678,000 Chyba stř. Hodnota Dolní Horní Koeficienty hodnoty tStat P 90,0% 90,0% Hranice 263,642 11,593 22,741 0,000 244,278 283,005 GŽ -2,232 0,210 -10,629 0,000 -2,582 -1,881 HDP -0,006 0,002 -2,819 0,006 -0,009 -0,002 Y = 263,64- 2,23jel - 0,006.x2 - 80 - Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT b) Ano, hodnota Významnost F je menší než 0,05; proto vícenásobný lineární model je vhodný. c) Oba regresní koeficienty jsou statisticky významné, protože Hodnota P je menší než 0,1. Intervaly spolehlivosti: bí € (- 2,5; -1,8); bl € (- 0,009; - 0,002) d) Koeficient determinace je roven 0,71; tzn., že 71% celkové variability je vysvětleno modelem. e) Při zvýšení HDP o 1000 USD při stejném stupni negramotnosti žen klesne dětská úmrtnost o 5,6 promile. Při zvýšení gramotnosti žen o 1% při stejné úrovni HDP klesne dětská úmrtnost o 0,22 promile. -81 - Regresní analýza - vícerozměrná: multikolinearita, heteroskedasticita, autokorelace 6 REGRESNÍ ANALÝZA - VÍCEROZMĚRNÁ: MULTIKOLINEARITA, HETEROSKEDASTICITA, AUTOKORELACE RYCHLÝ NAHLED KAPITOLY V této kapitole se naučíte identifikovat, analyzovat a odstraňovat problémy, které způsobuje nesplnění hlavních předpokladů klasického vícerozměrného lineárního regresního modelu formulované v kapitole 5.4: multikolinearita, heteroskedasticita a autokorelace. Multikolinearitou tedy rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu. Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita. Jde o vlastnost (5.15), která spočívá v tom, že rozptyl poruchy et v populačním lineárním regresním modelu je konstantní. Autokorelace je korelace mezi pozorováními uspořádanými v čase (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). Říkáme, že v regresním modelu není přítomná autokorelace, jestliže náhodné veličiny jsou vzájemně nekorelované. 6.1 CO JE MULTIKOLINEARITA? Multikolinearitou tedy rozumíme vzájemnou statistickou závislost, tj. korelaci, mezi vysvětlujícími proměnnými ve vícenásobném lineárním regresním modelu: y = fi0 + fi1x1+fi2x2+...+fikxk+e. (6.1) Informaci o této vzájemné závislosti poskytuje matice výběrových korelačních koeficientů: R 1 1 'kl '2k 1 (6.2) Zřejmě je matice (6.2) symetrická, tj. ri} - r}i pro všechna i,j. Pokud jsou všechny dvojice vysvětlujících proměnných vzájemně nekorelované, potom platí, že rtj = rjt = 0, tj. R = I, čili R je jednotkovou maticí. Uvědomte si, že na diagonále matice R musejí být všechny prvky rovny 1, neboť korelace vektoru dat se sebou samým je vždy rovna 1! Jsou-li však alespoň některé nediagonální prvky matice R nenulové, hovoříme o multikolinearitě. Matice R pak není jednotkovou maticí a její determinant je menší než 1. Je-li multikolinearita vysoká, hovoříme o škodlivé multikolinearitě, pak se determinant matice R blíží k nule. V tom případě dává metoda nejmenších čtverců odhady regresních koeficientů s širokými intervaly spolehlivosti, takže výsledky jsou prakticky neupotřebitelné. Na to, kdy je multikolinearita „škodlivá", existují různé názory, opírající se víceméně o zkušenost. Někteří autoři považují za škodlivou multikolinearitu, když alespoň jeden nediagonální prvek matice R je větší než 0,8. -82- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Zjistí-li se škodlivá multikolinearita, je možno postupovat v zásadě dvojím způsobem. Buď vysvětlující proměnnou, která je zdrojem multikolinearity, vypustíme z modelu, nebo doplníme data, eventuálně získáme nový vzorek dat. Škodlivá multikolinearita je totiž často důsledkem „špatného" vzorku dat. Projevuje se obvykle vysokým koeficientem determinace (blízkým k 1) a zároveň jsou individuální koeficienty statisticky nevýznamné (t-test), model jako celek je naopak statisticky významný (F-test), viz kap. 5.7 a 5.8. Celou záležitost ilustrujeme na příkladu. Ř E Š E N Ý PŘÍKLAD 6.1 V následující tabulce jsou uvedeny měsíční výdaje, měsíční příjmy a majetek (v Kč) u 10 českých rodin. Proveďte regresní analýzu měsíčních výdajů rodin v závislosti na měsíčních příjmech a majetku. Vysvětlete dosažené výsledky pomocí jednorozměrné regrese. Y výdaje X1 prijmy X2 majetek 8400 9600 100000 7800 12000 120000 10800 14400 150000 11400 16800 170000 13200 19200 200000 13800 21600 225000 14400 24000 246000 16800 26400 264000 18600 28800 292000 18000 31200 322000 Řešení: Data z Ta. 6.1 uložíme v excelovské tabulce. Známým postupem v menu: Data -» Analýza dat... -» Regrese získáme po vyplnění příslušných políček tento výsledek: VÝSLEDEK Regresní statistika Násobné R 0,981 Hodnota spolehlivosti R 0,962 Nastavená hodnota spole 0,951 Chyba stř. hodnoty 832,660 Pozorování 10 ANOVA Rozdíl SS MS F ýznamnost F Regrese 2 1,23E+08 61581370 88,82062 1,06E-05 Rezidua 7 4853260 693322,9 Celkem 9 1,28E+08 Koeficientyba sď. hodí tstat Hodnota P Dolní 95% Horní 95% Hranice 2943,676 832,579 3,536 0,010 974,940 4912,413 X1 prijmy 0,569 0,847 0,672 0,523 -1,433 2,571 X2 majetek -0,006 0,083 -0,071 0,946 -0,203 0,191 -83- Regresní analýza - vícerozměrná: multikolinearita, heteroskedasticita, autokorelace V tomto výstupu se vyskytují zdánlivě paradoxní výsledky. Z Tabulky ANOVA vyplývá, že regresní model y = 2943,676 + 0,569;ti - 0,006x2 + £ je jako celek statisticky významný (F-test), zatímco individuální regresní koeficienty u proměnných „příjmy" resp. „majetek" jsou statisticky nevýznamné, neboť obě odpovídající p-hodnoty (signifikance) jsou větší než 0,05 (0,672 resp. 0,946). Koeficient determinace R2 = 0,962 je vysoký - blízký k 1, což svědčí o vysoké příléhavosti dat k modelu. Navíc je u regresního koeficientu u proměnné x2 záporné znaménko, což je evidentně v rozporu s intuicí, která říká: čím je větší majetek, tím je vyšší spotřeba rodiny. Tento zdánlivý rozpor je způsoben kolinearitou regresorů, o čemž svědčí jejich korelační matice R [1,000 0,999" ~ [o,999 1,000 J ' kterou lze snadno zjistit tak, že vypočítáte r12 = r21 =0,999012 pomocí excelovské funkce =CORREL(B4:B13;C4:C13), za předpokladu, že data pro x\ jsou uložena v oblasti B4:B13, data pro x2 jsou uložena v oblasti C4:C13. Vysvětlující proměnné x\ a x2 jsou kolineární, neboť koeficient korelace r12 = r21 = 0,999012 je blízký k 1. Vypustíme-li nyní jednu z vysvětlujících proměnných, např. x2 - majetek, a provedemeli (jednoduchou) regresi x\ na y, obdržíme s analogickým využitím Excelu tento výsledek: VÝSLEDEK Regresní statistika Násobné R 0,981 Hodnota spolehlivosti R 0,962 Nastavená hodnota spolí 0,957 Chyba stř. hodnoty 779,160 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 1.23E+08 1.23E+08 202,8679 5.75275E-07 Rezidua 8 4856727 607090,9 Celkem 9 1.28E+08 Koeficientyba stf. hodí fsfaf Hodnota P Dolní 95% Horní 95% Hranice 2934,545 769,658 3,813 0,005 1159,710 4709,381 X1 prijmy 0,509 0,036 14,243 0,000 0,427 0,592 Vidíte, že v novém regresním modelu je regresní koeficient statisticky významný, neboť odpovídající p-hodnota (signifikance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Podobně, vypustíme-li nyní vysvětlující proměnnou x\ - příjem, a provedeme-li (jednoduchou) regresi x2 na y, obdržíme s analogickým využitím Excelu výsledek z následujícího výstupu. Opět vidíte, že v novém regresním modelu je regresní koeficient statisticky významný, neboť odpovídající p-hodnota (signifikance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Navíc je znaménko u regresního koeficientu 0,050 kladné, což je v souhlasu s intuicí, že totiž velikost spotřeby je přímo úměrná velikosti majetku. Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT VÝSLEDEK Regresní statistika Násobné R 0,979614 Hodnota spolehlivosti R 0,959644 Nastavená hodnota spok 0,954599 Chyba stř. hodnoty 803,6024 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 1,23E+08 1.23E+08 190,2357 7,37266E-07 Rezidua 8 5166214 645776,8 Celkem 9 1,28E+08 Koeficientyba stř. hodí tstat Hodnota P Dolní 95% Horní 95% Hranice 2880,627 798,404 3,608 0,007 1039,503 4721,750 X2 majetek 0,050 0,004 13,793 0,000 0,042 0,058 6.2 CO JE HETEROSKEDASTICITA? Další důležitou vlastností klasického lineárního regresního modelu je homoskedasticita. Jde o vlastnost (5.15), která spočívá vtom, že rozptyl poruchy £ v populačním lineárním regresním modeluje konstantní, tj. v modelu yi = A + M i + p2x i2+ -+Pkx ik + f í ' i = (5.i) platí podmínka Var(&) = o2 1, (5.15) kde symbol I označuje jednotkovou matici. Podmínku (5.15) je možné ekvivalentně vyjádřit také takto E(el 2 )=o2 , i = 1,2,...,«, (6.3) kde E je známý operátor střední hodnoty. Pokud podmínka (5.15) není splněna, potom hovoříme o heteroskedasticitě. Příkladem heteroskedasticity v případě jednorozměrného lineárního regresního modeluje na Obr. 6.1. Je zřejmé, že rozptyl hodnoty y se zvětšuje s rostoucí hodnotou x. 30i Data a regresní pnrrka 30i 25 20 X15 10 • • • • • t~ — 25 20 X15 10 • • • 5 n 0 5 10 15 20 ř Obr. 6.2. Případ heteroskedasticity v regresním modelu -85- Regresní analýza - vícerozměrná: multikolinearita, heteroskedasticita, autokorelace Heteroskedasticita může být způsobena různými příčinami. Častou příčinou heteroskedasticity je fakt, že při postupném sběru dat se technika sběru postupně zlepšuje a chyba se proto zmenšuje. Naopak se chyba zvětšuje s přítomnosti odlehlých hodnot. Dalším zdrojem heteroskedasticity je nesprávná specifikace modelu, např. tím, že jsou opominuty důležité vysvětlující proměnné regresního modelu. Přítomnost heteroskedasticity v regresním modelu je silně nežádoucí, a to zejména z těchto důvodů: • Přítomnost heteroskedasticity způsobuje neplatnost odhadů rozptylů regresních koeficientů a tudíž také odhadů jejich intervalů spolehlivosti a testů hypotéz o jejich statistické významnosti atd., viz kap. 5.6. • Prognózy s využitím regresního modelu obsahujícího heteroskedasticitu jsou často nespolehlivé a dokonce nerealistické. 6.2.1 JAK ZJIŠŤOVAT HETEROSKEDASTICITU? Jak poznáme, že v regresním modelu, který jsme sestavili na základě nějakých dat, je přítomna heteroskedasticita? Podobně jako v případě multikolinearity neexistují přesná pravidla, jak detekovat přítomnost heteroskedasticitu, pouze pár heuristických zásad. Velmi často poznáme přítomnost heteroskedasticity z věcné povahy problému. Například je známo, že s rostoucím věkem zaměstnanců se zvětšuje rozptyl jejich platů. Ať je typ závislosti platu na věku lineární nebo ne, bude v modelu přítomna heteroskedasticita. Pokud však nemáme podobné předběžné empirické informace o povaze problému, předpokládáme, že heteroskedasticita není přítomna, že tudíž je rozptyl náhodné složky modelu konstantní. Takové tvrzení pak můžeme podrobit zkoumání např. grafické analýze nebo statistickému testu reziduí e,. S oběma postupy se zde seznámíte. Grafická analýza Zobrazíme si závislost kvadrátu reziduí e] na teoretické hodnotě Yt. Na Obr. 6.3 jsou zobrazeny 4 důležité případy tvaru, které mohou nastat, kde Y,=K +b Ji (*fl - x i2 ) + ••• + K f k (x ,a,xi2,.. 'x ik ) ' přitom fy jsou odhady regresních parametrů získané MNČ, e =y.-Y. i J i i je reziduum, tj. odhad náhodné složky £j. (6.4) (6.5) • • • / • a) b) Yi c) Yi Obr. 6.3. Závislost e, na Y, -86- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Na Obr. 6.3 a) hodnota ef v zásadě nezávisí na Yt, což naznačuje, že náhodná složka je konstatntní a tudíž heteroskedasticita není přítomna. Na druhou stranu Obr. 6.3 b) a c) hodnota ef v zřejmě závisí na Yt, což naznačuje přítomnost heteroskedasticity. Konkrétní tvar závislosti vám dobře potvrdí zobrazení bodového diagramu závislosti yt na vybrané datové hodnoty j-té vysvětlující proměnné xp. Testy heteroskedasticity Detekce heteroskedasticity s pomocí statistického testu hypotézy je obvykle založena na nulové hypotéze, že rozptyly náhodné složky ef jsou konstantní, přičemž se analyzují jejich odhady, tj. rezidua ef . V literatuře můžete nalézt podrobné testy heteroskedasticity s názvy jako Parkův test, Glejserův test, Goldfeld-Quandtův test aj., viz např. Gujarati (2003). Tyto statistické testy lze provádět pomocí specializovaných statistických programů, např. SPSS, v Excelu specializované funkce na tyto testy bohužel chybí. M y si zde proto ukážeme tzv. Bartletův test heteroskedasticity, který představuje zjednodušený Goldfeld-Quandtův test a lze k jeho provedení využít funkce Excelu. Bartletův test Test vychází z rozdělení dat podle velikosti (některé) vysvětlující proměnné - označíme ji X - do dvou částí: xt < x a xt > x, přitom jsou data uspořádána podle X, x. je medián z xt. • Testuje se hypotéza o rovnosti rozptylů reziduí v obou částech (v Excelu: Analýza dat, Dvouvýběrový F-test pro rozptyl,...) • Pokud se hypotéza o rovnosti rozptylu reziduí v obou částech zamítá, potom se hypotéza o konstantnosti rozptylu náhodné složky neboli hypotéza o přítomnosti heteroskedasticity, přijímá (a obráceně). Použití Bartletova testu si ukážeme na příkladu. Ještě předtím se budeme zabývat otázkou, jak odstranit zjištěnou heteraskedasticitu, tj. jak modifikovat původní model tak, aby heteraskedasticitu neobsahoval. 6.2.2 JAK ODSTRAŇOVAT HETEROSKEDASTICITU? Nejznámější metodou k odstranění heteroskedasticity je metoda vážených nejmenších čtverců MVNC. V M V N C předpokládáme určitý typ nekonstantního chování rozptylu náhodné složky. Předpoklad 1: Rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné x, tj. E(e2 ) = a2 xf ,i=\,2,...,n. (6.6) Transformovaný regresní model získáme tak, že regresní rovnici y, = fi0 + filx,+e„ i = 1,2,...,n, (6.7) vydělíme hodnotou x,, čímž obdržíme A = A +Ä +£L = fjo 1 +Ä + s., i = 1,2,...,n, (6.8) x i x i x i x i kde pro novou náhodnou chybu Si platí po dosazení z (6.6) -87- Regresní analýza - vícerozměrná: multikolinearita, heteroskedasticita, autokorelace £.2 E(Sf) = E(^) = az ,i=l,2,...,n. (6.9) *«• Provedením transformace y,-'= —, xi'= — ,i=\,2,...n. (6.10) *«• *i obdržíme z (6.8) nový regresní model y(. , i = l,2,...,n. (6.11) což je nový lineární regresní model podle (6.9) však bez heteroskedasticity. Uvažovali jsme jednoduchý regresní model, avšak rozšíření výše uvedeného postupu na vícerozměrný regresní model je snadné. Předpoklad 1 modifikujeme tak, že rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné Xj, tj. E(£l 2 )= a2 x2 , i = 1,2,...,«. (6.6) Namísto modelu (6.7) uvažujeme model yt = P0 + P,xn + P2xi2 +... + £., i = 1,2,...,n. (6.7*) Pro nový vícerozměrný regresní model použijeme namísto transformace (6.10) nová transformovaná data yt'= — > xij= — ,xik=^,k±j,i=l,2,...,n. (6.10*) X ÍJ X ÍJ X ÍJ Předpoklad 2 : Rozptyl náhodné složky je přímo úměrný vysvětlující proměnné x, tj. E(£l 2 )= o2 Xi , i = 1,2,...,«. (6.12) Transformovaný regresní model získáme tak, že regresní rovnici yt = P0 + P,xt + £i, i = l,2,...,n, (6.13) vydělíme hodnotou Jx~, čímž obdržíme J!i--JL + fr^ + J± = fio-}= + /3lfi'l+0l,i=l ,2,...,n, (6.14) kde pro novou náhodnou chybu Si platí po dosazení z (6.12) F2 E(ů2 ) = E(^) = a2 , i = \,2,-,n. (6.15) Provedením transformace y.'= -^L=, x{= -^=,x"= •s[x~ , i = 1,2,...,n. (6.16) V x i V x i obdržíme z (6.16) nový regresní model yt = 0oxt'+/3lxt"+ůt, i = 1,2,...,«, (6.17) což je nový lineární regresní model bez úrovňové konstanty podle (6.15) však bez heteroskedasticity. Rozšíření na vícerozměrný regresní model je možné udělat analogicky jako v případě Předpokladu 1. Odstranění heteroskedasticity si prakticky vyzkoušíte v následujícím řešeném příkladu. Ř E Š E N Ý PŘÍKLAD 6 . 2 V následující tabulce jsou uvedeny příjmy a spotřební výdaje 30 rodin v tis. Kč/rok. Vytvořte lineární regresní model závislosti výdajů na příjmech, graficky a statistickým testem -88- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT zjistěte přítomnost heteroskedasticity. Z původního modelu pak heteroskedasticitu odstraňte pomocí MVNC. Použijte přitom Excel. č.rodiny Výdaje Příjmy č.rodiny Výdaje Příjmy 1 66 80 16 115 180 2 65 100 17 120 225 3 70 85 18 100 170 4 80 110 19 145 240 5 79 120 20 110 185 6 84 115 21 172 220 7 98 130 22 200 230 8 95 140 23 175 245 9 90 125 24 140 260 10 75 90 25 135 190 11 74 105 26 140 205 12 110 160 27 155 200 13 113 150 28 230 270 14 125 165 29 137 230 15 108 145 30 145 290 Řešení: V Excelu vytvoříme z daných údajů graf: X Y bodový a pomocí pravého tlačítka iniciujeme nabídku s volbou Přidat spojnici trendu... Vpodnabídce Možnosti zakřikneme 2 položky: Zvolit rovnici regrese a Zvolit koeficient spolehlivosti (tj. koeficient determinace). Obdržíme výsledek, z něhož vyplývá lineární regresní model: y = 9,29 + 0,64.x + £, viz následující graf. Dále vedle sloupce yt vytvoříme pomocí vzorce regresní rovnice sloupec teoretických hodnot Yi. Další sloupec vytvoříme jako rozdíl sloupců y, a Yi, což bude sloupec reziduí. Poslední sloupec bude druhá mocnina reziduí. Společně pak vytvoříme X Y bodový graf mezi Yt a ef . -89- Regresní analýza - vícerozměrná: multikolinearita, heteroskedasticita, autokorelace Výsledkem je následující graf, který napovídá přítomnost heteroskedasticity, neboť body v grafu netvoří pás rovnoběžný s vodorovnou osou, jako na Obr. 6.3 a), ale spíše kužel, jako na Obr. 6.3 b). ^islost e2 na Y 3500,00 3000,00 2500,00 2000, 50 70 90 110 130 150 170 190 210 230 Obr. 6.4. Příklad: Kužel závislosti ei na Yi K exaktnímu prokázání heteroskedasticity použijeme Bartletův test. Podle rostoucích hodnot X - Příjmů seřadíme hodnoty reziduí a z nich vytvoříme dva stejně velké soubory el a e2: Příjmy e1 Příjmy e2 80 1,99 170 -8,09 85 -10,83 180 -29,68 90 3,03 185 -17,19 100 -1,74 190 -13,54 105 -8,65 200 -16,05 110 -0,69 205 25,28 115 4,45 220 47,37 120 -4,46 225 13,51 125 -0,60 230 -30,36 130 5,08 230 6,00 140 -4,78 240 2,14 145 -1,28 245 20,09 150 7,63 260 53,74 160 10,77 270 -15,63 165 5,58 290 -43,08 Budeme testovat, zda rozptyly obou souborů jsou stejné pomocí F-testu z Excelu: V menu: Data -> Analýza dat -> Dvouvýběrový F-test pro rozptyl zadáme umístění oblastí sloupců el a e2, eventuální popisky a oblast výstupu. Obdržíme výstup: - 90- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Dvouvýběrový F-test pro rozptyl Soubor 1Soubor 2 Stř. hodnota 0,366225 -0,366225 Rozptyl 35,88461 792,7791 Pozorování 15 15 Rozdíl 14 14 F 0,045264 P(F<=f)(1) 3,89E-07 F krit (1) 0,402621 V tomto vystupuje důležitá P-hodnota: P(F<=f) (1) = 3,89 E-07 = 0,000000389 < 0,05. Na hladině a = 0,05 proto nulovou hypotézu H 0 : „Rozptyly obou uvažovaných souborů jsou stejné" zamítáme. Uvažované soubory mají různý rozptyl, což znamená, že rozptyl náhodné složky regresního modelu není konstantní, neboli že heteroskedasticita je v modelu přítomna. Nakonec ukážeme, jak přítomnou heteroskedasticitu odstranit. V Obr. 6.4 se body grafu nacházejí v „lineárním kuželu", proto zvolíme pro transformaci Předpoklad 2. Transformace podle (6.16): y.'= -jL=, xi'=—ř=,xi"= *Jx~, i = 1,2,...,30. Jx i vx « obdržíme nový regresní model y,'= 16,75*,'+ 0,59ix,"+ůt, i = 1,2,..., 30, který je bez heteroskedasticity. č. rodiny y' x' x " č.rodiny y' x' x " 1 7,379 0,112 8,944 16 8,572 0,075 13,416 2 6,500 0,100 10,000 17 8,000 0,067 15,000 3 7,593 0,108 9,220 18 7,670 0,077 13,038 4 7,628 0,095 10,488 19 9,360 0,065 15,492 5 7,212 0,091 10,954 20 8,087 0,074 13,601 6 7,833 0,093 10,724 21 11,596 0,067 14,832 7 8,595 0,088 11,402 22 13,188 0,066 15,166 8 8,029 0,085 11,832 23 11,180 0,064 15,652 9 8,050 0,089 11,180 24 8,682 0,062 16,125 10 7,906 0,105 9,487 25 9,794 0,073 13,784 11 7,222 0,098 10,247 26 9,778 0,070 14,318 12 8,696 0,079 12,649 27 10,960 0,071 14,142 13 9,226 0,082 12,247 28 13,997 0,061 16,432 14 9,731 0,078 12,845 29 9,034 0,066 15,166 15 8,969 0,083 12,042 30 8,515 0,059 17,029 6.3 CO JE AUTOKORELACE? Autokorelace je korelace mezi pozorováními uspořádanými v čase (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžiku/intervalu). Říkáme, že v regresním modelu není přítomná autokorelace, jestliže náhodné veličiny jsou vzájemně nekorelované, symbolicky to lze vyjádřit takto EiSiSj) = 0 , i *j, i,j = l,2,...,n. (6.18) -91 - Regresní analýza - vícerozměrná: multikolinearita, heteroskedasticita, autokorelace Jestliže naopak existuje dvojice indexů i ž j, přičemž platí E(£j£j) ž 0, řekneme, že v regresním modelu je přítomna autokorelace. Autokorelace se nejčastěji vyskytuje v regresních modelech založených na datech ve formě časových řad. Potom indexy i, (resp. j) představují časové okamžiky t. Časovým řadám a jejich analýze se budou věnovat následující kapitoly 8 až 12, kde bude podrobněji pojednáno také o autokorelaci. Následující obr. 6.5 dává příklad dvou regresních modelů dat, z nichž jeden je správně specifikován (nelineární regresní model - černá křivka), druhý je nesprávně specifikován (lineární regresní křivka - červená přímka). Nesprávná specifikace modelu způsobuje, že rezidua jsou vzájemně korelována, což se projevuje tak, že datové body leží vždy ve větší oblasti podél vodorovné osy na jedné straně regresní křivky, zatímco v případě nekorelovaných reziduí leží datové body rovnoměrně po obou stranách regresní křivky v celé oblasti vodorovné osy (tj. nezávisle proměnné). tna spdcifikace moielu \ Správná specifikace modelu Obr. 6.5. Autokorelace: špatná a správná specifikace modelu 6.4 SAMOSTATNÉ ÚKOLY 6.1 V následující tabulce jsou uvedeny hodnoty obratu, výdajů na vědu a výzkum (VaV) a zisku za 18 průmyslových odvětví v USA v roce 1990. Vytvořte lineární regresní model závislosti zisku na obratu a výdajích na VaV. Zjistěte, zda je v modelu přítomna multikolinearita a heteroskedasticita. Použijte postupy, které jste se naučili v této kapitole. Obrat VaV Zisk 6375,3 62,5 185,1 11626,4 92,9 1569,5 14655,1 178,3 276,8 21869,2 258,4 2828,1 26408,3 494,7 225,9 32405,6 1083,0 3751,9 35107,7 1620,6 2884,1 40295,4 421,7 4645,7 70761,6 509,2 5036,4 80552,8 6620,1 13869,9 95294,0 3918,6 4487,8 101314,1 1595,3 10278,9 116141,3 6107,5 8787,3 122315,7 4454,1 16438,8 141649,9 3163,8 9761,4 175025,8 13210,7 19774,5 230614,5 1703,8 22626,6 293543,0 9528,2 18415,4 -92- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 6.5 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 6.1 F = 791,54+0,069.xl+ 0,369.x2 x l . . .obrat; x2.. .výdaje na VaV; koeficient b2 = 0,369 není statisticky významný Korelační koeficient = 0,692 je statisticky významný na hladině významnosti 0,01. V modelu je přítomna multikolinearita. Závislost zisku na obratu: Y = 862,85+ 0,08.xl Koeficient 0,08 je statisticky významný. Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota -809,8808 809,8807591 Rozptyl 1219536 20761396,39 Pozorování 9 9 Rozdíl 8 8 F 0,058741 P(F<=f) (1) 0,000289 Fkrit(l) 0,290858 Nulovou hypotézu: rozptyly obou souborů jsou stejné, zamítáme, rozptyl náhodné složky není konstantní, neboli heteroskedasticita je v modelu přítomna. Závislost zisku na obratu: Y = 3817,11+1,4x2 Koeficient 1,4 je statisticky významný. Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota -1348,771 1348,770762 Rozptyl 7292620 43919891,06 Pozorování 9 9 Rozdíl 8 8 F 0,166044 P(F<=f)(l) 0,010033 Fkrit(l) 0,290858 Nulovou hypotézu: rozptyly obou souborů jsou stejné, nezamítáme, rozptyl náhodné složky je konstantní, neboli heteroskedasticita není v modelu přítomna, (hladina významnosti 0,01) -93- Fiktivní proměnné 7 FIKTIVNÍ PROMĚNNÉ RYCHLÝ NÁHLED KAPITOLY Jedním ze způsobů jak kvantifikovat přítomnost nebo nepřítomnost nějaké vlastnosti je konstrukce nových proměnných, které toto vyjadřují pomocí čísel 1 nebo 0, přitom 1 indikuje přítomnost a 0 nepřítomnost vlastnosti. Tyto proměnné, které se nazývají fiktivní proměnné (anglicky dummy variables), mají časté použití při analýze ekonomických problémů závislosti mezi ekonomickými veličinami. V této kapitole se naučíte použít fiktivní vysvětlující proměnné ve vícerozměrných regresních modelech. Fiktivní proměnné lze zavést do regresního modelu stejně snadno, jako jakékoliv jiné kvantitativní proměnné, které jsme např. použili v předchozí kapitole o vícenásobné regresní analýze. V této kapitole si ukážeme, jak vytvořit regresní model, který obsahuje výlučně fiktivní vysvětlující proměnné, jak tento model souvisí s dříve použitou metodou ANOVA, a také jak využít model, který je kombinací fiktivních a obvyklých kvantitativních vysvětlujících proměnných. Dále ukážeme, jak lze fiktivní proměnné výhodně použít pro sezónní data k identifikaci jednotlivých sezón a analýze problému závislostí mezi ekonomickými veličinami. 7.1 CO JSOU FIKTIVNÍ PROMĚNNÉ? V regresní analýze je závisle proměnná (kritérium) ovlivňována často nejen kvantitativními proměnnými (regresory) jako například příjem rodin, ceny výrobků, náklady podniků atd., ale také proměnnými, které mají kvalitativní povahu, jako jsou pohlaví zákazníků, jejich národnost, vzdělání, region apod. Tyto proměnné obvykle představují přítomnost nebo naopak nepřítomnost nějaké „kvality" nebo vlastnosti, jako jsou v případě pohlaví zákazníků muž nebo žena, v případě národnosti Cech nebo Slovák, v případě vzdělání základní (Z), středoškolské (S) nebo vysokoškolské (V) apod. Jedním ze způsobů jak kvantifikovat takové vlastnosti je konstrukce nových proměnných, které vyjadřují přítomnost nebo nepřítomnost příslušné vlastnosti pomocí čísel 1 nebo 0, přitom 1 indikuje přítomnost a 0 nepřítomnost vlastnosti. Tyto proměnné se nazývají fiktivní proměnné (anglicky „dummy variables"). Fiktivní proměnné lze zavést do regresního modelu stejně snadno, jako jakékoliv jiné kvantitativní proměnné, které jsme např. použili v předchozí kapitole. Můžeme však vytvořit regresní model, který obsahuje výlučně fiktivní vysvětlující proměnné. S nimi jste se vlastně již setkali v 1. a 2. kapitole v rámci ANOVA. 7.2 FIKTIVNÍ PROMĚNNÉ A ANOVA Nejprve budeme vyšetřovat situaci pouze s kvalitativní vysvětlující proměnnou, která nabývá K hodnot (kategorií) Z0 , Z\, Z2,...,ZK_\. Tuto kvalitativní proměnnou nahradíme K- 1 fiktivními vysvětlujícími proměnnými: d\,..., dx-u definovanými takto: d\ = 1 pokud kvalitativní proměnná nabývá hodnoty Zi, = 0 jinak. d2 = 1 pokud kvalitativní proměnná nabývá hodnoty Z2 , = 0 jinak. dx-i = 1 pokud kvalitativní proměnná nabývá hodnoty ZK-u = 0 jinak. 94 Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACO VÁNÍ DAT Budeme nadále uvažovat regresní model: y = Po + pldx + /hd2 +...+ PK-\dK-\, + £ (7.1) s vysvětlovanou proměnnou y představující vysvětlovanou (závisle) proměnnou a K - 1 fiktivními vysvětlujícími proměnnými: d\,..., dK-\, £ je náhodná složka. Mohli jste si všimnout, že k vyjádření K kategorií jsme použili K - 1 fiktivních proměnných. Možná vás napadla otázka: Proč jsme nepoužili též proměnnou do pro kategorii Z0 podobně jako pro ostatní kategorie? Pokud kvalitativní proměnná nabývá hodnoty Z0 , potom podle definice všechny zavedené fiktivní proměnné: d\,..., dx-u nabývají hodnoty 0, a tudíž je v regresním modelu (7.1) situace popsána rovnicí y = fa+£. (7.2) Průměrná hodnota vysvětlované proměnné y je vyjádřena regresní úrovňovou konstantou J3Q. Poznámka. Kdybychom však postupovali tak, že bychom použili proměnnou do pro kategorii Z0 , podobně jako pro ostatní kategorie, pak by došlo k situaci perfektní kolinearity mezi vysvětlujícími fiktivními proměnnými, což je nežádoucí situace popsaná v předchozí kapitole. V tomto případě bychom mohli použít regresní analýzu s modelem bez úrovňové konstanty, tj. regresní model y = j30d0 + /3idl+ fcd2 +...+ pK-idK-i, + £ • (7.3) K tomuto regresnímu modelu se vrátíme ještě v subkapitole 7.4, která se bude zabývat použitím fiktivních proměnných u sezónních dat. Ke stanovení odhadů regresních koeficientů modelu (7.1), eventuálně model (7.3), použijeme metodu nejmenších čtverců, tedy vícerozměrnou regresní analýzu z kapitoly 5. Stejně tak můžete k řešení výchozí situace použít jednofaktorovou ANOVA, přitom nezávislým faktorem bude uvažovaná kvalitativní proměnná s K kategoriemi. Vztah mezi metodou ANOVA a metodou regresní analýzy vysvětlíme na konkrétním příkladu, který budeme řešit s pomocí Excelu. Ř E Š E N Ý PŘÍKLAD 7.1 Analyzujte závislost výdajů rodin na letní dovolenou na vzdělání rodičů (nejvyšší vzdělání alespoň jednoho z rodičů je základní - ZŠ, středoškolské - SŠ, vysokoškolské - VŠ). Použijte metodu ANOVA a poté vícerozměrnou regresní analýzu. Srovnejte oba výsledky. Data za 15 rodin jsou uvedena v následující tabulce. Přitom Yi představují výdaje rodiny na letní dovolenou, du = 1 jestliže rodiče mají vzdělání SŠ, 0 jinak, d2i = 1 jestliže rodiče mají vzdělání VŠ, 0 jinak. y i - výdaje na dov. d u -SS d2i - VS 39 1 0 33 1 0 31 1 0 31 1 0 36 1 0 60 0 1 72 0 1 64 0 1 79 0 1 62 0 1 18 0 0 19 0 0 17 0 0 15 0 0 20 0 0 -95- Fiktivní proměnné Řešení: Budeme uvažovat regresní model yt =fio+ Pidn + {han + £i s vysvětlovanou proměn n ou y, představující výdaje rodiny na letní dovolenou a dvěma fiktivními proměnnými: du - rodiče mají vzdělání SŠ, ďu- rodiče mají vzdělání VŠ. Všimněte si, že k vyjádření K = 3 kategorií (ZŠ, SŠ, VŠ) jsme použili 2 fiktivní proměnné. K výpočtu regresních koeficientů použijeme Excelu. V hlavním menu otevřeme postupně položky: Data - » Analýza dat... - » Regrese Data uložíme ve worksheetu v poli s adresou al:cl6 (viz níže), zadávací okno vyplníme takto: Regrese Vstup Vstupní oblast V; Vstupní oblast X: W Popisky | Konstanta je nula V Hladina spolehlivosti [ffi % Možnosti výstupu — (• Výstupní oblast: C Nový [ist: f Nový sešit rRezidua— líEíl UM |$A$1:$A$16 51 |$B$1:$C$16 5] OK Nápověda "31 | ~ Rezidua |~" Graf s rezidui | ~ Standardní rezidua |~" Graf regresní pnmky i-Ni r ormální pravděpodobnost f " Graf pravděpodobnosti Zadáme OK. Ve výstupu dostaneme jak výsledek metody ANOVA, tak i výsledek regresní analýzy. V první tabulce výstupu: Regresní statistika nás zajímá druhá hodnota - koeficient determinace (Hodnota spolehlivosti R), tj. R 2 = 0,953. Ve druhé tabulce ANOVA (viz níže) jednotlivé položky mají následující význam: Regrese = meziskupinový součet čtverců Rezidua = vnitroskupinový součet čtverců Celkem = celkový součet čtverců SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnosti (DF - Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové kritérium = 122,234 Významnost F = Signifikance (p-hodnota) = 0,00000001049 < 0,05 = a Faktor vzdělání vyjádřený kategoriemi ZŠ, SŠ, VŠ je tudíž statisticky významný. Poměr determinace P 2 = 0,953 se vypočte jako podíl meziskupinového a celkového součtu čtverců (vypočtěte, konfrontujte s kapitolou 1!). Vidíte, že R = P2 , tedy v případě fiktivních proměnných je koeficient determinace definovaný v regresní analýze totožný s poměrem determinace z ANOVA. Odtud plyne, že také koeficient korelace je totožný s poměrem korelace z ANOVA. Přiléhavost dat k regresní rovině je tedy totéž, co těsnost závislosti, s níž jste se setkali v metodě ANOVA. -96- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Poslední tabulka výstupu přináší hodnoty odhadů regresních koeficientů: Hranice = b0 = 17,8 ; S Š = Z?i=16,2; VŠ = £2 = 49,6. Ve sloupci Hodnota P (signifikance) jsou všechna čísla mnohem menší, než je běžná hladina významnosti a =0,05, tedy hodnoty regresních koeficientů jsou statisticky významné. Přitom hodnota bo = 17,8 představuje průměrné výdaje rodiny, kde rodiče mají pouze základní vzdělání, b\ = 16,2 představuje průměrný nárůst výdajů na letní dovolenou při nárůstu fiktivní proměnné du zO na 1, tedy průměrné výdaje rodiny, kde rodiče mají středoškolské vzdělání, jsou bo + b\ = 34,0 tis. Kč. Hodnota regresního koeficientu b2 = 49,6 představuje průměrný nárůst výdajů na letní dovolenou při nárůstu fiktivní proměnné d2i z 0 na 1, tedy průměrné výdaje rodiny, kde rodiče mají vysokoškolské vzdělání, jsou bo + ž>2 = 67,4 tis. Kč. Poslední dva sloupce tabulky udávají dolní a horní hranici 95%-ního intervalu spolehlivosti pro příslušný regresní koeficient. -iktivni_prom [Režim kompatibili i'1 - h Vložení Rozložení stránky Vzorce ^ Upozornení zabezpecerí Byly za tázány automatické aktualizace propojení. | Možnosti,,, | J&r | Yi - Výdaje na dov. Y\ - Výdaje na dov. 35 • I Regresní statistikaNásobná R 0,976325 Hodnota spolehlivosti R 0,953211 Nastavená hodnota spolehlivosti R 0,945412 Chyba str. hodnoty 5 115336 Pozorování 15 ANOVA SS MSRegrese Rezidua Celkem 2 6396,933 3198.467 122,2344 12 314 26,16667 14 6710,933 _ /znasnnosl F 1U4925E-0B -:.-:a str, nod t stat Hodnota P Point 95% Hc~'ič! : Hranice SŠ vš 17,8 2,287648 7,780917 4.99E-06 16,2 3,235223 5,007383 0,000306 49 Ě 3 233223 15 33123 3 Ú3E-ÚS 12,81564329 22,78436 9,151055143 23,24894 42,55105514 56,94894 0.953211 > n | Při / P r 2 / P r 3 /Pr4~1 Pr5 / P r 6 / P r 7 fd2+/M3, + £, (7.5) kde y je vysvětlovan á proměn n á - měsíční prodej ledniček, dt, i = 0,1,2,3, jsou fiktivní proměnné pro první, druhé, třetí a čtvrté čtvrtletí roku. Data prodejů za 32 po sobě jdoucích měsíců (v tis. Kč) jsou uvedena v následující tabulce. y - tržby dO d1 d2 d3 y - tržby dO d1 d2 d3 1317 1 0 0 0 943 1 0 0 0 1615 0 1 0 0 1175 0 1 0 0 1662 0 0 1 0 1269 0 0 1 0 1295 0 0 0 1 973 0 0 0 1 1271 1 0 0 0 1102 1 0 0 0 1555 0 1 0 0 1344 0 1 0 0 1639 0 0 1 0 1641 0 0 1 0 1238 0 0 0 1 1225 0 0 0 1 1277 1 0 0 0 1429 1 0 0 0 1258 0 1 0 0 1699 0 1 0 0 1417 0 0 1 0 1749 0 0 1 0 1185 0 0 0 1 1117 0 0 0 1 1196 1 0 0 0 1242 1 0 0 0 1410 0 1 0 0 1684 0 1 0 0 1417 0 0 1 0 1764 0 0 1 0 919 0 0 0 1 1328 0 0 0 1 -100- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Uvedeme řešení pomocí Excelu. V hlavním menu otevřeme postupně položky: Data -» Analýza dat... -» Regrese Data uložíme ve worksheetu v poli s adresou al:e33 (viz níže), zadávací okno vyplníme takto: Regrese Vstup Vstupní oblast Y: Vstupní oblast X: |$B$1:$E$33 W Popisky W Konstanta je nula V Hladina spolehlivosti [ŠŠ % -Možnosti v ý s t u p u — (* Výstupní oblast: C Nový list: C Nový sešit Rezidua ItHíl V Rezidua | ~ Standardní rezidua l~~ Graf s rezidui ~ Graf regresní přímky Ľ Ni r lormální pravděpodobnost V Graf pravděpodobnosti Nápověda Všimněte si, že jsme zaklikli položku Konstanta je nula. Tato volba umožňuje řešení regresního modelu bez úrovňové konstanty. Po zadání OK obdržíme řešení uvedené v následující tabulce. Odhady regresních koeficientů, které jsou všechny statisticky významné (viz sloupec Hodnota P, jde o velmi malá čísla), má regresní nadrovina rovnici y = 1222,13J0 +1467,50di + 1569,75J2 +1160,00d3- (7.6) Regresní koeficienty v (7.6) představují průměrné hodnoty prodejů v jednotlivých čtvrtletích. Zvolíme-li jako výchozí úroveň hodnoty prodejů v 1. čtvrtletí, potom sezónní faktor S, Mého čtvrtletí obdržíme jako rozdíl mezi bi a bo, tj. S, = bi - bo. V našem příkladu je So = 0, Si = 245,38, S2 = 247,63, S3 = - 62,13. Další použití fiktivních proměnných si ukážeme v kapitole o sezónních modelech časových řad. VÝSLEDEK Regresní statistika Násobné R 0,729244 Hodnota spolehlivosti R 0,531797 Nastavená hodnota spolehlivosti R 0,445918 Chyba stř. hodnoty 169,6785 Pozorování 32 ANOVA Rozdíl : MS F ýznamnost F Regrese 4 228909 7,950768 0,000227 Rezidua 28 28790,8 Celkem 32 Koeficienty tstat Hodnota P Dolní 95% Horní 95% Hranice 0 #N/A #N/A #N/A #N/A dO 1222,13 20,372 2.5E-18 1099,24 1345,01 d1 1467,50 24,46224 1,94E-20 1344,615 1590,385 d2 1569,75 26,16668 3.18E-21 1446,865 1692,635 d3 1160,00 19,33642 9,81E-18 1037,115 1282,885 -101 - Fiktivní proměnné Můžeme tedy shrnout: Jedním ze způsobů, jak kvantifikovat přítomnost nebo nepřítomnost nějaké vlastnosti, je konstrukce nových proměnných, které toto vyjadřují pomocí čísel 1 nebo 0, přitom 1 indikuje přítomnost a 0 nepřítomnost vlastnosti. Tyto proměnné se nazývají fiktivní proměnné (anglicky dummy variables). Fiktivní proměnné lze zavést do regresního modelu stejně snadno, jako jakékoliv jiné kvantitativní proměnné, které jsme použili např. v předchozí kapitole. V této kapitole jsme ukázali, jak vytvořit regresní model, který obsahuje výlučně fiktivní vysvětlující proměnné a také model, který je kombinací fiktivních a obvyklých vysvětlujících proměnných. Na konec jsme ukázali, jak lze fiktivní proměnné výhodně použít pro sezónní data k identifikaci jednotlivých sezón. 7.5 SAMOSTATNÉ ÚKOLY 7.1 V následující tabulce jsou uvedeny roční úspory a příjmy rodin za období od roku 1979 do roku 1996. Protože po roce 1989 došlo ke změně ekonomického chování rodin, použijte fiktivní proměnnou k vysvětlení změny závislosti úspor na příjmech, viz sloupec „období". rok úspory příjmy období 1979 57,7 831,8 0 1980 66,3 894 0 1981 61,4 981,6 0 1982 89 1101,7 0 1983 96,7 1210 0 1984 104,6 1313,4 0 1985 95,8 1451,4 0 1986 90,7 1607,5 0 1987 110,2 1812,4 0 1988 118,1 2034 0 1989 136,9 2258,5 0 1990 159,4 2520,9 1 1991 153,9 2670,8 1 1992 130,6 2836,6 1 1993 164,1 3008,7 1 1994 125,4 3325,3 1 1995 121,7 3531 1 1996 104,2 3780 1 7.6 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 7.1 y, = fio + fi\du + fiiXi + Si, yi.. .úspory; xt.. .příjmy; du ... fiktivní proměnná Yi = 71,86 + 0,015 Xi + 17,84 du Hodnota P (signifikance) je u koeficientu b\ (0,236) a u koeficientu (0,465) tedy nulovou hypotézu o nulovosti koeficientů nelze zamítnout a tyto proměnné nemají vliv na vysvětlovanou proměnnou. Vynecháme-li fiktivní proměnnou, dostáváme: Yt = 61,87 + 0,023 xi a hodnota P u koeficientu b\ je 0,0009 a nulovou hypotézu o nulovosti koeficientu zamítáme. To znamená, že úspory nezávisí na období, ale na příjmech rodin. -102- Jaroslav Ramík a Radmila Stoklasová; STATISTICKÉ ZPRACOVANÍ DAT 8 ZÁKLADY ANALÝZY ČASOVÝCH RAD RÝCHLY NAHLED KAPITOLY Důležitým nástrojem ke zkoumání dynamiky ekonomických procesů je analýza časových řad. Časovou řadou přitom rozumíme věcně a prostorově srovnatelná pozorování uspořádaná v čase směrem od minulosti přes přítomnost k budoucnosti. Obsahem této kapitoly je objasnit typizaci ekonomických časových řad, vysvětlit elementární charakteristiky časových řad, uvést základní modely časových řad a popsat jejich složky. Analýza časových řad je vedena snahou po vysvětlení minulosti a předvídání budoucnosti, v ekonomické oblasti se jedná o vývojové trendy ukazatelů hospodářské činnosti. Analýza časových řad jako soubor metod a postupů nabízí širokou škálu nástrojů a technik. Ke klasickým analytickým postupům založeným na regresi z předchozích kapitol a syntetickým přístupům založeným na technikách vyrovnání časových řad, přistupuje moderní, výpočetně náročnější harmonická analýza a Box - Jenkinsova metodologie využívající současného mohutného rozvoje výpočetní techniky. 8.1 TYPY EKONOMICKÝCH ČASOVÝCH ŘAD Důležitým nástrojem ke zkoumání dynamiky ekonomických procesů je analýza časových řad. Časovou řadou přitom rozumíme věcně a prostorově srovnatelná pozorování uspořádaná v čase směrem od minulosti přes přítomnost k budoucnosti. Časové řady členíme následujícím způsobem: • podle charakteru časové řady na intervalové časové řady a okamžikové časové řady, • podle periodicity, s jakou jsou sledovány, na krátkodobé časové řady (méně než roční periodicita), střednědobé časové řady (roční periodicita) a dlouhodobé časové řady (delší, než roční periodicita), • podle druhu sledovaných ukazatelů (údajů) na časové řady absolutních ukazatelů a časové řady odvozených ukazatelů. Intervalovou časovou řadou se rozumí časová řada intervalového ukazatele yt, tj. ukazatele, jehož velikost (hodnota) závisí na délce intervalu, za který je sledován. Pro ukazatele tohoto typu je možné tvořit součty, z jejich povahy však vyplývá, že se vztahují ke stejně dlouhým časovým intervalům, jinak by byly hodnoty vzájemně nesrovnatelné. Není např. správné srovnávat výrobu za leden a únor, neboť únor je z hlediska počtu pracovních dní kratší. Abychom zajistili srovnatelnost, přepočítáváme všechna sledovaná období na stejný časový interval. Tato operace se nazývá očišťování časových řad od kalendářních variací. Údaje očištěné časové řady yř ( 0 ) dostaneme z hodnoty očišťovaného ukazatele yt takto: k, kde kt je průměrný počet dnů v příslušném dílčím období, kt je skutečný počet dnů v příslušném dílčím období t. Okamžikovou časovou řadou rozumíme časovou řadu ukazatelů, které se vztahují k určitému okamžiku, např. počátku nebo konci určitého časového intervalu (období). Protože -103- Základy analýzy časových řad součet za několik za sebou jdoucích okamžikových hodnot obvykle nemá reálný smysl, shrnují se řady tohoto typu pomocí chronologického průměru. Pro dané ekvidistantní (stejně vzdálené) časové okamžiky tj, t2,...,tn , ke kterým přísluší hodnoty okamžikových ukazatelů yi,y2,---,yn je prostý chronologický průměr definován jako aritmetický průměr z aritmetických průměrů vždy dvou po sobě jdoucích hodnot, tedy: yx + y2 , y 2 + y 3 , , y„-i + y„ ych = ^ — : A , (8-2) n-l Není-li délka mezi jednotlivými časovými okamžiky stejná, definujeme vážený chronologický průměr, kde vahami jsou délky jednotlivých časových intervalů d\ = řjt+i - h , k = 1,2,...,n -1: ** = W L l +r, • ( 8 3 ) rfj + a2 + ... + aB_j Časový rozdíl mezi časovými okamžiky, tedy délka časového intervalu v okamžikové časové řadě, se nazývá periodicita časové řady. Je-li periodicita ekonomických časových řad kratší než jeden rok, hovoříme o krátkodobých časových řadách. Nejčastější periodicitou je měsíční periodicita. Je-li periodicita roční, hovoříme často o střednědobých časových řadách, při delší periodicitě, např. pětileté, hovoříme o dlouhodobých časových řadách. Časovou řadou absolutních hodnot se obvykle rozumí časová řada přímo zjištěných údajů (v naturálních jednotkách) očištěná od kalendářních variací. Odvozené údaje a z nich vytvořené časové řady získáme obvykle matematickými operacemi z absolutních údajů. Většinu důležitých ekonomických časových řad tvoří časové řady ukazatelů vyjádřených v peněžní formě. Vzhledem ke změnám cenové hladiny, které jsou v tržní ekonomice přirozené, však v delší časové řadě často dostáváme posloupnost údajů, které nejsou vždy zcela souměřitelné. Proto důležitým problémem v analýze časových řad je srovnatelnost údajů, konkrétně cenová srovnatelnost. Při sestavování delší časové řady je možno v zásadě postupovat dvojím způsobem: použít běžné ceny a vyjádřit v nich absolutní objem určitého ukazatele, resp. tempa růstu, nebo vycházet ze stálých cen, tj. cen fixovaných k určitému datu. Používání stálých cen v ekonomice vede ke zmírnění negativních tendencí v účinnosti základních fondů vyplývajících z vlivu technického rozvoje na výrobu, dále vede ke zreálnění výsledků hospodářského vývoje vzhledem k mezinárodnímu srovnání. Vývoj základních ekonomických ukazatelů v České republice je možné sledovat jednak za jednotlivé roky ve statistických ročenkách, jednak podle jednotlivých měsíců ve statistických přehledech a bulletinech vydávaných Českým statistickým úřadem. Pro potřeby vrcholového řízení ve firmách a podnicích slouží především údaje o vývoji základních ukazatelů podle měsíců, neboť jde o informace s určitým vztahem k okamžité odezvě v chování ekonomických subjektů, ať už výrobců, nebo spotřebitelů. Jsou to zejména informace o inflaci (index spotřebitelských cen a indexy životních nákladů), dále informace o peněžních příjmech a výdajích obyvatelstva, o celkovém prodeji v maloobchodě, průmyslové, zemědělské a stavební výrobě a též údaje o nezaměstnanosti. Bohatým zdrojem informaci a dat jsou webové stránky Českého statistického úřadu (ČSÚ), www.czso.cz případně Statistického úřadu Evropské komise EUROSTAT: http://epp.eurostat.ec.europa.eu . -104- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 8.2 ELEMENTÁRNÍ CHARAKTERISTIKY ČASOVÝCH ŘAD Mezi elementární metody analýzy časových řad patří vizuální analýza chování ukazatele využívající grafů spolu s určováním elementárních statistických charakteristik, ke kterým patří absolutní diference různého řádu a koeficient růstu časové řady. Označíme-li yt hodnoty určitého ukazatele v čase t = \,2,...,n (např. v jednotlivých měsících), potom absolutní diferencí prvního řádu rozumíme rozdíl: Am yt=yt-yt_l,t = 2,3,...,n. (8.4) Obdobně lze definovat absolutní diference vyšších řádů - druhého, třetího, atd.: A( 2 ) yř =A( 1 ) yř - A ( 1 ) y ř _ 1 = y, - 2yt_l + yt_2, t = 3,4,...,«, A( 3 ) yř = A( 2 ) yř - A ( 2 ) y ř _ i = yt - 3y,., + 3y,_2 - yt_3, t = 4,5,...,«, atd. Další používanou elementární charakteristikou je koeficient růstu, který udává, o kolik procent vzrostla hodnota časové řady v daném časovém okamžiku oproti období v předchozím časovém okamžiku: k= — ,t = 2,3,...,n. (8.5) y,-i Při hodnocení vývoje za celou analyzovanou řadu zjišťujeme souhrnné charakteristiky průměrný absolutní přírůstek: Ä =J - Ž A ^ y = ^ f , (8.6) n — 1f = 2 n — 1 t a průměrný koeficient růstu: k=^k2k3...kn ="-]—• (8.7) V ^ i Jak průměrný absolutní přírůstek, tak průměrný koeficient růstu závisí pouze na první a poslední hodnotě časové řady. Průměrný absolutní přírůstek ukazuje, o kolik by se měl ukazatel pravidelně měnit (v absolutních jednotkách), aby se hodnota ukazatele změnila z původní první hodnoty y\ na poslední hodnotu yn. Naproti tomu průměrný koeficient růstu poskytuje informaci, o kolik procent by se měla hodnota ukazatele měnit, tj. jaká by měla být rychlost růstu (poklesu), aby se hodnota ukazatele změnila z původní první hodnoty y\ na poslední hodnotu yn. 8.3 MODELY EKONOMICKÝCH ČASOVÝCH ŘAD Modelový přístup k analýze časových řad bude vycházet z předpokladu, že jediným faktorem dynamiky ukazatele v časové řadě je čas. Ostatní faktory působící na hodnotu ukazatele budeme většinou zanedbávat. Model časové řady tohoto typu můžeme zapsat ve formě: yt=f{t,et), (8.8) kde yt je hodnota analyzovaného ukazatele v čase t, f je určitá funkce (typ závislosti), t je časová proměnná, et je hodnota náhodné složky. Modely časových řad založené na výše uvedeném principu se nazývají jednorozměrné modely. Každá časová řada může obsahovat 4 složky, které vyjadřují různé druhy pohybu analyzovaného ukazatele: -105- Základy analýzy časových řad • trendovou složku (trend) T,, • sezónní složku St, • cyklickou složku Ct, • náhodnou složku et. Trendová, sezónní a cyklická složka tvoří společně systematickou (deterministickou) složku kterou značíme Yt , tj. Yt =Tt +St + Ct. Zpravidla se uvažuje, že složky Yt jsou v aditivním vztahu, takže model časové řady můžeme zapsat ve tvaru: yt=Tt + S, + C,+et. (8.9) V tom případě mluvíme o aditivním modelu časové řady. V ekonomických časových řadách se nejčastěji setkáváme se dvěma speciálními případy modelu (8.9). U střednědobých modelů (s roční periodicitou) se obvykle předpokládá S, = C, = 0, pak model časové řady (8.9) má tvar: y,=T,+et. (8.10) U krátkodobých modelů časových řad (s čtvrtletní nebo měsíční periodicitou) se předpokládá, že C, = 0, a tedy model (8.9) má tvar: yt=Tt+St + £t, (8.11) mluvíme pak o časové řadě se sezónní složkou. Vedle aditivního modelu (8.9) je multiplikativní model založen na předpokladu, že vzájemný vztah jednotlivých složek obsažených v modelu je dán vzájemným násobením: yt=T-St-Ct-et. ' . . . Popis a kvantifikace jednotlivých složek modelu časové řady patří k hlavním úkolům analýzy časových řad. Ř E Š E N Ý PŘÍKLAD 8.1 V tabulce jsou uvedeny průměrné měsíční mzdy zaměstnanců ve státní správě v letech 1989-1997. Pro tuto časovou řadu vypočítejte: a. absolutní přírůstky a průměrný absolutní přírůstek, b. koeficienty růstu a průměrný koeficient růstu. Roky 1989 1990 1991 1992 1993 1994 1995 1996 1997 Mzda 2980 3110 4500 5650 7460 8930 10670 12820 13250 Řešení: a. Absolutní přírůstky vypočítáme podle vztahu (8.4): A( 1 ) y2 =y2-yl =3110-2980= 130, atd. Výsledek říká, že průměrná měsíční mzda stoupla v letech 1989-1990 o 130 Kč. Všechny absolutní přírůstky jsou uvedeny v následující tabulce. Průměrný absolutní přírůstek je podle (8.6): z = i z A = 13250-2980 n-í 8 b. Koeficienty růstu vypočítáme podle vztahu (4.5). Např.: y2 3110 k2 = — = —— = 1,0436.2 yl 2980 Průměrná měsíční mzda vzrostla v letech 1989-1990 o 4,36%. -106- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Hodnoty ostatních koeficientů růstu jsou uvedeny v následující tabulce. Průměrný koeficient růstu vypočítáme podle (8.7): F = J ^ = * & 1,205. Vy, V 2980 Výsledek ukazuje, že mzdy rostly ročně v průměru o 20,5%. Roky 1989 1990 1991 1992 1993 1994 1995 1996 1997 Mzda 2980 3110 4500 5650 7460 8930 10670 12820 13250 A(1 >y 130 1390 1150 1810 1470 1740 2150 430 k 1,04 1,45 1,26 1,32 1,20 1,19 1,20 1,03 8.4 SAMOSTATNÉ ÚKOLY 8.1 V tabulce jsou uvedeny počty prodaných automobilů v autocentru A+A v letech 1990 až 1997. Pro tuto časovou řadu vypočítejte: a) absolutní přírůstky a průměrný absolutní přírůstek b) koeficienty růstu a průměrný koeficient růstu. Rok 1990 1991 1992 1993 1994 1995 1996 1997 Počet 120 159 167 175 197 172 199 240 8.5 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 8.1 Rok Počet Abs.přírůstky Koeficienty růstu 1990 120 XXX XXX 1991 159 39 1,325 1992 167 8 1,050 1993 175 8 1,048 1994 197 22 1,126 1995 172 -25 0,873 1996 199 27 1,157 1997 240 41 1,206 Průměrný absolutní přírůstek je podle (8.6): A = 17,14. Průměrný koeficient růstu vypočítáme podle (8.7): k = 1,104. Počet prodaných automobilů rostl ročně v průměru o 10,4%. -107- Analýza trendu časových řad 9 ANALÝZA TRENDU ČASOVÝCH ŘAD RYCHLÝ NÁHLED KAPITOLY V této kapitole se budete zabývat trendovou složkou časové řady, která představuje nejdůležitější komponentu analyzované časové řady. Proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. Vycházíme přitom z předpokladu, že jediným faktorem vývoje dynamiky analyzovaného ukazatele je čas. Trendová složka totiž poskytuje rozhodující informaci pro prognózovaní hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Z velkého množství používaných trendových funkcí se zaměříme na několik z nich, které mají význam především v ekonomických aplikacích. Jsou to: lineární trend, parabolický trend, exponenciální trend, logistický trend a Gompertzův trend. Syntetický přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemusíte proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózovaní hodnot časové řady. Z existujících metod syntetického přístupu uvedeme metody klouzavého průměru a exponenciální vyrovnání. 9.1 TRENDOVÁ SLOŽKA ČASOVÝCH ŘAD Jak již bylo v průvodci studiem řečeno, v této kapitole vycházíme z předpokladu, že jediným faktorem vývoje dynamiky analyzovaného ukazatele je čas t. Jednoduchý způsob volby časové proměnné spočívá v jejím zavedení tak, že časová řada začíná v okamžiku 1, ke kterému se vztahuje první člen analyzované časové řady y\. Další časové okamžiky označujeme po řadě přirozenými čísly 2,3,...,n. Symbol n označuje poslední uvažovaný časový okamžik a zároveň i počet uvažovaných časových okamžiků. Jiný jednoduchý a výhodný způsob označení časové proměnné spočívá v zavedení nové časové proměnné ť následujícím způsobem: ť = (t-t), (9.1) o - n +1 je-li počet členů časové řady n lichý, pak t = —^—, nebo ť = 2(t-t), (9.2) je-li počet členů n sudý. Nová časová proměnná splňuje důležitý požadavek: 2 > ' = 0 . (9-3) Trendová složka představuje nejdůležitější komponentu analyzované časové řady, a proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. Trendová složka totiž poskytuje rozhodující informaci pro prognózovaní hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Z velkého množství používaných trendových funkcí se zaměříme na několik z nich, které mají význam především v ekonomických aplikacích. -108- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Jsou to: lineární trend, parabolický trend, exponenciální trend, logistický trend a Gompertzův trend. Výhodou těchto trendových funkcí je to, že je lze snadno použít pro účely prognózovaní. Nevýhodou je fakt, že typ trendové funkce musíme stanovit předem na základě externích, mnohdy subjektivních předpokladů a informací. Nejužívanější metodou odhadu neznámých parametrů trendové funkce je metoda nejmenších čtverců (MNČ), s níž jsme se setkali již v kapitole 3. Zde tuto metodu aplikujeme na speciální typ jednoduché regrese pro data ve formě ekonomické časové řady, tedy případ, kdy nezávisle proměnnou je čas a závisle proměnnou tvoří sledovaný ekonomický ukazatel. Kromě metody nejmenších čtverců pro nelineární trendové funkce uvedeme alternativní metodu vybraných bodů (MVB). Syntetický přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě (tzv. vyrovnání) tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemusíme proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózovaní hodnot časové řady. Z existujících metod syntetického přístupu uvedeme metody klouzavého průměru a exponenciální vyrovnání. 9.2 LINEÁRNÍ TREND Nejčastěji používanou trendovou funkcí je lineární trendová funkce: T^A+fr, (9.4) kde J30,^l jsou neznámé parametry a t = 1,2,...,n je časová proměnná. Odhady neznámých parametrů, které označujeme b0,bl, získáme metodou nejmenších čtverců, která dává nejlepší nestranné odhady. V souladu s postupem z kapitoly 3 je zapotřebí vyřešit 2 normální rovnice (3.12), kde xt nahradíme t: Xryř =&o2> + frJ>2 - (9-6) Použijeme-li nyní časové transformace (9.1), (9.2) a s využitím vztahu (9.3) dostaneme jednoduché řešení normálních rovnic (9.5), (9.6): b = ^ b = ^ (9 7) Parametr b0 interpretujeme jako aritmetický průměr hodnot časové řady, parametr bl udává, jaký přírůstek hodnoty Tt odpovídá jednotkovému přírůstku proměnné t. 9.3 PARABOLICKÝ TREND Rozšířením lineárního trendu o kvadratický člen dostaneme parabolickou trendovou funkci: Tt=/3Q + ftt + /32t2 , (9.8) kde /5a,/5v/52 jsou neznámé parametry a t = 1,2,...,n je časová proměnná. Odhady neznámých parametrů, které označujeme b0,bl,b2, získáme metodou nejmenších čtverců řešením soustavy 3 lineárních rovnic o 3 neznámých: -109- Analýza trendu časových řad ^ ť y ^ b ^ ť + b^ity+b^iťf , (9.9) YJ{ť)2 y,=b^{ťý+blYJ{ťÝ+b2YJ{ť)A . Z podmínky (9.3) dostaneme z rovnice (9.9) ihned řešení: bx=+^. (9.10) Dosazením (9.10) do zbývajících dvou normálních rovnic obdržíme ještě řešení b0,b2 '• B A^IÁ^I ' ^Y ' , (9.ii) bi= n T^lzLzS^L. ( 9.i2) 9.4 MOCNINNÝ TREND Mocninná trendová funkce má tvar: Tt=P/\ (9.13) avšak namísto něj uvažujeme model, jenž vznikne logaritmováním obou stran (9.13): lnr( =ln/?0 + y^lnr, kde ln je přirozený logaritmus o základu e = 2,718... Použijeme analogický postup jako v případě jednoduché lineární regrese v kapitole 2.2.6. Jestliže nyní použijeme substituce Tt'=\nTt, t" = \nt, (9.14) ^ = l n / J 0 , #' = # , (9.15) obdržíme „čárkovaný" lineární trend: T,'=fil + fiť, (9.16) jehož parametry /?„',/?,' (regresní koeficienty) odhadneme metodou nejmenších čtverců a obdržíme tak jejich odhady b'0 ,b[. Ze vztahů (9.15) vypočteme zpětně odhady b0 ,bl: bQ = eh °, bx = b[. 9.5 EXPONENCIÁLNÍ TREND Exponenciální trendová funkce má tvar: který substitucemi: T;=\nTt, t" = t, (9.18) Ä = I n A , Ä = M . (9-19) lze rovněž transformovat na „čárkovaný" lineární trend, jehož parametry odhadneme metodou nejmenších čtverců, a obdržíme tak odhady b'Q,b[. Ze vztahů (9.19) vypočteme odhady b0,bl původního nelineárního regresního modelu (9.17): b0=eb '\b,=e*. Použití exponenciálního trendu bude demonstrováno na příkladu v závěru této kapitoly. -110- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 9.6 LOGISTICKÝ TREND Logistická trendová funkce patří k nelineárním trendům, které se vyznačují horní asymptotou, tj. hranicí, k níž se hodnoty ukazatele přibližují pro neomezeně rostoucí hodnoty času, a jedním inflexním bodem, v němž graf logistické funkce přechází z konvexního do konkávního tvaru. Pro tvar podobný písmenu S se takovým křivkám říká S-křivky. V ekonomické oblasti, speciálně v marketingu, se tato funkce používá pří modelování poptávky po zboží dlouhodobé spotřeby, ale také při modelování vývoje výroby a prodeje některých druhů výrobků. Na rozdíl od předchozích trendových funkcí, které byly definovány jednoznačně, logistická funkce bývá vyjadřována v několika různých variantách, uvedeme zde nejpoužívanější tvar: T= (9.20) kde J30,fa, /f jsou neznámé parametry a t = \,2,...,n je časová proměnná, přitom se kvůli zachování tvaru S-křivky předpokládá, že 0 < K, 0 velkých hodnotách času t. 9.7 GOMPERTZŮV TREND Ve srovnání s předchozí logistickou trendovou funkcí je Gompertzův trend jiným typem 5-křivky: Tt = Kfif , (9.24) kde opět , /rjsou neznámé parametry a t = \,2,...,n je časová proměnná, přitom se kvůli zachování tvaru S-křivky předpokládá, že 0 < K, 0 < /?0,0 < J3X < 1. Odhady těchto k parametrů získáme opět metodou nelineární regrese (metodou nejmenších čtverců), eventuálně metodou vybraných bodů, jako v předchozím odstavci. Asymptota Gompertzovy křivky je rovnoběžná s osou t ve vzdálenosti k, přičemž inflexní bod křivky není na rozdíl od logistického trendu (9.20) umístěn uprostřed mezi časovou osou a asymptotou. 9.8 VOLBA VHODNÉHO MODELU TRENDU Závažným problémem analýzy časových řad je problém stanovení konkrétního typu trendové funkce. Základem pro rozhodnutí o vhodném typu funkce by měla být věcně-ekonomická kritéria, tedy trendová funkce by měla být volena na základě věcné analýzy zkoumaného ekonomického jevu. Během věcného rozboru lze obvykle posoudit, zda jde o funkci rostoucí (nebo klesající), s trendem růstu nade všechny meze, či k určité konečné hodnotě (asymptotě). Grafické znázornění časové řady umožní v hrubých rysech odhalit základní tendence ve vývoji analyzovaného ukazatele. Nebezpečí volby na základě vizuálního výběru spočívá však v jeho subjektivitě. Různí analytici mohou danou situaci posoudit různě a zvolit rozdílné typy trendové funkce. Nebezpečí tu plyne i z toho, že tvar grafu je do značné míry závislý na volbě použitého měřítka. Přiléhavost dat k trendové (regresní) křivce jsme v kapitole 3 měřili koeficientem determinace R2 , viz (3.18): fl2=±_r = 1_±_« . (9.25) Tento koeficient můžeme k porovnání vhodnosti různých modelů trendu použít i nyní. V zásadě lze přijmout hodnocení, v němž nejvhodnější model trendu dává nejvyšší hodnotu koeficientu determinace R2 . Vzhledem k tomu, že hodnota Sy je dána, závisí velikost R2 na velikosti reziduálního součtu čtverců SR ; čím je jeho hodnota menší, tím je hodnota R2 větší (blíže k jedné). Taková metoda hodnocení trendu časové řady však upřednostňuje modely s větším počtem parametrů. Protože se zejména u ekonomických časových řad snažíme o nalezení jednoduchého tvaru trendu, je lepší k hodnocení vhodnosti modelu použít reziduálni rozptyl: s 2 R = - ^ , (9.26) n — p -112- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT kde SR=±(yi-Yif je reziduálni součet čtverců, n je počet datových bodů a p je počet parametrů v modelu. Z tvaru (9.26) je zřejmé, že hodnota reziduálního rozptylu roste s rostoucím počtem parametrů, což odpovídá výše uvedenému požadavku po co nejmenším počtu parametru v trendové funkci. Vhodný model trendu bude tedy „kompromisem" mezi velikostmi hodnot R2 a p. Volbu vhodné trendové funkce lze podpořit také testy hypotéz. Z celé řady různých testů uvedeme známý F-test, který slouží pro rozhodování, zda má smysl dávat přednost složitějšímu modelu (s větším počtem parametrů) před jednodušším modelem (s menším počtem parametrů). Testujeme nulovou hypotézu, že totiž pokud jde o přiléhavost dat ke zvoleným trendovým funkcím, není mezi modely statisticky významný rozdíl. Tento test je založen na statistice: o ( 2 ) _ o ( l ) F= %f2 . (9-27) R n-pl kde hodnoty Sj\Sg\p1 přísluší ke složitějšímu modelu, hodnoty Sj2) ,p2 přísluší k jednoduššímu modelu, tj. p{> p2, ST 2) > . Statistika (9.27) má přibližně Fisherovo rozdělení F s p{- p2 a n- pl stupni volnosti. V případě, že vypočítaná hodnota statistiky padne do kritického oboru, lze na zvolené hladině významnosti a usuzovat, že model s větším počtem parametrů přináší výrazné zlepšení oproti jednoduššímu modelu. 9.9 KLOUZAVÉ PRŮMĚRY V posledních dvou odstavcích této kapitoly věnované trendovým funkcím se budeme zabývat dvěma metodami syntetického způsobu stanovení trendu časové řady. Jak již bylo řečeno, syntetický přístup stanovení trendu spočívá ve vyhlazení a vyrovnání odchylek daného ukazatele v časové řadě takovým způsobem, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv však vnější faktory. Nemusíme proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému, kde jsme typ trendové funkce museli stanovit předem. Jeho nevýhodou je naopak obtížnější využití pro prognózovaní hodnot časové řady. Z existujících metod syntetického přístupu uvedeme metody klouzavého průměru a exponenciální vyrovnání. Podstata vyrovnání časové řady pomocí klouzavých průměrů spočívá v tom, že posloupnost hodnot časové řady nahradíme novou řadou průměrů vypočítaných s kratších úseků časové řady, přičemž tyto kratší úseky postupně posouváme (kloužeme) směrem od začátku ke konci časové řady, a současně vypočítáváme dílčí průměry - klouzavé průměry. Vzniká důležitý problém, který je nutno předem řešit: jaký má být počet členů klouzavé části průměru. Klouzavou částí průměru budeme tedy rozumět časový interval určité délky, který se posunuje po časové ose vždy o jednotku. Volba rozsahu klouzavé části závisí na věcném (ekonomickém) charakteru časové řady a nelze ji obvykle stanovit na podkladě exaktních statistických metod. V praxi jsou u ekonomických neperiodických časových řad voleny většinou klouzavé části menší liché délky, např. 3, 5 nebo 7 časových jednotek, což souvisí se snadnější interpretovatelností výsledků, neboť pak můžeme hodnotu klouzavého průměru -113- Analýza trendu časových řad přiřadit prostřednímu časovému okamžiku klouzavé části. U periodických časových řad se volí délka klouzavých části totožná s délkou periody (sezóny, cyklu). Uvažujme časovou řadu yl,y2, y3,— yn • Prosté klouzavé průměry získáme tak, že úseky časové řady o délce m = 2/7 + 1, přičemž m < n, p > 1, celé číslo, vyrovnáme lineárním trendem s využitím metody nejmenších čtverců. Výsledkem je vzorec pro hodnoty vyrovnané časové řady ve formě aritmetického průměru: - _ i y 1 _ yt-p+ y^-p+i +•••+yt+P-i+ m 1 f i \ 2p + lt=_p 2p + l kde t = p + l,p + 2,...,n-p. Přitom p hodnot na začátku a p hodnot na konci časové řady zůstává nevyrovnáno. Kromě prostých klouzavých průměrů se někdy používají složitější vážené klouzavé průměry, případně centrované klouzavé průměry. Ty získáme tak, že namísto lineárního trendu v každém úseku použijeme polynomický trend vyššího řádu, tj. kvadratickou parabolu, kubickou parabolu apod. Metodou nejmenších čtverců obdržíme poměrně složité vzorce pro výpočet vyrovnaných hodnot. Vzhledem k poměrně řídkému použití těchto složitějších klouzavých průměrů se jimi zde nebudeme dále zabývat. Zájemce odkazujeme na literaturu, např. Seger (1998). 9.10 EXPONENCIÁLNÍ VYROVNÁNÍ Další metodou vyhlazování časové řady, tedy syntetického stanovení trendu, je exponenciální vyrovnání. Při něm se nová vyrovnaná hodnota stanoví na základě exponenciálně váženého průměru současné hodnoty a všech předchozích hodnot časové řady. Přitom se používá systém koeficientů - vah, kdy novější hodnota má vždy větší váhu (tj. důležitost), než hodnota starší. Nechť y, značí pozorovanou hodnotu v časovém okamžiku t, w je váha přiřazená současné hodnotě, 0 < w < 1, ýt je vyrovnaná hodnota v čase t. Metoda exponenciálního vyrovnání začíná tím, že první vyrovnanou hodnotu časové řady ýx (v čase 1) položíme rovnu pozorované hodnotě yx, tedy: $i = Ji • Následující vyrovnané hodnoty definujeme rekurentním vztahem: ýt =Wyt + (1 - W)yt_x, t = 2,3,...n, (9.29) který umožňuje postupně vypočítat všechny vyrovnané hodnoty dané časové řady. Ze vztahu (9.28) lze snadno odvodit vztah: ýt = wyt + w(l - w)yt_\ + w(l - w)2 yt_2 +... + w(l - w)'~2 y2 + (l — w)'~l yt. Z posledního vztahu je vidět, že vyrovnaná hodnota časové řady v čase t závisí na všech předchozích nevyrovnaných hodnotách s tím, že do celkového součtu vstupují starší hodnoty s menší vahou wt_. =w ( i - wy, (9.30) kde i = 0,l,...,ř-2. Vzhledem k tomu, že platí 0 < w < 1, je zřejmé, že se hodnota w,_; exponenciálně zmenšuje s rostoucím i, tj. rostoucím „stářím" dat. Váhu w nazýváme koeficient exponenciálního zapomínání. Ze vztahu (9.30) vyplývá, že čím vyšší je koeficient zapomínání, tím menší je hodnota (1 - w), a tedy také (1 - w)1 , což znamená, že váha význam starších dat klesá, starší data se rychleji zapomínají. Je-li např. w - 0,9, tedy koeficient zapomínání je 90%, potom za jednotku času se vliv hodnoty y(_ř zmenší na -114- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT {\-w)yt_i=Q,\yt_i, což znamená, že se „zapomene" 90% hodnoty. V praxi se používají obvykle váhy z intervalu 0,7 až 1,0. Pro výpočet exponenciálně vyrovnaných hodnot časové řady je ovšem výhodnější rekurentní vztah (9.29). Kromě výše uvedené metody se v praxi využívají i složitější postupy exponenciálního vyrovnání, které se zařazují do skupiny metod, kterým se říká adaptivní metody. Zájemce odkazujeme např. na práce Seger (1998), Cipra (1986). Ř E Š E N Ý PŘÍKLAD 9.1 V následující tabulce jsou uvedeny počty prodaných automobilů v autocentru A+A v letech 2000 až 2007. Pro tuto časovou řadu vypočítejte: Rok 2000 2001 2002 2003 2004 2005 2006 2007 Počet 120 159 167 175 197 172 199 240 a. Trend v prodeji automobilů popište lineární trendovou funkcí. b. Jaký počet prodaných automobilů lze očekávat v roce 2008 s 95% pravděpodobností? (Stanovte bodový odhad a 95%-ní interval spolehlivosti prognózy.) c. Stanovte koeficient determinace a na jeho základě určete přiléhavost dat k trendové funkci. Řešení: a. Podle vztahu (9.2) zavedeme novou časovou proměnnou ť (viz následující tabulka). Rok ť yt ť 1 ytť Ť (y-f f (y-y f 2000 -7 120 49 -840 133,818 190,937 3436,891 2001 -5 159 25 -795 146,620 153,264 385,141 2002 -3 167 9 -501 159,422 57,426 135,141 2003 -1 175 1 -175 172,224 7,706 13,141 2004 1 197 1 197 185,026 143,377 337,641 2005 3 172 9 516 197,828 667,086 43,891 2006 5 199 25 995 210,630 135,257 415,141 2007 7 240 49 1680 223,432 274,499 3766,891 Součet 0 1429 168 1077 1629,552 8533,875 Odhady bo, b\ parametrůfío,(3\ trendové funkce: Tt=f30+f3/,ť = -7,-5,-3,... vypočítáme podle vztahů: 0 n 8 1 1 6 8 Odhadnutá trendová funkce má tvar: Ť = 178,625 + 6,41 ť, ť = -7, -5, -3,... b. Očekávaný prodej v roce 2008 vypočítáme dosazením ť, které odpovídá roku 2008, do rovnice trendu: i = 178,625 + 6,401-9 = 236,32. - 7 7 5 - Analýza trendu časových řad Intervalovou předpověď obdržíme dosazením potřebných hodnot do vztahu (4.8). Ve speciálním případě časové řady, kdy ŕ,- = xt, obdržíme po úpravách následující vztah pro interval spolehlivosti predikce na i časových okamžiků dopředu: [y(n+i) -tx-odn-T)SRJQJÍ) , y(n+i) + tX-odn-2) sR^Qn{i) ], kde y(n + i) = Ť = 236,32 , h-oa(n - 2) = 2,45 , SR | sR n — p a ( o = J ( i - ^ ) f ^ | , ŕ = i . \ (n -l)(n-2) Z tabulky obdržíte SR = 1629,552. Potom směrodatná chyba odhadu sR je 11629,552 . , A O * * = V - 8 = i 1 6 / W K výpočtu Qn(i) je zapotřebí znát hodnotu koeficientu determinace 7?2 , tj. ^ = 1 - ^ = 1 - 1 ^ 5 2 =0,809. Sv 8533,875 Výpočet součtu SY je uveden v tabulce. Potom e»(i)= (1-0,809 ) 8 < 6 4 - " + 1 2 =, Ú l • M - OS 1. V (64-l)f8-2) V 378 Dosazením výše vypočítaných hodnot do obecného vztahu obdržíte levou (L) a pravou (P) mez intervalové předpovědi. L = 236,315 - 2,447-16,48- VÔŠT = 207,52. P = 236,315 + 2,447-16,48- VÔŠT = 265,11. Bodový odhad prodeje v roce 2008 je 236 automobilů. S 95% pravděpodobností by se mělo v roce 2008 prodat mezi 208 a 265 automobily. c. Koeficient determinace byl vypočten v b: R2 = 0,809. Tato hodnota říká, že přiléhavost dat k trendové funkci je „vysoká". Ř E Š E N Ý PŘÍKLAD 9 . 2 V tabulce jsou uvedeny údaje o počtu vyrobených myček nádobí v letech 2004-2012. a. Trend ve výrobě tohoto výrobku popište exponenciální trendovou funkcí. b. Vypočítejte bodovou prognózu výroby na rok 2013, dále zjistěte koeficient determinace a na jeho základě zhodnoťte „přiléhavost" dat k trendové funkci. Rok 2004 2005 2006 2007 2008 2009 2010 2011 2012 Myčky nádobí (tis. ks) 8 9 17 20 38 40 70 101 180 - 776- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Řešení: Nejprve vypočítáte odhady bo, b\ parametrů exponenciální trendové funkce Tt=MLogaritmováním této rovnice obdržíte vztah lnT( =\nfifí+t\nfil. Zavedením substituce Tt'=\nTt, ť = t, se původní rovnice exponenciálního trendu transformuje na rovnici lineárního trendu. Zavedete novou časovou proměnnou ť viz (9.1) a vypočítáte koeficienty b'0,b[ ž > ; _ 31,4886 23,2315 _, Potom 0,3872 bQ=e ,3,4987 : 33,07 & j = e ,0,3872 1,47. Rok t" y y' = lny ť' t" y' T (y-T ý (y- y)2 2004 -4 8 2,0794 16 -8,3178 7,0285 0,8425 2085,7489 2005 -3 9 2,1972 9 -6,5917 10,3519 1,9904 1995,4089 2006 -2 17 2,8332 4 -5,6664 15,2466 2,8771 1344,6889 2007 -1 20 2,9957 1 -2,9957 22,4558 6,2330 1133,6689 2008 0 38 3,6376 0 0 33,0737 24,3049 245,5489 2009 1 40 3,6889 1 3,6889 48,7122 74,1821 186,8689 2010 2 70 4,2485 4 8,4970 71,7452 2,1345 266,6689 2011 3 101 4,6151 9 13,8453 105,6690 16,3831 2240,1289 2012 4 180 5,1930 16 20,7718 155,6333 654,3364 15959,2689 Součet 0 490 31,4886 60 23,2315 783,2839 25458,0001 Hledaná trendová funkce má tvar 7> = 33,07 • 1,47'', t" = -4,-3,-2,.... K bodovému odhadu využijeme nalezenou trendovou funkci, kam dosadíme t" = 5, což je hodnota, která odpovídá netransformované časové hodnotě t = 2013. Koeficient determinace vyžaduje znát hodnotu celkového součtu Sy a reziduálního součtu SR (viz poslední dva sloupce v tabulce). Pro výpočet reziduálního součtu čtverců je dále třeba znát odhady teoretické hodnoty 7>, které obdržíme postupným dosazováním za t" do rovnice trendu, tedy např. pro t" = -4: Ť =33,07-1,47 " 4 = 7,08. Všechny hodnoty Ť i součtů Sy, SR najdete v tabulce. Pro koeficient determinace platí: i ? 2 = l - ^ g - = l - 7 8 3 3 3 9 =0,969. Sy 25458,0001 Hodnota 0,969 říká, že přiléhavost dat k trendové křivce je vysoká. -117- Analýza trendu časových řad ŘEŠENÝ PŘÍKLAD 9.3 V tabulce jsou uvedeny údaje o počtu výrobků určitého typu (v tis. ks) v letech 1999 - 2009. Nalezněte logistickou trendovou funkci, která charakterizuje trend dané časové řady. Prognózujte výrobu pomocí bodového odhadu na rok 2012. Čas 1999 2000 2001 2002 2003 2004 2006 2006 2007 2008 2009 Zjištěné hodnoty 5 6 9 16 22 25 32 34 41 44 45 Řešení: Hledáme odhady parametrů trendové funkce ve tvaru (9.20) K Tyto odhady stanovíte metodou vybraných bodů. Abyste mohli k výpočtu použít vztahy (9.21), (9.22), (9.23), zvolíte opět novou časovou proměnnou ť, viz následující tabulka. Ze všech údajů v časové řadě vyberete tři časové okamžiky, např. na počátku, uprostřed a na konci časové osy: t[ = 0,ř2' = 5,r3' = 10. V těchto okamžicích (jsou vyznačeny tučně) položíte empirické hodnoty rovny hodnotám teoretickým, tedy Tť{ = 5, Tťi = 25,7^ = 45. t 1999 2000 2001 2002 2003 2004 2006 2006 2007 2008 2009 ť 0 1 2 3 4 5 6 7 8 9 10 Zjištěné hodnoty 5 6 9 16 22 25 32 34 41 44 45 Potom ze vztahů (9.22), (9.23) postupně vypočítáte: k = 2T >'J>iT >'3 ~T j(T t[ +r >3 j= 2• 5• 25• 45-252 (5 + 45) = 5 Q 7>7> - 7 7 5-45-25' k-T, 50-5 bQ= ^ = 2 ^ = 9, t Tt[ 5 Odhadovaný logistický trend má tvar Ť 50 '' 1 + 9-0,644'" ŕ Tt;(k-Tt,)^ TAk-Tť) ( 5(50-25) 25(50-5) = 0,644. 50 45 40 35 30 25 20 15 10 5 0 Zjištěné hodnoty ^—Trend 1998 2000 2002 2004 2006 2008 2010 Obr. 9.1. Logistický trend -118- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Rok 2012 odpovídá v transformované časové ose hodnotě t'= 13. Dosazením do rovnice zjištěné trendové funkce obdržíte 7 2 0 0 8 = 1 + 9 • 0,64413 = 4 8 , 5 7 ~ 4 9 ' tj. prognózovaná výroba daného výrobku v roce 2012 je 49 tis. ks. Ř E Š E N Ý PŘÍKLAD 9.4 V následující tabulce jsou uvedeny údaje o spotřebě pitné vody v jednotlivých dnech tří po sobě jdoucích týdnů. a. Stanovte odpovídající interval klouzavého průměru a vyrovnejte tuto řadu prostými klouzavými průměry. b. Vyrovnejte časovou řadu pomocí metody exponenciálního vyrovnání, použijte koeficient zapomínání w = 0,7. Po 0,64 0,75 0,54 Ut 0,78 0,63 0,61 St 0,93 0,82 0,7 Ct 0,66 0,63 0,56 Pá 0,99 1,3 0,79 So 1,22 0,65 1,3 Ne 1,05 1,3 1,24 Řešení: a. Z charakteru dat vyplývá, že pro analyzovanou časovou řadu budou vhodné klouzavé průměry o délce m = 7 pozorování, tj. v rámci týdne. Použijete proto prosté7-členné klouzavé průměry, které vypočítáte podle vztahu (9.28): _ y, + y 2 + ...+ y 7 0,64+0,78 + 0,93+0,66+0,99 + 1,22+1,05 n o n £ y, = ——— — = = 0,896. 1 7 7 Tuto hodnotu přiřadíte prostřednímu časovému okamžiku klouzavé části, tj. ke čtvrté hodnotě dané časové řady. Druhý klouzavý průměr vypočítáte analogicky posunutím o jeden den a přiřadíte jej k páté hodnotě původní časové řady: _ _ y 2 + y 3 + . . . + y 8 _ 0,78 + 0,93 + 0,66 + 0,99 + 1,22 + 1,05 + 0,75 _ y9 u,y 11. 7 7 Ostatní klouzavé průměry vypočítáte obdobně postupným klouzáním směrem ke konci časové řady. Empirické hodnoty jakož i klouzavé průměry ukazuje Obr. 9.2 . b. Exponenciální vyrovnání se provede podle (9.29): 9i = 91= w yt + ( 1 _ w )9t-i>t = 2,3,...n, kde w = 0,7. - 7 7 9 - Analýza trendu časových řad • Spotreba vody - Klouzavé průměry — -A — Exponenciální vyrovnání Po Út St ČI P á So Ne Po Út St ČI Pá So Ne Po Út St ČI P á So Ne Obr. 9.2. Klouzavé průměry a exponenciální vyrovnání Proto: yi •• 0,64, ý2 = 0,7y2 + ( 1 - 0,7)- y, = 0,7-0,78 + 0,3-0,64 = 0,738. Další hodnoty ýt vypočítáme rekurentně, viz následující tabulka. Den Spotřeba vody Klouzavé Exponenciální (m3 /os.) průměry vyrovnání Po 0,64 0,640 Ut 0,78 0,738 St 0,93 0,872 Ct 0,66 0,896 0,724 Pá 0,99 0,911 0,910 So 1,22 0,890 1,127 Ne 1,05 0,874 1,073 Po 0,75 0,870 0,847 Ut 0,63 0,914 0,695 St 0,82 0,833 0,783 Ct 0,63 0,869 0,676 Pá 1,30 0,839 1,113 So 0,65 0,836 0,789 Ne 1,30 0,819 1,147 Po 0,54 0,809 0,722 Ut 0,61 0,736 0,644 St 0,70 0,829 0,683 Ct 0,56 0,820 0,597 Pá 0,79 0,867 0,732 So 1,30 1,130 Ne 1,24 1,207 Je zřejmé, že koeficient zapomínání w = 0,7 ještě nevyhlazuje původní data dostatečně, k většímu vyhlazení by byla zapotřebí menší hodnota koeficientu zapomínání. Zopakujme si získané poznatky této kapitoly: Jediným faktorem vývoje dynamiky analyzovaného ukazatele byl zde čas. Trendová složka představuje nejdůležitější komponentu analyzované časové řady, a proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. K určení trendové složky jsme použili dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Z velkého množství používaných trendových funkcí -120- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT jsme se zaměřili na několik, které mají význam především v ekonomických aplikacích. Byly to: lineární trend, parabolický trend, exponenciální trend, logistický trend a Gompertzův trend. Syntetický přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemuseli jste proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózovaní hodnot časové řady. Z existujících metod syntetického přístupu jsme uvedli metodu klouzavého průměru a jednoduché exponenciální vyrovnání. 9.11 SAMOSTATNÉ ÚKOLY 9.1 V tabulce jsou uvedeny údaje o počtu vyrobených kuchyňských robotů v letech 2001 až 2011. Rok 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Kuchyňské roboty (tis. ks) 5 4 8 16 35 32 40 56 100 120 195 a. Trend ve výrobě tohoto výrobku popište exponenciální trendovou funkcí. b. Jaké množství vyrobených kuchyňských robotů lze očekávat v roce 2014? c. Znaménkovým testem ověřte na hladině významnosti a= 0,05 náhodnost reziduí. 9.2 Následující časová řada představuje počet vyrobených pneumatik Barum v letech 2001 až 2012. Rok 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 Pneumatiky (mil.ks) 0,8 1,6 1,5 2,4 5 3,88 4,47 3,88 6,89 7,69 5,83 8,25 a. Nalezněte lineární trend časové řady. b. Jaké množství vyrobených pneumatik lze očekávat v roce 2013? Stanovte bodový i intervalový odhad na hladině významnosti a= 0,05. 9.12 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 9.1 a) Ť = 29,55-1,47^ = -5-4-3,.... b) v roce 2014, tzn. ŕ = 8; f = 644,31. c) 5 = 5; testové kritérium U = 0; obor přijetí A = (-1,96; 1,96); přijímáme nulovou hypotézu o náhodném uspořádání reziduí 9.2 a) Ť = 4,35+0,32.ŕ, ř =—11,-9,-7,... b) v roce 2013, tzn. t = 13; Ť = 8,5 mil.ks ; 95%-ní intervalový odhad (5,97; 11,05) - 727 - Analýza sezónní složky a náhodné složky 10 ANALÝZA SEZÓNNÍ SLOŽKY A NÁHODNÉ SLOŽKY RYCHLÝ NÁHLED KAPITOLY Při analýze ekonomických časových řad se setkáváme téměř vždy s existencí sezónních vlivů, reprezentovaných v modelu časové řady sezónní složkou. Sezónními vlivy rozumíme soubor příčin, které se pravidelně opakují v důsledku koloběhu přírody. Důsledkem působení sezónních vlivů na analyzovanou časovou řadu jsou pravidelné výkyvy nahoru a dolů vůči určitému normálnímu vývoji. Pokud se u časových řad vyskytují podobné vlivy v delším časovém horizontu, hovoříme o cyklické složce časové řady, v kratším časovém horizontu, hovoříme o sezónní složce časové řady. Souhrnně se sezónní a cyklické složky označují jako periodické složky časové řady. Úkolem modelování periodické složky časové řady je nalézt její vhodné vyjádření, které by umožnilo periodickou (nejčastěji sezónní) složku nejen vhodně identifikovat, ale i následně použít k predikci chování časové řady v budoucnu. V této kapitole se budete zabývat časovými řadami, jejichž hodnoty se periodicky opakují: jedná se o sezónní časové řady. Nejprve si objasníte význam sezónní složky časové řady, poté se věnujete metodě harmonické analýzy, která k modelování časové řady využívá známé matematické periodické funkce sinus a kosinus. Poté se naučíte aplikovat jednoduché metody konstantní sezónnosti se schodovitým a lineárním trendem a rovněž metodu proporcionální sezónnosti. V závěru se budete věnovat analýze náhodné složky. Zmíněné metody si ozřejmíte na konkrétních příkladech řešených s využitím Excelu. 10.1 PERIODICKÁ SLOŽKA ČASOVÝCH ŘAD Při analýze časových řad s periodicitou kratší než jeden rok se setkáváme téměř vždy s existencí sezónních vlivů, reprezentovaných v modelu časové řady sezónní složkou. Sezónními vlivy rozumíme soubor příčin, které se pravidelně opakují v důsledku koloběhu přírody. Důsledkem působení sezónních vlivů na analyzovanou časovou řadu jsou pravidelné výkyvy nahoru a dolů vůči určitému normálnímu vývoji. Pokud se u časových řad vyskytují podobné vlivy v delším časovém horizontu, hovoříme o cyklické složce časové řady. Souhrnně se sezónní a cyklické složky označují jako periodické složky časové řady, takže model časové řady (8.9) můžeme vyjádřit ve tvaru y,= Tt + Pt+ £„ t=\,2,...n, (10.1) kde Pt je periodická složka Pt=St+Ct, St - sezónní složka, Ct - cyklická složka. Úkolem popisu periodické složky časové řady je nalézt její vhodné modelové vyjádření, které by umožnilo periodickou (nejčastěji sezónní) složku nejen vhodně identifikovat, ale i následně použít k predikci chování časové řady v budoucnu. 10.2 HARMONICKÁ ANALÝZA Pro vyjádření periodické složky časových řad se využívají různé modely. Mezi nejčastěji používané modely sezónní složky patří harmonická analýza. Základní ideou tohoto přístupu je vyjádřit periodickou složku jako součet určitého počtu „vln" známých periodických goniometrických křivek - funkcí sinus a kosinus. Jde tedy o následující model periodické složky časové řady: H Pt = ^j(aj sinú)jt + fi.coscOjt), t = 1,2,...n, (10.2) -122- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Výraz (10.2) se nazývá trigonometrický polynom, přičemž jeho část v závorce za znakem 2m sumace je harmonický člen. Přitom je přirozené číslo H < n/2, dále (O = — - se nazývá n frekvence, čas t = \,2,...,n. Harmonický člen v (10.2) je možné vyjádřit také takto: a. sin(ú.t +fy.cos(ú-t = A. sin(ó>y + q>.,), (10.3) přičemž platí: kde Aj se nazývá amplituda, $ je tzv. fázový posuv. Předpokládejme, že máme dánu časovou řadu yt, t = 1,2,...n, kde trend Tt je již stanoven například některým z postupů uvedených v předchozí kapitole. V takovém případě lze identifikovanou trendovou složku od hodnot časové řady odečíst, čímž dostaneme nový model časové řady, avšak s konstantním trendem ju. Model (10.1) pak má tvar: y, = ju + Pt + £t, t= l,2,...n, (10.4) kde periodická složka Pt je dána vztahem (10.2). Metodou nejmenších čtverců se vypočítají bodové odhady m, cij, bj regresních koeficientů ju , a^, f3j takto: • = - 2 > , = y . (10.5)m n 2 11 aj= — V y• sin (OX, (10.6) 2 n bj= - V ytcosú)jt,j= l,2,...,H. (10.7) Přiléhavost modelu (10.2) k datům je dána koeficientem determinace: R ^ ^ f í . (,0.8) var(yř) kde var(JPř)= \'fd{.a)+b2 j), (10.9) var(yř )=-ŽU-y)2 . (10.10) Vyhledávání periodicity v časových řadách lze realizovat následujícími postupy: • Subjektivní odhady zahrnují vizuální odhady z grafů, eventuálně z klouzavých průměrů. Tyto metody přes svoji jednoduchost a subjektivnost neztratily dosud význam, zvláště v situacích, kdy potřebujeme rychlé předběžné informace o chování časové řady. • Objektivní odhady zahrnují některé složitější a také výpočetně náročnější metody a postupy jako autokorelační funkce, spektrální analýza a periodogram. Tyto nástroje slouží k hlubšímu a obecnějšímu zkoumání chování časových řad a jsou obvyklou součástí pokročilých statistických softwarových paketů, jako SPSS, STATISTKA, UNISTAT apod. Zde se budeme podrobněji věnovat periodogramu, který je relativně nejjednodušší. -123- Analýza sezónní složky a náhodné složky Periodogram představuje souhrn všech hodnot rozptylů jednotlivých harmonik periodické složky vyjádřených pomocí amplitud Aj, respektive s využitím vztahu A2 = aj +b2 také pomocí odhadů regresních koeficientů. Podle velikosti jednotlivých rozptylů (pro jednotlivá j = 1,2,...,H) a jejich příspěvků k vysvětlení celkového rozptylu rozhodneme, kterou frekvenci (a tedy periodu neboli „délku vlny") vybereme. Schéma periodogramu je uvedeno v následující tabulce: j Frekvence Cůj = 2nj/n I(ca,) = l/2(ai 2 + bi 2 ) 1 M2{a2 + b2 ) 2 Oh l/2(a2 2 + b2 2 ) H 0)H \l2{aH 2 + bH 2 ) Z ... var(yj) Periodogram se často zobrazuje také graficky v podobě sloupcového grafu. Pokud některá hodnota 7(<2}) z periodogramu, eventuálně několik takových hodnot, značně převyšuje zbývající hodnoty, je intuitivně zřejmé, že odpovídající frekvence identifikují významné harmoniky periodické složky dané časové řady. Exaktní metodou pro rozhodnutí o existenci statisticky významné periodické složky v časové řadě poskytuje Fisherův test. V něm se testuje nulová hypotéza, že yt, t = 1,2,...n, je časová řada nezávislých náhodných veličin, majících normální rozdělení se střední hodnotou 0, proti alternativní hypotéze, že existuje periodická složka ve tvaru (10.2). V testu se postupuje tak, že se nejprve seřadí sestupně hodnoty I(G)j), tak, že největší z nich označíme h, nejmenší IH , pak se tyto hodnoty „normují", tj. položí se: r , = - i r - - ( 1 0 - n ) Testová statistika W má tvar: W = maxYj. (10.12) Nulová hypotéza se zamítá, když hodnota testové statistiky W překročí kritickou hodnotu g . (a), která je tabelována pro různé hodnoty hladiny významnosti a 10.3 MODEL KONSTANTNÍ SEZÓNNOSTI SE SCHODOVITÝM TRENDEM Při popisu trendové složky i periodické složky v předchozí subkapitole jsme používali posloupnost časové proměnné t = 1,2,...n, nyní budeme toto označení používat pro označení časových intervalů (např. roků), které se člení na dalších r dílčích časových období, které nazýváme sezóny (např. měsíce nebo čtvrtletí) a označujeme j = \,2,...,r (např. v případě, že sezóny jsou měsíce je r = 12, v případě že sezóny představují kvartály, platí r = 4). Model (10.1) lze s použitím uvedené symboliky zapsat ve tvaru: ytj=Ttj+Ptj+£tj,t=l,2,...,n, j=\,2,...,r. (10.13) U modelu konstantní sezónnosti se vychází z předpokladu, že: Ptj - yj pro sezónu j v letech t = 1,2,...,n, (10.14) - 7 2 4 - Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT kde yj jsou neznámé sezónní parametry, o nichž dále předpokládáme, že splňují rovnost: 2 > v = ° - ( 1 0 - 1 5 ) Předpoklady (10.14) a (10.15) vycházejí z představy, že v důsledku pravidelného (ročního) koloběhu sezónních vlivů se v 7-té sezóně opakují sezónní výkyvy y1 •, které se mezi léty neliší - podmínka (10.14). Dále se tyto vlivy během roku (r sezón) vykompenzují, takže jejich roční součet je nulový - podmínka (10.15). Nejprve budeme předpokládat, že trendová složka Ttj nabývá ve všech sezónách hodnotu roku t hodnotu at , takže posloupnost těchto hodnot v letech t = 1,2,...,n představuje schodovitý trend. Model (10.13) pak bude mít tvar: ytj = at + yj+etj,t=l,2,...,n, j = l,2,...,r. (10.16) Odhady at,Cj n + r parametrů tohoto modelu získáme metodou nejmenších čtverců: ^ = - ± y t j - - ± ± y t j . (10 -17 ) Všimněte si v prvním vzorci, že odhadem výšky schodu v roce t je průměr hodnot v roce t. Z druhého vzorce pak vyplývá, že hodnota sezónního vlivu q, tzv. j-tého sezónního koeficientu, je představována průměrnou hodnotou vypočítanou z j-tých sezón ve všech letech po odečtení celkového průměru ze všech hodnot v celé časové řadě. Například sezónní koeficient c\ se vypočítá jako průměr ze všech lednových hodnot v časové řadě měsíčních údajů po odečtení celkového průměru ze všech hodnot v celé časové řadě. V tomto příkladu je měsíc leden uvažován jako první sezóna z 12 měsíčních sezón. Konkrétní použití modelu si ukážeme na řešeném příkladu 10.1 v závěru této kapitoly. 10.4 MODEL KONSTANTNÍ SEZÓNNOSTI S LINEÁRNÍM TRENDEM Při popisu trendové složky v předchozím odstavci jsme používali posloupnost časové proměnné t = 1,2,...n, o trendové funkci jsme předpokládali, že je konstantní během všech sezón daného roku t, tj. Ttj = at pro j = 1,2,...,r. Přitom hodnota at mohla být v každém roce jiná a tvořila výšku „schodu" v roce t. Model časové řady bude opět aditivní, tedy ytj =Tt + ľj+£tj,t= \,2,...,n, j=\,2,...,r, (10.18) kde stejně jako v modelu (10.13) jsou y. neznámé sezónní parametry, o nichž dále r předpokládáme, že splňují podmínku ^ y} = 0. Nyní budeme předpokládat, že trendová složka Ttj má lineární tvar, potom model (10.18) bude mít tvar: ytj = a + p(t-t) + yj+etj,t=\,2,...,n, j=\,2,...,r. (10.19) Odhady a,b,Cj z (r +2) parametrů tohoto modelu získáme metodou nejmenších čtverců, řešení má komplikovaný tvar, který zde neuvádíme, zájemce odkazujeme na Segera (1998). - 7 2 5 - Analýza sezónní složky a náhodné složky 10.5 MODEL PROPORCIONÁLNÍ SEZÓNNOSTI Nyní budeme používat t = \,2,...,n, k označení časových intervalů (např. roků), které se člení na dalších r dílčích časových období, které nazýváme sezóny (např. měsíce nebo čtvrtletí) a označujeme j = 1,2,...,r (např. v případě, že sezóny jsou měsíce je r = 12, v případě že sezóny představují kvartály, platí r = 4). Regresní model lze s použitím uvedené symboliky zapsat ve tvaru: ytj =Ttj + Ptj+£tj, t= 1,2,...,«, j = l,2,...,r. (10.20) U modelu proporcionální sezónnosti se vychází z předpokladu, že periodická složka je proporcionální (tj. přímo úměrná) velikosti trendové složky: Ptj - CjTtj pro sezónu j v letech t = 1,2,...,n, (10.21) tedy po dosazení (10.21) do (10.20) obdržíte y^fl + Cj^+e^. (10.22) Aplikací MNC obdržíme q odhad koeficientů Q takto n 1 + ^ = ^ ^ , 7 = 1 , 2 , . . . , / - . (10.23) !=1 Dosazením do (10.22) obdržíte konečnou podobu modelu proporcionální sezónnosti i=\ ny„ =—„ Tt+e, ,1=1,2 n, j = 1,2 r. (10.24) 1 ľ Přitom y. = — V y, je aritmetický průměr yy přes j. V konkrétním případě můžeme uvažovat, že trendová složka má lineární tvar, tedy například Ttj=a + f3(t-t). (10.25) Vzorec (10.24) lze snadno realizovat v Excelu. 10.6 ANALÝZA NÁHODNÉ SLOŽKY Náhodnou složku et lze v modelu (10.20) vyjádřit v tvaru: et= yt-Y„ t= \,2,...n, (10.26) kde Yt = Tt + Pt. Jedná se zde o vyjádření blíže nespecifikovaných náhodných vlivů. Zdrojem této složky jsou obvykle nepodchycené drobné vzájemně nezávislé náhodné vlivy. Chceme-li zajistit spolehlivé předpovědi na základě modelu časové řady, potom je třeba mít zajištěny některé předpoklady o náhodné složce. Konkrétně je výhodné, když jsou splněny předpoklady klasického lineárního regresního modelu, které jsme uvedli v kapitole 3.5. Byly to předpoklady 1. až 3., které pro přehlednost zopakujeme, avšak při současném označení, kdy nezávisle proměnná x je nyní čas t. Jedná se tedy o tyto předpoklady: 1. Hodnoty vysvětlující proměnné t se volí předem, obvykle t = \,2,...,n. 2. Náhodné složky ^ v modelu (10.20) mají normální rozdělení pravděpodobnosti se střední hodnotou 0 a (neznámým) rozptylem o2 . Konstantnost rozptylu nazýváme homoskedasticita. -126- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 3. Náhodné složky jsou nekorelované, tj. Cov(£t, £t) = 0 pro každé t žť, t,ť' = \,2,...,n. (Cov značí kovarianci) Jak již bylo řečeno v kapitole 3.5, v praxi jsou podmínky klasického modelu často splněny. Nejsme-li si však jejich platností jisti, můžeme provést testy hypotéz jak o normalitě rozdělení náhodné složky (např. Chi-kvadrát test dobré shody), tak i testy homoskedasticity (Bartleyův test). Při ověřování těchto předpokladů zjišťujeme, zda jsou všechny systematické složky z časové řady eliminovány. Jakákoliv nenáhodnost u reziduí naznačuje nevhodnost zvoleného modelu časové řady. Jednoduchým nástrojem, kterým lze ověřit náhodnost reziduí, je znaménkový test. Při tomto testu vyčíslíme počet případů, kdy rozdíl sousedních reziduí et - et_{ je kladný, jejich počet označíme S. Přitom je: e=y-Yt, ' (10.27) kde Yt = Tt + Pt je odhad teoretické hodnoty časové řady, Tt je odhad trendu (s regresními koeficienty získanými např. metodou nejmenších čtverců), Pt je odhad periodické složky, např. (10.23), kde parametry «,,/?, jsou rovněž odhadnuty metodou nejmenších čtverců. Náhodné složky e,, které jsou dány (10.26), jsou tedy náhodné veličiny, zatímco rezidua et, (10.27), jsou realizacemi - odhady těchto náhodných veličin. Je-li posloupnost reziduí et n-í náhodně uspořádána, potom pro střední hodnotu Splatí: E(S)= - . Testujeme proto n — 1 n — 1 nulovou hypotézu: HQ:E(S)= - , proti alternativní hypotéze H{: £"(5) ^ —--—. Použijeme testové kritérium: J i \ S—(n-1) 2 _ Vn + 1 12 U= ^ . 2 J -, (10.28) které má již pro n>13 přibližně normované normální rozdělení. Pro stanovení kritických hodnot tedy použijeme kvantily normovaného normálního rozdělení u{_an . Vlastnost časových řad, která často způsobuje porušení předpokladů 1. až 3. je autoregrese náhodných složek, viz též kapitola 6.5, která znamená, že mezi náhodnými složkami platí následující vztah: et=pet_x+ut, (10.29) kde 0 < p < 1 je autokorelační koeficient a ut splňuje předpoklady 1. až 3. Nulovou hypotézu: HQ:p = 0 (což je totéž, jako st=ut) testujeme proti alternativní hypotéze Hl :p *0pomocí testového kritéria: ±{et-etJ D = — . (10.30) £«? Funkce D, nazývaná Durbin-Watsonova statistika, bývá tabelována pro různé hladiny významnosti a, viz např. Gujarati (2003). Test založený na této statistice nazýváme Durbin-Watsonův test autokorelace. -127- Analýza sezónní složky a náhodné složky V této kapitole jste se zabývali časovými řadami, jejichž hodnoty se periodicky opakují, tzv. sezónními časovými řadami. Nejprve jste si objasnili význam sezónní složky časové řady, poté jste se věnovali metodě harmonické analýzy, která k modelování časové řady využívá známé matematické periodické funkce sinus a kosinus. Poté jste se naučili aplikovat jednoduché metody konstantní sezónnosti se schodovitým a lineárním trendem a rovněž metodu proporcionální sezónnosti. Zmíněné metody si ozřejmíme na konkrétních příkladech řešených s využitím Excelu. Ř E Š E N Ý PŘÍKLAD 10.1 Časová řada yt udává počet měsíčně ubytovaných v Penzionu Madonna za období let 2006 a 2007 - celkem 24 hodnot. Harmonickou analýzou modelujte sezónní složku této časové řady. Zvolte j = 2. 1 i 2 3 4 5 6 7 8 9 10 11 12 y. 332 223 267 319 455 507 492 500 350 253 178 401 i 13 14 15 16 17 18 19 20 21 22 23 24 y- 301 213 247 433 399 466 505 455 314 222 184 335 Řešení: Pomocí vztahů (10.1) - (10.7) stanovíme regresní koeficienty m, a2, b2. Všechny potřebné výpočty jsou uvedeny v následující tabulce. V této tabulce jsou také uvedeny teoretické hodnoty Yt a rezidua et. t yt iTVJt sin n iTVJt cos n iTVJt y, sin n 2njt y,cos n Y, et 1 332 0,50 0,87 166,00 287,52 236,32 95,68 2 223 0,87 0,50 193,12 111,50 269,28 -46,28 3 267 1,00 0,00 267,00 0,00 323,33 -56,33 4 319 0,87 -0,50 276,26 -159,50 383,97 -64,97 5 455 0,50 -0,87 227,50 -394,04 434,97 20,03 6 507 0,00 -1,00 0,00 -507,00 462,65 44,35 7 492 -0,50 -0,87 -246,00 -426,08 459,60 32,40 8 500 -0,87 -0,50 -433,01 -250,00 426,64 73,36 9 350 -1,00 0,00 -350,00 0,00 372,59 -22,59 10 253 -0,87 0,50 -219,10 126,50 311,94 -58,94 11 178 -0,50 0,87 -89,00 154,15 260,95 -82,95 12 401 0,00 1,00 0,00 401,00 233,27 167,73 13 301 0,50 0,87 150,50 260,67 236,32 64,68 14 213 0,87 0,50 184,46 106,50 269,28 -56,28 15 247 1,00 0,00 247,00 0,00 323,33 -76,33 16 433 0,87 -0,50 374,99 -216,50 383,97 49,03 17 399 0,50 -0,87 199,50 -345,54 434,97 -35,97 18 466 0,00 -1,00 0,00 -466,00 462,65 3,35 19 505 -0,50 -0,87 -252,50 -437,34 459,60 45,40 20 455 -0,87 -0,50 -394,04 -227,50 426,64 28,36 21 314 -1,00 0,00 -314,00 0,00 372,59 -58,59 22 222 -0,87 0,50 -192,26 111,00 311,94 -89,94 23 184 -0,50 0,87 -92,00 159,35 260,95 -76,95 24 335 0,00 1,00 0,00 335,00 233,27 101,73 Součty 8351 0,00 0,00 -295,57 -1376,32 8351 0,00 -128- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Potom platí: l ^ - i 1 -\ri 8351 _._m = -Ty.=^lly>= — = 347,95. n t=i ( = 1 2 4 2 " . 2 * . 2#f 1 ^ . 2^2ř -295,57 . . „ a9 = —> y, sin y, sin = — > y, sin = = -24,63. 2 nj~t 1 24 jť/ n Uj~t 24 12 , 2 ^ 2#ŕ 2^2ř -1376,32 b2 = - 2 J y , c o s ^ / ^ ^ T Z - y , c o s = T^2^y,cos —r— = = -114,69. n ,=i 241 n 12fľ 2 4 12 Teoretické hodnoty obdržíme dosazením m, ci2, bi do modelu (10.2), např.: 2;r2í 2n2t Y,=m + a7 sin GJí + b7 cos£7,í = 347,95 - 24,63 sin 114,69 cos- 1 1 J 1 J 24 2 4 = 347,95-24,63-0,5-114,69-0,87 = 236,32. Na Obr. 10.1. je znázorněna harmonická analýza pro j = 2, j = 4. Regresní parametry m, «4, &4 vypočítáte analogicky. 600,00 500,00 400,00 300,00 - 200,00 100,00 0,00 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I s t. A No

0, označeny „+", ostatní „-". tli 1 2 3 4 1 — — + 2 — + + — 3 + — — + 4 — + + — 5 - - + + Z tabulky vidíme, že S = 9. Hodnotu testového kritéria vypočítáme podle (10.28): U = S (n-1) 2 9 (20-1) 2 = -0,378 Vn + 1 V20 + 1 V tabulce normovaného normálního rozdělení nalezneme u\-^2 , tj.: « 0 , 9 7 5 = 1,96. 131 Analýza sezónní složky a náhodné složky Protože hodnota testového kritéria -0,378 leží v oboru přijetí A = (-1,96;1,96), lze na zvolené hladině významnosti přijmout nulovou hypotézu, tj. hypotézu o náhodném uspořádání reziduí. 10.7 SAMOSTATNÉ ÚKOLY 10.1 V následující tabulce jsou uvedeny měsíční tržby jedné obchodní organizace za posledních 60 měsíců od ledna 2007 až do prosince 2011. a. Nalezněte model konstantní sezónnosti se schodovým trendem. b. Pro rok 2012 uvažujte s růstem 5% (tj. výška schodu). Prognózujte tržby na rok 2012. 1 2 3 4 5 6 7 8 9 10 11 12 6489 5971 6272 6944 7217 7448 7259 7602 7651 8064 7952 8498 13 14 15 16 17 18 19 20 21 22 23 24 6930 6391 6979 7315 7798 7861 7994 7798 8022 8155 8694 8764 25 26 27 28 29 30 31 32 33 34 35 36 7560 7182 7077 7847 8603 8659 8827 8855 8337 8379 8834 9709 37 38 39 40 41 42 43 44 45 46 47 48 7833 7406 7791 8190 8869 8988 8736 9254 9240 9380 9422 9954 49 50 51 52 53 54 55 56 57 58 59 60 8442 7987 8673 8925 9534 9534 9331 9877 9695 9730 10192 10661 10.2 Použijte data z řešeného příkladu 10.1. Nalezněte pro tuto časovou řadu model konstantní sezónnosti s lineárním trendem. -132- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 10.8 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 10.1 a) al = 7280,6; a2 = 7630,6; a3 = 8322,4; a4 = 8755,3; a5 = 9381,7; a6 = 9850,8 cl =-823,3; c2 =-1286,7; c3=-915,7; c4 =-429,9; c5= 130,1; c6 = 223,9; c7= 155,3; c8 = 403,1; c9 = 314,9; clO = 467,5; c i l = 744,7; cl2= 1243,1 b) leden 2012 9027,51 únor 2012 8564,11 březen 2012 8935,11 duben 2012 9420,91 květen 2012 9980,91 červen 2012 10074,7 červenec 2012 10006,1 srpen 2012 10253,9 září 2012 10165,7 říjen 2012 10318,3 listopad 2012 10595,5 prosinec 2012 11093,9 10.2 Yt = 6782,2 + 49,536.ř + q cl =-569,8; c2 =-1082,7; c3 =-761,3; c4 = -325; c5 = 185,4; c6 = 229,7; c7 = 111,6; c8 = 309,8; c9 = 172,1; clO = 275,2; c i l = 502,8; cl2 = 951,7 leden 2012 9234,1 únor 2012 8770,7 březen 2012 9141,7 duben 2012 9627,5 květen 2012 10187,5 červen 2012 10281,3 červenec 2012 10212,7 srpen 2012 10460,5 září 2012 10372,3 říjen 2012 10524,9 listopad 2012 10802,1 prosinec 2012 11300,5 -133- Stochastické procesy 11 STOCHASTICKÉ PROCESY RYCHLÝ NAHLED KAPITOLY V této kapitole se nejprve zaměříte na obecnější pojetí časové řady s pomocí pojmu stochastický (náhodný) proces. V klasickém pojetí je časová řada posloupnost číselných veličin v čase, v rozšířeném pojetí je to posloupnost náhodných veličin v čase. Speciální důležitou třídu tvoří tzv. stacionární procesy, zbývající procesy jsou nestacionární. Výjimečné místo mezi stacionárními procesy zaujímá bílý šum, mezi nestacionárními je to náhodná procházka. Těmi se budete v této kapitole podrobněji zabývat. S rozšířením pojmu časové řady vzniká i rozšíření klasického deterministického trendu na tzv. stochastický trend. V závěru kapitoly se budete zabývat problémem, jak rozhodnout, zda daná časová řada je nebo není stacionární. K řešení ilustračních příkladů budete používat nejen Excel, nýbrž také speciální statistický SW: SPSS (Statistical Package for Sociál Sciences). 11.1 STOCHASTICKÝ (NÁHODNÝ) PROCES V kapitole 8 jste se o časové řadě dozvěděli, že časovou řadou rozumíme věcně a prostorově srovnatelná pozorování uspořádaná v čase směrem od minulosti přes přítomnost k budoucnosti. Tato definice časové řady jako posloupnost čísel {yt}, kde t představuje časový index, nám doposud vystačila, avšak pro další rozvoj metod analýzy časových řad se ukázalo vhodné definici časové řady rozšířit. V tomto rozšíření je každá hodnota časové řady pojímána jako realizace nějaké náhodné veličiny. Jinak řečeno, v konkrétním čase t je hodnotou časové řady náhodná veličina Yt, přičemž se realizovala konkrétní hodnota časové řady yt. Kdyby však bylo možné čas vrátit zpět do t, pak by se mohla realizovat jiná hodnota, řekněme zt. V čase t by bylo možné realizovat různé hodnoty s různou pravděpodobností, neboli s jistým rozdělením pravděpodobnosti. Náhodná veličina Y, přestavuje jednak množinu hodnot, které se mohou nabývat, jednak rozdělení pravděpodobnosti, s níž se hodnoty mohou nabývat. Stochastický proces je pak posloupnost náhodných veličin { Yt }, kde t představuje časový index. Ačkoliv časový index může být intervalem reálných čísel (tzv. spojitý čas), v ekonomických aplikacích vystačíme zpravidla s tzv. diskrétním časem, konkrétně t =1,2,3,... Stejně tak lze uvažovat, že dvě nebo více sousedních hodnot časové řady v čase spolu buď nesouvisejí - nejsou vzájemně korelovány, nebo naopak souvisejí - jsou vzájemně korelovány. Budeme-li nadále hovořit o časové řadě, budeme tím mít na mysli stochastický proces ve výše zmíněném smyslu. Příklad 1. Uvažujte jednoduchý stochastický proces „hod kostkou v čase": pro t =1,2,3,... je Y, náhodná veličina nabývající hodnoty 1,2,3,4,5,6 se stejnou pravděpodobností p = Vé. Výsledky hodů kostkou v jednotlivých časech jsou vzájemně nezávislé nekorelované. Grafické zobrazení takové „časové řady", tj. konkrétních realizací takových náhodných veličin, je na Obr. 11.1. -134- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 7 , 6 * -f- -f 5 4 A A / T r^V r \ I —7 co • A 7 W \ 1t / — \ T17 \ / 2 •i \/ \l V/x/ T J \ i 1 n u Q Obr. 11.1 Stochastický proces „Hod kostkou v čase " V každém časovém intervalu se realizuje diskrétní náhodná veličina Y,, která má střední hodnotu p =2 1 /6 = 3,5 a rozptyl a2 =1 8 '5 /6 = 2,9167. 11.2 STACIONÁRNÍ A NESTACIONÁRNI PROCES Typem stochastického procesu, který si získal velkou pozornost analytiků časových řad je tzv. stacionární stochastický proces. Stručně a poněkud nepřesně řečeno, stochastický proces (časová řada) se nazývá stacionární, jestliže střední hodnota a rozptyl náhodných veličin jsou konstantní v čase a také hodnota kovariance mezi dvěma veličinami vzdálenými v čase závisí pouze na jejich vzdálenosti v čase a nikoliv na konkrétním časovém okamžiku, v němž se kovariance zjišťuje. V odborné literatuře se takovýto typ stacionarity nazývá též slabá stacionarita, zde vystačíme s jednoduchým stacionarita. K přesnější definici stacionarity použijeme známou symboliku ze statistiky. Uvažujte stochastický proces - časovou řadu {Yt}, nechť je střední hodnota konstantní, tj. E(Yt) = jd pro všechna t, (11-1) rozptyl je konstantní, tj. Var(Yt) = E(Yt- /u)2 = o2 pro všechna t, (11.2) kovariance nezávisí na čase t, tj. Cov(Yt,Yt+k) = E[(Yt-fi)(Yt+k-fi)] = yk pro všechna t, (11.3) kde Var značí rozptyl (z angl. „Variance"), Cov označuje kovarianci („Covariance", E je operátor střední hodnoty („£xpected value"). Potom se stochastický proces {Y,} nazývá stacionární. V (11.3) se jedná o kovarianci mezi dvěma hodnotami Y, které jsou od sebe vzdáleny o k časových jednotek - tzv. posuv (angl. lag). Jestliže posuv k = 0, obdržíme yo, která se v tom případě rovná rozptylu, tj. yo = a2 . Jestliže je posuv k=l, obdržíme kovarianci yu která je v tom případě kovarianci sousedních hodnot. Důležitou roli hraje tzv. autokorelační funkce (ACF) stochastického procesu, která je definována jako normovaná kovarianční funkce, tedy Y pk = — pro k =1,2,... To (11.4) V případě stacionárního procesu má ACF následující vlastnosti: (a) Po = 1, (b) -l* 0. M A 1 *t -1,0 ' U U U U C o n f i d e n c e L i m i t s • C o e f f i c i e n t 1 3 5 T 9 1 1 1 3 15 2 4 6 8 10 12 14 16 Lag Number Obr. 11.3 Korelogram - ACF (výstup z programu SPSS) Proč jsou stacionární stochastické procesy důležité? Je to proto, že když je časová řada nestacionární, můžeme její chování analyzovat pouze v časovém intervalu, kde máme k dispozici data. Pro analýzu mimo tento časový interval, např. pro prognózovaní, nemá daná časová řada praktický význam. Jak poznáme, že časová řada je stacionární? K tomuto problému se vrátíme na konci této kapitoly, kdy se seznámíte se statistickým testem, kterým lze stacionaritu zjišťovat (tj. testovat). Na tomto místě uvedeme příklad nestacionární časové řady. Příklad 2. Uvažujte stochastický proces „hod kostkou závislý na čase": pro t =1,2,3,... je Y, náhodná veličina nabývající hodnoty 1-ř, 2-t, 3-t, 4-t, 5-t, 6-t se stejnou pravděpodobností p = VÓ, přitom t je časový okamžik. Výsledky hodů kostkou v jednotlivých časech jsou vzájemně nezávislé - nekorelované. Grafické zobrazení takové „časové řady", tj. konkrétních realizací takových náhodných veličin, je na Obr. 11.4. -136- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT 160 -r Obr. 11.4 Stochastický proces „Hod kostkou závislý na čase " Příklad 3. Uvažujte stochastický proces „Čtvrtletní HDP České republiky". Data v následující tabulce byla převzata z českého statistického úřadu, viz www.czso.cz . Je zřejmé, že se jedná o stochastický proces - časovou řadu v širším pojetí, kdy konečná hodnota za každé čtvrtletí je realizací náhodné veličiny (s neznámým rozdělením pravděpodobnosti), která může nabývat různých hodnot z číselného intervalu v závislosti na konkrétních ekonomických podmínkách závislých na mnoha faktorech. Grafické znázornění je na obr. 11.5. Q 1.95 II.95 III.95 IV.95 I.96 II.96 III. 96 IV.96 I.97 II.97 III.97 IV.97 HDP Q 332995 366618 376688 390221 382859 423953 432152 444324 415593 455790 461902 477809 Q 1.98 II.98 II.98 IV.98 I.99 II.99 II.99 IV.99 I.00 II.00 III.00 IV.00 HDP Q 457925 512225 512408 513925 481895 532968 529465 536469 504479 558691 557780 568219 Q 1.01 11.01 111.01 IV.01 I.02 II.02 III. 02 IV.02 I.03 II.03 III.03 IV.03 HDP Q 540124 598842 599262 613986 576665 630141 621004 636622 598385 660401 650791 667533 Q I.04 II.04 III.04 IV.04 I.05 II.05 III.05 IV.05 I.06 II.06 III. 06 IV.06 HDP Q 650448 715163 712103 737048 696387 759740 753836 777759 745496 817867 821754 846459 Q I.07 II.07 III.07 HDP Q 820689 900606 900022 Tab. 11.1 Čtvrtletní HDP ČR 1995 - 2007 Kva-tálníHDPCR Obr. 11.5 Stochastický proces „Čtvrtletní HDP České republiky' -137- Stochastické procesy 11.3 BÍLÝ ŠUM A NÁHODNÁ PROCHÁZKA V této části se budeme věnovat dvěma speciálním typům stochastického procesu. První z nich je nejjednodušší stochastický proces nazývaný bílý šum. Setkali jste se s ním již v kapitolách o regresní analýze v souvislosti s klasickým jednoduchým lineárním regresním modelem, kde jsme jej nazývali náhodná porucha. O té jsme předpokládali, že splňuje jisté podmínky: • má nulovou střední hodnotu, • má konstantní rozptyl o , • veličiny poruchy jsou vzájemně nekorelované, tj. Cov(Yt ,Yt+k) = 0 pro vš. t a k ž 0. Poslední podmínka vlastně říká, že autokorelační funkce je identicky nulová (pro k > 0). Tyto podmínky zároveň zaručují, že posloupnost poruch tvoří speciální stacionární stochastický proces, konkrétně podmínky (11.1) - (11.3), který nazýváme bílý šum (angl. white noise). Můžeme tedy říci, že daná data vyhovují jistému klasickému regresnímu modelu, jestliže se od něj odlišují o bílý šum. Ještě jinak, můžeme říci, že jistý regresní model je vhodným modelem pro daná data, jestliže je jeho odchylka od dat bílým šumem, v opačném případě není vhodným modelem. Totéž platí o modelech časových řad, které jsou speciálními jednoduchými regresními modely, kde nezávislou proměnnou je čas. Bílý šum je tedy výjimečným stacionárním stochastickým procesem (časovou řadou v širším pojetí), který hraje významnou roli při analýze a modelování časových řad. Na druhou stranu podobnou roli u nestacionárních stochastických procesů sehrává tzv. náhodná procházka (angl. random walk). Její název je odvozen od představy, která spočívá v tom, že další krok vzniká přičtením náhodně zvolené veličiny (bílého šumu) ke kroku předchozímu. Říká se, že ceny akcií nebo kurzy měn se řídí náhodnou procházkou jsou nestacionární. Rozlišujeme dva typu náhodné procházky: (1) náhodná procházka bez posuvu a (2) náhodná procházka s posuvem. Uvažujme nyní bílý šum ut s nulovou střední hodnotou a rozptylem o2 . Časová řada {YT] daná předpisem YT=YTA + uT, (11.5) je podle naší definice náhodná procházka. Podle modelu (11.5) se hodnota časové řady v čase t rovná hodnotě v čase (t-l) plus náhodná chyba. Podle příznivců hypotézy eficientního kapitálového trhu jsou ceny akcií v zásadě náhodné, chovají se podle modelu (11.5), a není proto důvodů pro spekulaci o jejich cenách: kdybychom totiž uměli predikovat zítřejší cenu akcie na základě ceny dnešní, byli bychom všichni milionáři. Rovnici (11.5) můžeme rozepsat takto: Fi = Y0 + Mi, Y2 = Y\ + U2 = YQ + U\ + «2, Y3 = Y2 + UT, = YQ + U\ + «2 + «3 YT = YTA + uT=Y0 + HUL Aplikujete-li operátor střední hodnoty E, obdržíte díky vlastnostem střední hodnoty E(YT) = E(Y0 + Zud = YQ. (Víte proč?) (11.6) Podobně lze odvodit, že v tomto případě (nyní díky vlastnostem rozptylu Var) platí Var{YT) = to2 . ' ' (11.7) Jak vyplývá z předchozích vztahů, střední hodnota časové řady je rovna YQ, COŽ je konstanta (obvykle je rovna nule, tj. YQ = 0), avšak rozptyl se přímo úměrně zvětšuje s rostoucím t, není -138- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT tedy konstantní, a proto časová řada není stacionární. Můžete dále vztah (11.5) zapsat také takto Yt-Yn =AYt = ut, (11.8) kde AYt značí první diferenci časové řady (viz kap. 8). Vztah (11.8) nám tedy dává důležitou informaci: přestože časová řada - náhodná procházka {Yt} je nestacionární časová řada, její první diference AYt je stacionární, neboť je to vlastně bílý šum ut. Modifikujme nyní vztah (11.5) následovně: Yt= S + Yt.\ + ut, (11.9) kde ô je tzv. parametr posuvu neboli drift. Podobně jako v případě, kdy bylo 5=0, aplikujeme operátor střední hodnoty E a obdržíme (díky vlastnostem střední hodnoty) E(Yt)=Y0+tS ' ' (11.10) a analogicky lze odvodit, že stejně jako v předchozím případě platí Var(Yt) = ta2 . V tomto případě, na rozdíl od případu bez driftu (tj. ô = 0), je nejen rozptyl, ale též střední hodnota rostoucí nebo klesající v závislosti na tom, zda je ô kladné nebo záporné číslo. Náhodná procházka s posuvem je proto rovněž nestacionární časová řada. V závěru této subkapitoly uvedeme příklad náhodné procházky bez driftu a s driftem. Ř E Š E N Ý PŘÍKLAD 11.1 Pomocí funkce NÁHČÍSLO() vExcelu simulujte bílý šum ut pro t = 1,2,...,30 s rozptylem a2 = 1. Přitom funkce NAHČISLO() generuje spojitou náhodnou veličinu se stejnoměrným rozdělením a s hodnotami v intervalu [0,1]. S generovanými hodnotami bílého šumu pak vytvořte náhodnou procházku a. bez driftu, b. s driftem 8=2. Simulace časových řad zobrazte graficky. Řešení: Nejprve si uvědomte, že funkce NAHCISLO() v Excelu simuluje náhodnou veličinu X se stejnoměrným rozdělením pravděpodobnosti a s hodnotami v intervalu [0,1], přitom střední hodnota E(X) = 0,5 a rozptyl Var(X) = l /í2. Abyste obdrželi požadovaný bílý šum se střední hodnotou E(X) = 0 a rozptylem Var(X) = 1, hodnoty generované funkcí NAHCISLO() transformovat na hodnoty bílého šumu, tj. musíte od každé simulované hodnoty nejprve odečíst střední hodnotu 0,5 a poté výsledek násobit Vl2 = 3,464 (aby byl výsledný rozptyl roven požadované hodnotě 1). Pro spojitou náhodnou veličinu X se stejnoměrným rozdělením pravděpodobnosti, která nabývá hodnoty v intervalu [a,b] totiž platí, viz [Statika A]: E(X) = (b-a)/2 a Var(X) = (b-a)2 l\2. V následující tabulce z Excelu je ve. sloupci A hodnota časového indexu t, ve sloupci B jsou generovány hodnoty funkce NAHCISLO(), ve sloupci C je hodnota z 2. sloupce transformována na hodnotu bílého šumu ut pomocí vzorce =odmocnina(12)*(B3-0,5), atd. Ve sloupci D se uloží kumulované hodnoty bílého šumu ut a vypočítá se hodnota náhodné procházky Yt pomocí vzorce =D2+C3, atd., přitom 70=0 a dále v je buňce C2 uložena hodnota u\. V dalších buňkách C4, C5,... jsou následně uloženy postupně kumulované součty hodnot bílého šumu. V buňce D2, D3,... jsou uloženy aktuální hodnoty bílého šumu. -139- Stochastické procesy Ve sloupci E se kumulací hodnot bílého šumu ut a driftu ô • procházky Yt+\ a to tak, že v buňce E3 je uložen vzorec =2+E2+C3, atd., přitom je v buňce E2 uložena hodnota u\+2. Průběhy časových řad jsou zobrazeny spojnicovými grafy. 2 vypočítá hodnota náhodné A B C D E 1 t NAHCISLO Ut Y, Y.+2 2 1 0,02388619 -1,649307 -1,649307 0,350693 3 2 0,09182492 -1,41396 -3,063267 0,936733 4 3 0,49199476 -0,027731 -3,090998 2,909002 5 4 0,99972311 1,731092 -1,359906 6,640094 6 5 0,16421835 -1,163182 -2,523088 7,476912 7 6 0,08807177 -1,426961 -3,950049 8,049951 8 7 0,79755234 1,030752 -2,919297 11,0807 9 8 0,97280984 1,637861 -1,281436 14,71856 10 9 0,1767674 -1,119711 -2,401147 15,59885 11 10 0,24392359 -0,887075 -3,288221 16,71178 12 11 0,78491179 0,986963 -2,301258 19,69874 13 12 0,83005406 1,143341 -1,157917 22,84208 14 13 0,17227059 -1,135288 -2,293205 23,70679 15 14 0,08082969 -1,452049 -3,745254 24,25475 16 15 0,03972789 -1,594429 -5,339683 24,66032 17 16 0,37897088 -0,419257 -5,75894 26,24106 18 17 0,08436329 -1,439808 -7,198748 26,80125 19 18 0,74316992 0,842365 -6,356383 29,64362 20 19 0,8830687 1,326989 -5,029394 32,97061 21 20 0,82902386 1,139772 -3,889622 36,11038 22 21 0,05462249 -1,542833 -5,432455 36,56755 23 22 0,65885022 0,550273 -4,882181 39,11782 24 23 0,77936355 0,967744 -3,914438 42,08556 25 24 0,3407385 -0,551698 -4,466136 43,53386 26 25 0,60415156 0,360792 -4,105344 45,89466 27 26 0,58379199 0,290264 -3,81508 48,18492 28 27 0,63250072 0,458996 -3,356084 50,64392 29 28 0,00089919 -1,728936 -5,08502 50,91498 30 29 0,04228401 -1,585575 -6,670595 51,32941 31 30 0,48263301 -0,060161 -6,730756 53,26924 Tab.11.2 Hodnoty náhodné procházky Obr. 11.6 Náhodná procházka bez driftu a s driftem 8=2 11.4 DETERMINISTICKÝ A STOCHASTICKÝ TREND Rozdíl mezi stacionárním a nestacionárním procesem - časovou řadou spočívá zejména v tom, že příslušný trend časové řady (viz kap. 9) je buď deterministický nebo stochastický. Zhruba řečeno, je-li trend časové řady plně předvídatelný a neměnný, říkáme, že je deterministický, není-li předvídatelný, řekneme, že je stochastický. Pro účely formálního zpřesnění této definice uvažujte následující model časové řady Y, = fa + fa t + faYt-x + ut, (11.11) kde ut je bílý šum, t je časový index. Rozebereme následující možnosti: Náhodná procházka: Ve vztahu (11.11) uvažujte fa = 0, fa = 0, fa = 1, potom obdržíte Yt = Yt-i + ut, což je náhodná procházka bez driftu (11.5), která je nestacionární časovou řadou, jejíž první diference je podle (11.8) stacionární, neboť první diference je bílý šum. Proto se taková časová řada nazývá diferenčně stacionární. Náhodná procházka s driftem: Ve vztahu (11.11) uvažujte fa ŕ 0, fa = 0, fa = 1, potom obdržíte Yt = fa + Yt-i + ut, -140- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT což je náhodná procházka s driftem (11.9), která je nestacionární časovou řadou. Pro první diferenci je pak ÁYt = j31 + ut, (11.12) což představuje stochastický trend, který je buď pozitivní {j3\ > 0), nebo je negativní {j3\ < 0). První diference je podle (11.12) též stacionární, i když to obecně není bílý šum. Deterministický trend: Ve vztahu (11.11) uvažujte fy ŕ 0, j3i ŕ 0, /3? = 0, potom obdržíte Yt = /31+/32t + ut, w (11.13) což je nestacionární časová řada, kterou nazýváme trendově stacionární. Časová řada (11.13) je nestacionární proto, že její střední hodnota není konstantní v čase, neboť z (11.13) vyplývá E(Yt) =/31+/32t, (11.14) " a dále po dosazení z (11.13) a (11.14) obdržíte Var(Yt) = E{Yt - E{Yt)f = E{utf = a2 . Náhodná procházka s driftem a deterministickým trendem: Ve vztahu (11.11) uvažujte fi\ ž 0, fh. * 0, /3? = 1, potom obdržíte Yt = Pv +/32t+Yt.l+ ut, (11.15) což po diferenciaci dává AYt = j31+fat + ut, (11.16) a to je nestacionární časová řada. Příklad 4. Uvažujte stochastický proces Y, = 0,5t + ut, kde ut je bílý šum, který při simulaci pro t = 1,2,...,100 generuje časovou řadu s deterministickým trendem, viz Obr. 11.7 (fialová křivka), a stochastický proces Yt = 0,5 + Yt-i + ut, který při simulaci generuje časovou řadu stochastickým trendem, viz Obr. 11.7 (žlutá křivka). -141 - Stochastické procesy Jak je zřejmé, v případě deterministického trendu tvoří odchylky od lineárního trendu Yt = 0,5t pouze bílý šum, zatímco v případě stochastického trendu ovlivňuje bílý šum dlouhodobý průběh časové řady. 11.5 JAK POZNÁME, ŽE Č Ř JE STACIONÁRNÍ? Možná si kladete otázku, jak poznat stacionární, resp. nestacionární časovou řadu (ČR)? Přirozený návod nám dávají vlastnosti (11.1) - (11.3). Pokud alespoň jedna z těchto 3 podmínek není u časové řady splněna, potom je daná časová řada nestacionární. Zejména splnění prvních dvou podmínek: konstantní střední hodnoty ČR v čase a konstantní rozptyl ČR v čase, lze často odhadnout jednoduše grafickou metodou, tj. posouzením spojnicového grafu, viz Příklady 1 a 2. V některých případech však může být toto posouzení obtížné, zejména nemáme-li k dispozici dostatečně dlouhý časový úsek ČR a tehdy může pomoci třetí podmínka: analýza autokorelační funkce, resp. korelogramu. Všimněme si nejprve, jak vypadá korelogram nejjednodušších ČR: bílého šumu a náhodné procházky. Z definice bílého šumu v subkapitole 11.3 přímo plyne, že korelační funkce pt je nulová pro k ž 0. Z toho plyne, že v korelogramu, tj. sloupcovém grafu, který zobrazuje hodnoty autokorelací pro posuvy k = 1,2,... pomocí výšky sloupců, mají všechny sloupce nulovou výšku. V konkrétní ČR je třeba tento fakt ověřit statistickým testem hodnoty výběrového autokorelačního koeficientu, který z dané časové řady vypočteme podle vztahů Á = ^ pro £=1,2,..., (11.17) To kde „ ^(Yt-Y)(Yt+k-Y) 7k=— : ,resp. (11.18) n — k Y(Y-Y)2 f o - , • (11-19) n-l je výběrový autokovarianční koeficient řádu k, resp. výběrový rozptyl ČR. Hodnoty výběrové autokorelační funkce budou zcela jistě nenulové, statistickým testem zjistíme, zda jsou tyto hodnoty statisticky významné, tj. zda nulovou hypotézu: pk = 0 zamítneme, či nikoliv. Pokud nulovou hypotézu nezamítnete pro všechna k = 1, 2,..., pak je původní ČR bílý šum. V opačném případě ČR není bílý šum (může však být přesto stacionární ČR, jak uvidíme v následující kapitole). Ř E Š E N Ý P Ř Í K L A D 11.2 V následující tabulce je uvedena časová řada Y, pro t = 1,2,...,30. Sestrojte korelogram a na jeho základě rozhodněte, zda se jedná o bílý šum. Použijte program SPSS. t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y, -0,437 -0,360 1,014 0,210 -1,723 1,509 1,152 0,858 -1,157 1,462 1,701 1,557 0,089 -0,752 1,506 t 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Y, -0,145 -1,604 1,576 -1,511 -0,362 -0,255 1,239 0,469 0,376 0,534 -1,240 0,364 0,599 1,289 -0,723 Tab. 11.3. Hodnoty časové řady -142- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Řešení: Data z tabulky Tab. 11.3. zapíšeme v SPSS (v. 15) do jediného sloupce editoru Data View. V záhlaví ji nazveme Yt. V hlavním menu vybereme postupně položky: Analyze -> Time Series->Autocorelations... Proměnnou Yt vložíme do Variables, v Options... nastavíme Maximum number of Lags: 15, Continue a potvrdíme OK. Obdržíme následující výstup, který je požadovaným korelogramem. Coefficient - Upper Confidence Limit - Lower Confidence Limit 7 8 Lag Number Lag Coeff 1 0,247 2 0,263 3 0,117 4 -0,105 5 -0,004 6 -0,216 7 -0,166 8 -0,076 9 -0,012 10 0,073 11 0,12 12 0,023 13 -0,088 14 -0,145 15 -0,13 Poloha čar, které stanovují horní a dolní konfidenční meze (Upper/Lower Confidence Limit) vymezuje pás, v němž všechny hodnoty autokorelační funkce ACF jsou statisticky nevýznamné (tedy s 95%-ní pravděpodobností nulové). Nyní se podíváme na korelogram náhodné procházky (NP), tedy nestacionární ČR. Poměrně snadno se dá dokázat, že pro autokorelační funkci platí vztah (Arit, 1999) (11.20) Již ze vztahu (11.20) je zřejmé, že autokorelační funkce závisí nejen na posuvu k, nýbrž také na konkrétním časovém indexu t. NP tedy nesplňuje také 3. podmínku stacionarity, tj. (11.3). Navíc je vidět, že pro ŕ—>+°° konverguje pt k hodnotě 1, tj. Pk—»1. Z (11.20) je vidět, že u NP je pro k = 1,2,... hodnota autokorelační funkce blízká l a s rostoucím &tato hodnota pomalu klesá. Ř E Š E N Ý PŘÍKLAD 11.3 VTab. 11.3. jsou hodnoty časové řady, o níž jste v Řešeném příkladu 11-2 rozhodli, že se jedná o bílý šum. Vytvořte z této ČR náhodnou procházku a s pomocí programu SPSS zobrazte její korelogram. Řešení: Z bílého šumu vytvoříme náhodnou procházku postupnou kumulací jeho hodnot. Data si takto připravíme v Excelu do následující tabulky -143- Stochastické procesy t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y, -0,437 -0,797 0,217 0,426 -1,296 0,213 1,365 2,224 1,067 2,529 4,230 5,786 5,875 5,123 6,629 t 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Y, 6,483 4,880 6,456 4,945 4,583 4,328 5,567 6,036 6,412 6,946 5,706 6,070 6,669 7,958 7,235 Tab. 11.4. Příprava dat v Excelu Data z tabulky zapíšeme v SPSS (v. 15) do jediného sloupce editoru Data View. V záhlaví ji nazveme NPt. V hlavním menu vybereme postupně položky: Analyze -> Time Series->Autocorelations... Proměnnou NPt vložíme do Variables, v Options... nastavíme Maximum number of Lags: 15, Continue a potvrdíme OK. Obdržíme následující výstup, který je požadovaným korelogmem. N P t i,o- 0,5- LL _ i - i - i—i i,o- 0,5- LL _ L-0,5- -i,oT 1 1 1 1 1 1 1 1 1 1 1 1 1 í~ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Lag N u m b e r Z korelogramu je vidět, že dochází k pozvolnému poklesu hodnot autokorelační funkce ACF, což potvrzuje fakt, že se jedná o časovou řadu, která je náhodnou procházkou. Shrňme tedy poznatky z této kapitoly: Nejprve jsme se zaměřili na obecnější pojetí časové řady s pomocí pojmu stochastický (náhodný) proces. V klasickém pojetí je časová řada posloupnost číselných veličin v čase, v rozšířeném pojetí je to posloupnost náhodných veličin v čase. Speciální důležitou třídu tvoří stacionární procesy, zbývající procesy jsou nestacionární. Výjimečné místo mezi stacionárními procesy zaujímá bílý šum, mezi nestacionárními je to náhodná procházka. Oběma jsme se v této kapitole podrobněji zabývali. S rozšířením pojmu časové řady vzniká také rozšíření klasického deterministického trendu na stochastický trend. V závěru kapitoly jsme se zabývali problémem, jak rozhodnout, zda daná časová řada je nebo není stacionární. K řešení ilustračních příkladů jsme využili nejen Excel, ale také speciální statistický SW: SPSS. 11.6 SAMOSTATNÉ ÚKOLY 11.1 V následující tabulce je uvedena časová řada Ut pro t = 1,2,...,30. a. Sestrojte a zobrazte korelogram ČR a na jeho základě potvrďte, že se jedná o bílý šum. b. Vytvořte z této ČR kumulací hodnot náhodnou procházku a s pomocí programu SPSS zobrazte její korelogram. -144- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 u, 1,657 0,835 -0,516 -1,656 -1,702 -1,260 -0,037 0,423 -1,634 -1,508 0,511 0,547 0,353 -0,331 -0,716 t 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 u, 1,416 0,545 -0,997 0,990 0,931 0,188 -0,641 -0,295 -1,483 -0,380 -0,279 1,301 -0,065 0,813 -0,845 11.7 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 11.1 a. Jak je vidět z korelogramu, první hodnota autokorelační funkce vybočuje z 95%ního intervalu, v němž jsou hodnoty statisticky nevýznamné. Zadaná ČR je proto bílým šumem „s nižší spolehlivostí". ut I Coefficient Upper Confidence Limit Lower Confidence Limit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Lag Number b. Z bílého šumu se vytvoří NP postupnou kumulací jeho hodnot v Excelu do následující tabulky: t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 v, 1,657 2,492 1,976 0,321 -1,381 -2,641 -2,678 -2,256 -3,889 -5,397 -4,886 -4,339 -3,986 -4,317 -5,033 t 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 v, -3,377 -2,831 -3,828 -2,838 -1,908 -1,719 -2,361 -2,656 -4,140 -4,520 -4,798 -3,498 -3,562 -2,750 -3,594 Korelogram potvrzuje, i když ne příliš přesvědčivě, že ČŘ Vt z kumulovaných hodnot Ut má charakter náhodné procházky. vt | Coefficient Upper Confidence Limit Lower Confidence Limit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 L a g N u m b e r - 7 4 5 - Modely typu ARIMA a prognózovaní časových řad 12 MODELY TYPU ARIMA A PROGNÓZOVANÍ ČASOVÝCH ŘAD RÝCHLY N A H L E D K A P I T O L Y Tato kapitola bezprostředně navazuje na kapitolu předchozí a to zejména v tom, že o vyšetřovaných časových řadách (v širším smyslu) budeme předpokládat, že jsou buď stacionární, nebo je lze na stacionární ČR převést (několikerým) diferencováním. Nejprve se budete zabývat časovými řadami typu ARIMA. Box-Jenkinsova metodologie, která se modely analýzy časových řad typu ARIMA zabývá, klade důraz nikoliv na konstrukci jednorovnicového nebo vícerovnicového modelu, jak je tomu např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČR. Postupně se seznámíte s vlastnostmi autoregresivních procesů AR, procesů pohyblivých průměrů M A , integračních procesů I, jakož i procesů vzniklých jejich kombinací: ARIMA. Dále lze tyto procesy rozšířit též na sezónní procesy. Úkolem pak je pro konkrétní proces - časovou řadu nalézt vhodný konkrétní proces (model) typu ARIMA a nalezený model použít pro účely prognózy (predikce, extrapolace) hodnot dané časové řady. Celý postup tvorby prognózy ČR autoři metody ARIMA formulovali ve 4 krocích, které nazýváme Box-Jenkinsova metodologie prognózovaní ČR. Jednotlivé kroky jsou (1) Identifikace modelu, (2) Odhad modelu, (3) Verifikace modelu a (4) Prognóza pomocí modelu. Jednotlivé kroky Box-Jenkinsovy metodologie budou ilustrovány na příkladu časové řady čtvrtletního HDP České republiky s pomocí statistického programu SPSS. K řešení ilustračních příkladů budete používat nejen Excel, nýbrž také speciální statistický SW: SPSS (Statistical Package for Sociál Sciences). 12.1 Ú V O D Tuto kapitolu lze obtížně studovat izolovaně, neboť bezprostředně navazuje na kapitolu předchozí, se kterou je úzce propojena jak tematicky, tak použitými příklady. Ke zvládnutí látky kapitoly je podstatnou měrou využit statistický program SPSS, který je dostupný ve všech PC učebnách na SU OPF. SPSS je typem SW, který je do značné míry intuitivní a uživatelsky přátelský. Řešení příkladů uvedených v této kapitole, jež SPSS verzi 11.5 využívají, jsou podrobně komentována postupným procházením vložených menu, např. takto: Analýze -> Time Series -> Autocorrelations..., což znamená, že nejprve zvolíte položku hlavního menu Analýze, potom Time Series, konečně Autocorrelations... Jednotlivé prvky, které jsou součástmi SPSS, jsou odlišeny jiným fontem písma (Arial), zatímco ostatní text je psán fontem Times New Roman. Přesto před studiem této kapitoly naléhavě doporučujeme seznámit se podrobněji s hlavními funkcemi a způsobem ovládání programu SPSS, ať již starší verze 11.5, nebo nejnovější verze 20, která je již také na některých počítačových učebnách k dispozici. K tomu účelu může velmi dobře posloužit položka Tutoriál, kterou naleznete pod položkou hlavního menu Help. Na tomto místě zmíníme pouze jedinou informaci avšak prvořadé důležitosti: Přenos číselných dat mezi worksheetem v Excelu a Data View v SPSS funguje naprosto bezproblémově, a to na obě strany tak, jak jste zvyklí z MS Office: pomocí kombinace kláves Ctrl+C (kopírovat do schránky), Ctrl+V (vložit ze schránky). Prognózovaní (předvídání, předpovídání) je důležitou součástí ekonomických (ekonometrických) analýz, dá se říci, že z určitého pohledu nej důležitější. Jak prognózovat -746- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT budoucí hodnoty ekonomických veličin, jako jsou HDP, inflace, kurzy měn, ceny akcií, míra nezaměstnanosti a dalších? Jednu klasikou metodu již znáte: lineární, (resp. nelineární) regresní analýza, s níž jste se seznámili již v kapitolách 3 a 4. V této kapitole se dozvíte o nové metodě, která se stala v posledních letech velmi populární: tzv. modely autoregresivních a integrovaných procesů a klouzavých průměrů - ARIMA (z angl. Auto Regresive Integrated Moving Average), která je známa také pod názvem Box-Jenkinsova metodologie (podle autorů metody G.P.E. Boxe a G.M. Jenkinse ze 70. let 20. století). Téma ekonomického prognózovaní je velmi široké a existuje k němu množství specializovaných knih a dalších publikací. My zde chceme podat pouze stručný vhled do problematiky. Naštěstí k problematice prognózovaní ekonomických ČR existuje nejen vhodná literatura, její přehled lze nalézt např. u Arita (1999), u Gujaratho (2003) aj., ale též příslušný specializovaný SW v podobě programových balíků jakými jsou SPSS (v současnosti je k dispozici na všech PC učebnách SU OPF), STATISTKA, SAS a další. V této kapitole budeme využívat konkrétně program SPSS, který obsahuje modul Time Series, umožňující modelování pomocí metody ARIMA. Tato kapitola bezprostředně navazuje na kapitolu předchozí a to zejména v tom, že o níže vyšetřovaných časových řadách (v širším smyslu) budeme předpokládat, že jsou buď stacionární, nebo je lze na stacionární ČR převést (několikerým) diferencováním. Přitom zde využijeme pojmy zavedené v předchozí kapitole a přidáme ještě pojmy další, které se nám budou pro prognózovaní ČR hodit. Jak jsme již dříve zmínili, k analýze ČR existuje řada různých metod a přístupů. Kromě již zmíněné (1) jednoduché regresní analýzy a (2) metody ARIMA, které jsou předmětem tohoto textu, je zapotřebí ještě jmenovat (3) metody exponenciálního vyrovnání (HoltovaWintersova metoda a jejich varianty), (4) metody simultánních rovnic a (5) vektorové autoregresivní metody VAR, (6) metody ARCH a GARCH a další. S nimi se zájemci mohou blíže seznámit např. v Seger (1998). 12.2 MODELOVÁNÍ ČASOVÝCH ŘAD POMOCÍ A R I M A Podle svých autorů známa jako Box-Jenkinsova metodologie, avšak technicky nazývaná ARIMA metodologie klade důraz nikoliv na konstrukci jednorovnicového nebo vícerovnicového modelu, jak je tomu např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČR podle filosofie „ať data hovoří sama za sebe". V regresních modelech je závisle proměnná Y vysvětlována několika vysvětlujícími proměnnými - regresory, zatímco v ARIMA metodách je závisle proměnná Y v čase t vysvětlována hodnotami téže Y v minulých časových okamžicích a zároveň chybovými členy v současných anebo minulých okamžicích. Na rozdíl od regresních modelů a modelů simultánních rovnic, které jsou založeny na ekonomické teorii, nejsou modely ARIMA na teorii přímo závislé. Teoretické závislosti jsou u nich vyjádřeny zprostředkovaně skrze sledované hodnoty v minulých časových okamžicích. Příklad 1. Uvažujte stochastický proces Yt „Čtvrtletní HDP České republiky" z kapitoly 11, viz www.czso.cz. Z ČR vypočítáme novou ČR indexu růstu It podle vztahu It = - ^ - proř = 5,6,...,30. (12.1) Hodnoty indexu růstu čtvrtletního HDP jsou uvedeny v níže uvedené tabulce. Je zřejmé, že se jedná o stochastický proces - časovou řadu v širším pojetí, kdy konečná hodnota za každé čtvrtletí je realizací náhodné veličiny (s neznámým rozdělením pravděpodobnosti), která může nabývat různých hodnot z číselného intervalu v závislosti na -147- Modely typu ARIMA a prognózovaní časových řad konkrétních ekonomických podmínkách závislých na mnoha faktorech. Grafické znázornění je na Obr. 12.1. Q 1.95 II.95 111.95 IV.95 1.96 II.96 III.96 IV.96 1.97 II.97 III.97 IV.97 1 HDP Q 1,150 1,156 1,147 1,139 1,085 1,075 1,069 1,075 Q 1.98 II.98 III.98 IV.98 1.99 II.99 III.99 IV.99 1.00 II.00 III.00 IV.00 1 HDP Q 1,102 1,124 1,109 1,076 1,052 1,040 1,033 1,044 1,047 1,048 1,053 1,059 Q 1.01 11.01 111.01 IV.01 1.02 II.02 III.02 IV.02 1.03 II.03 III.03 IV.03 1 HDP Q 1,071 1,072 1,074 1,081 1,068 1,052 1,036 1,037 1,038 1,048 1,048 1,049 Q I.04 II.04 III.04 IV.04 1.05 II.05 III.05 IV.05 1.06 II.06 III.06 IV.06 1 HDP Q 1,087 1,083 1,094 1,104 1,071 1,062 1,059 1,055 1,071 1,077 1,090 1,088 Q I.07 II.07 III.07 1 HDP Q 1,101 1,101 1,095 Tab. 12.1 Index růstu I, čtvrtletního HDP ČR Čtvrtletní HDP ČR index růstu 1,2 0,95 \ m m m m m m , m , m m m r-l 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 Obr. 12.1 Časová řada indexu růstu I, čtvrtletního HDP ČR 12.3 AUTOREGRESIVNÍ PROCES (AR) Uvažujte ČR indexu růstu It z Tab. 12.1., který budeme pro konzistenci skap. 11 označovat Y,. Budeme předpokládat, že Yt se chová podle vztahu (Yt -ju) = 1 nebo 1 je složitější problém, kterým se zde zabývat nebudeme. Eventuální zájemce odkazujeme na literaturu, např. knihu Arit (1999). -148- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Všimněte si, že kromě hodnot Y v různých časových okamžicích se ve výše uvedených modelech nevyskytují jiné regresory. V tomto smyslu říkáme, že „data hovoří sama za sebe". 12.4 PROCES KLOUZAVÝCH PRŮMĚRŮ (MA) Výše uvedený A R proces není jediný, kterým lze generovat hodnoty Y. Nyní budeme předpokládat, že Y, se chová podle vztahu (Yt-ju) =ut-Olun, _ (12.5) kde ju je střední hodnota Yt a ut je bílý šum. V tom případě říkáme, že ČR Yt je proces klouzavých průměrů 1. řádu, neboli MA(1). Podle modelu (12.5) je prognóza Y-ju v čase t je přímo úměrná náhodné chybě v čase (í-1) prostřednictvím koeficientu úměry -9\ plus/mínus náhodná chyba (bílý šum). Podobně proces klouzavých průměrů 2. řádu, neboli MA(2) má tvar (Yt -jU) = ut- 0\ut.\ - &iu,.2, (12.6) Analogicky proces klouzavých průměrů q-tého řádu, neboli MA(q) má tvar (Yt -jU) = Ut- 0\Ut-\ - OlUt-l - ... - OqUt-q. (12.7) Jednoduše řečeno, proces klouzavých průměrů je lineární kombinací minulých náhodných chyb bílého šumu. Na rozdíl od A R procesů jsou procesy MA(q) pro všechna q > 1 stacionární nezávisle na hodnotách koeficientů 12.5 AUTOREGRESIVNÍ PROCES KLOUZAVÝCH PRŮMĚRŮ (ARMA) Časová řada, která má charakteristiky jak A R tak M A procesů, je A R M A proces. Konkrétně A R M A proces 1. řádu, tj. ARMA(1,1) má tvar Yt=S+ Time Series -> ARIMA v SPSS). Využívá se přitom tvarů ACF a PACF (viz další subkapitola). Krok 2. Odhad modelu: Odhad parametrů modelu - výpočet koeficientů modelu (p\ a Oj (v SPSS je použita metoda maximální věrohodnosti, což je obdoba metody nejmenších čtverců - MNČ). Diferencování modelu (J-krát) vede ke stacionarizaci ČŘ. Krok 3. Verifikace modelu: Výpočet Rezidua - rozdílu mezi modelovými hodnotami a příslušnými hodnotami z dat. (V SPSS jsou to hodnoty proměnné ERR). Model je správný, pokud reziduum je bílý šum, jinak je třeba přejít na Krok 1 - k nové identifikaci a přehodnocení modelu. Tento krok do značné míry závisí na zkušenostech analytika - nejde o přísně exaktní postup (např. hodnocení tvarů ACF a PACF, resp. statistické významnosti hodnot ACF a PACF na hladině spolehlivosti 95%). -150- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Krok 4. Prognózovaní: Výpočet modelem prognózovaných hodnot v zadaném časovém horizontu prognózy a intervalů spolehlivosti prognózy. (V SPSS jsou to hodnoty proměnné FIT, 95%UCL a 95%LCL). Aplikaci jednotlivých kroků s využitím SPSS si ukážeme na konkrétním příkladu v závěru této kapitoly. Ještě předtím se seznámíte s dalšími nástroji a metodami, které se využívají v prvním kroku pří identifikaci modelu ČR. 12.9 PROGNÓZOVANÍ POMOCÍ A R I M A MODELŮ Významným nástrojem ke stanovení typu modelu (AR, M A , I, ARMA, ARJMA) je autokorelační funkce p\, k = 1,2,..., (ACF) a korelogram, resp. výběrová autokorelační funkce pk, k = 1,2,..., a výběrový korelogram, s kterými jste se seznámili v subkapitolách 11.2. a 11.5. Korelace mezi 2 náhodnými veličinami je často způsobena tím, že obě tyto veličiny jsou korelovány s veličinou třetí, velká část korelace mezi veličinami Yt a Yt.k může být zapříčiněna jejích korelací s mezilehlými veličinami Yt.\, YT_2,„„Yt_k+\. Pojem parciální autokorelace zachycuje korelaci mezi veličinami Yt a Yt.k očištěnou o vliv veličin mezi nimi. Parciální autokorelační koeficient p\k, k = 0,1,2,..., (2 indexy kk) je analogií k pojmu parciální regresní koeficient. Uvažujte fc-násobnou lineární regresi Yt s regresory Yt.\, YT.2„„,Yt.k: Yt = pki Yt_i+ pk2 Yt.2+...+pkk Yt-k + et. (12.10) Regresní koeficient pkk je ve (12.10) právě parciální autokorelační koeficient. Vztahu (12.10) se také využívá k výpočtu výběrového parciálního autokorelačního koeficientu pa , viz Arit (1999). Důležitou roli hraje tzv. parciální autokorelační funkce (PACF) stochastického procesu Pkk pro k =0,1,2,... PACF má následující vlastnosti: Poo = 1, -1 0. Výpočet PACF bývá dnes samozřejmou součástí statistických softwarových programů, např. SPSS. 12.10 IDENTIFIKACE PROCESŮ A R I M A POMOCÍ A C F A P A C F Při identifikaci typu procesu ARIMA a jeho řádů využíváme charakteristických tvarů ACF a PACF. Různé typy procesů ARIMA mají charakteristické tvary korelogramů a parciálních korelogramů. V SPSS využíváme nabídku: Analyze —> Time Series —> Autocorrelations... Jednotlivé typy procesů mají následující charakteristiky: a. Proces AR(p): Prvních p hodnot PACF je „velkých", další = 0 a „rychlý" pokles (v absolutních hodnotách) ACF. - 757 - Modely typu ARIMA a prognózovaní časových řad Příklad korelogramů AR(1): I I I . . . . innnnnr - Upper Confidence Lir - Lower Confidence Li Proces MA(q): Prvních q hodnot A C F je „velkých", další (v absolutních hodnotách) PACF. Příklad korelogramů MA(1): 0 a „rychlý" pokles MA1 U|>f"rl - Confidence Limit Lowei - Confidence Limit L a g N u m b e r XV} Proces l(d): „Pomalý" pokles ACF, prvních d hodnot PACF je „velkých", další = 0. Příklad korelogramů 1(1): „Náhodná procházka" Lag Number •ľ •:•ťffidťiit - Upper Confidem - Lower Confiden 2 3 1 5 B J B 3 ID 11 12 12 Lag Number Proces ARMA(p,q): Prvních q hodnot ACF je „velkých", další = 0 a prvních p hodnot PACF je „velkých", další = 0. - 7 5 2 - Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Příklad korelogramů ARMA(1,1): ARMA11 ARMA11 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 3 7 8 9 10 11 12 13 14 15 1E Lag Number Lag Number Ř E Š E N Ý PŘÍKLAD 12.1 Uvažujte ještě naposledy časovou řadu „Čtvrtletní HDP České republiky" z Příkladu 3 v kap. 11, viz www.czso.cz . Hodnoty časové řady jsou uvedeny v následující tabulce Tab. 12.2 a zobrazeny v grafu na Obr. 12.2: Q 1.95 II.95 III.95 IV.95 I.96 II.96 III.96 IV.96 I.97 11.97 III.97 IV.97 HDP Q 332995 366618 376688 390221 382859 423953 432152 444324 415593 455790 461902 477809 Q 1.98 II.98 III.98 IV.98 I.99 II.99 III.99 IV.99 I.00 11.00 III.00 IV.00 HDP Q 457925 512225 512408 513925 481895 532968 529465 536469 504479 558691 557780 568219 Q 1.01 11.01 111.01 IV.01 I.02 II.02 III.02 IV.02 I.03 II.03 III.03 IV.03 HDP Q 540124 598842 599262 613986 576665 630141 621004 636622 598385 660401 650791 667533 Q I.04 II.04 III.04 IV.04 I.05 II.05 III.05 IV.05 I.06 II.06 III.06 IV.06 HDP Q 650448 715163 712103 737048 696387 759740 753836 777759 745496 817867 821754 846459 Q I.07 II.07 III.07 HDP Q 820689 900606 900022 Tab. 12.2 HDP ČR v letech 1995 - 2007 Kvartálni HDP ČR 1 000 000 900000 800000 700000 600000 500000 400000 300000 200000 100000 Obr. 12.2 HDP CR CR v letech 1995 - 2007: grafické znázornení Nalezněte vhodný ARIMA model této časové řady a pomocí něj prognózujte čtvrtletní hodnoty HDP až do konce roku 2009. -153- Modely typu ARIMA a prognózovaní časových řad Řešení: K řešení využijeme Box-Jenkinsovu metodologii prognózovaní ČR formulovanou ve 4 krocích popsaných v subkapitole 12.3. Použijeme k tomu statistický program SPSS. Zde v Data View do proměnné nazvané HDP_Q uložíme 51 hodnot kvartálního HDP. V menu: Data - » Define Data ->Years, Quaters vytvoříme hodnoty časové osy (počínaje rok - čtvrtletí): Year: 1995 Quarter: 1 Krok 1: Identifikace modelu procesu ARIMA. Z prostého pohledu na spojnicový graf na Obr. 12.2. lze usoudit, že se jedná o nestacionární časovou řadu, zároveň vykazuje sezónní složku se 4 sezónami. Tento předpoklad potvrdíme analýzou korelogramu ACF a PACF. V menu: Analýze -> Time Serieš -> Autocorrelations... vložíme proměnnou HDP_Q a ve výstupu Output obdržíme korelogramy: HDP_0 HDP_Q ' 1—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i 1 1 — i — i — i — i — i — i — i — i — i — i — i — i — i — i — i I 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 3 9 10 11 12 13 14 15 16 Lag Number Lag Number V korelogramu hodnoty ACF pomalu klesají, v PACF je „velká" první hodnota, ostatní jsou statisticky nevýznamné, tedy nulové, neboť se nacházejí v pásu 95% spolehlivosti. Z toho vyvozujeme, že se jedná o nestacionaritu 1. řádu, tj. typu 1(1). Stacionarizujeme proto ČR jedním diferencováním a zobrazíme korelogramy této ČR: V menu: Analyze -> Time Series -> Autocorrelations..., dále zvolíme Seasonally difference: 1 , obdržíme korelogramy: Coefficient - Upper Confident - Lower Confidenc, Z tvarů kolerogramů je zřejmé, že stacionarizovaný proces je typu AR(1), srovnejte s příkladem v subkapitole 12.4.1. Celkovým výsledkem kroku identifikace je, že naše časová řada je ARI(1,1) proces se sezónní složkou (se 4 sezónami) řádu 1. - 7 5 4 - Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Krok 2: Odhad parametrů modelu - výpočet koeficientů modelu provedeme v programu SPSS v menu: Analyze -» Time Series -» ARIMA..., vložíme proměnnou Dependent: HDP_Q, Independent: QUARTER_, dále zvolíme: Autoregressive: p = 1, Seasonal sp = 1 Difference: d = 1, Seasonal sd = 1 Moving Average: q = 0, Seasonal sq = 0 Potvrdíme OK a v Output obdržíme vypočítané parametry: Parameter Estimates Estimates Std Error t Approx Sig Non-Seasonal Lags AR1 0,168 0,136 1,235 0,223 Seasonal Lags Seasonal A R 1 0,947 0,044 21,726 0,000 Regression Coefficients Q U A R T E R , period 4 12614,393 6130,4 2,058 0,045 Constant 14435,108 13570,9 1,064 0,293 Melard's algorithm w a s used for estimation. Dále zobrazíme v jednom grafu hodnoty ČR (modrá křivka) a hodnoty modelu ČR (zelená křivka). Použijeme k tomu menu: Analyze -» Time Series -» Sequence Charts..., vložíme proměnné: Variables: H D P Q , Fit for HDP_Q, Time Axis Labels: QUARTER., potvrdíme OK. Ve výstupu Output obdržíme graf: 1 ooo oooV Data View se vytvořilo 5 nových proměnných: FIT, ERR, LCL, UCL, SEP. Krok 3: Verifikace modelu - spočívá v ověření předpokladu, že reziduum tj. odchylka modelu od dat, je bílý šum. V SPSS jsou to hodnoty proměnné ERR. Model je správný, pokud reziduum je bílý šum. V menu: Analýze -> Time Series -> Autocorrelations... vložíme proměnnou ERR , potvrdíme OK a ve výstupu Output obdržíme korelogramy: - 7 5 5 - Modely typu ARIMA a prognózovaní časových řad Error for HDP_Q from ARIMA, MOD_41, CON Error for HDP_0 from ARIMA, MOD_41, CON • Cos1Meiert Upper Conlidenee Limit 1 Lower Conliderice Limit 0,5- LL n ľ! r - i nm • Cos1Meiert Upper Conlidenee Limit 1 Lower Conliderice Limit 0,5- LL - - CL -0,5- -1,0- CL -0,5- -1,0- J L|u u u U —i—i—i—i—i—i— Výše uvedené korelogramy potvrzují, že ACF i PACF jsou nulové, proto Reziduum ERR je bílý šum (i když u obou korelogramů v jednom případě hodnota mírně přesahuje pás 95% spolehlivosti). Krok 4: Prognózu vytvoříme v prognózovaném časovém období 2007_IV až 2009_IV pomocí verifikovaného modelu. V menu: Analyze - » Time Series - » ARIMA..., ponecháme proměnnou Dependent: HDP_Q, Independent: QUARTER_, a také hodnoty řádů: p = 1, d = \, q = 0, sp = 1, sd = 1, sq = 0. Navíc klikneme na tlačítko SAVE a ve vloženém okně klikneme Predict trough a vyplníme konec prognózovaného intervalu: Year: 2009 Quarter: 4 Potvrdíme CONTINUE a OK. V Data View se vytvořilo 5 nových proměnných: FIT, ERR, LCL, UCL, SEP s hodnotami také v časovém intervalu predikce (kromě proměnné ERR). Obdržíte mimo jiné hodnoty predikce čtvrtletního HDP ČR: Q HDP Q IV.07 923892 1.08 898085 11.08 975193 111.08 976058 IV.08 1000094 1.09 974413 11.09 1048887 111.09 1051130 IV.09 1075325 Nakonec zobrazíme ČŘ od roku 2005 do konce roku 2009 včetně 95% intervalu spolehlivosti prognózy. V SPSS nejprve vybereme zobrazovaný časový interval. V menu: Data -»Select Cases... klikneme tlačítka Based on time or case range a Range, pak vybereme zobrazovaný interval (od - rok, čtvrtletí do - rok čtvrtletí): Year: 2005 Year: 2009 Quarter: 1 Quarter: 4 Poté v menu: Analyze - » Time Series - » Sequence Charts..., vložíme proměnné - 756- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT Variables: H D P Q , Fit for H D P Q , Time Axis Labels: QUARTER., potvrdíme OK. Ve výstupu Output obdržíme po mírné editaci graf: H D P Q Fit f o r H D P Q f r o m A R I M A , M O D _ 4 8 , C O N 9 5 % L C L f o r H D P Q f r o m A R I M A , M O D _ 4 8 , C O N 9 5 % U C L f o r H D P Q f r o m A R I M A , M O D _ 4 8 , C O N Q1 2DD5 Q3 2DD5 Q1 2 Q3 2DD6 Q1 2DD7 Q3 2DD7 Q1 2008 Q3 2008 Q1 2009 Q3 2 Date Všechny zadané úkoly jsou tímto vyřešeny. Můžeme tedy shrnout: Tato závěrečná kapitola 12 bezprostředně navázala na předchozí kapitolu 11. Nejprve jste se seznámili s časovými řadami (procesy) typu ARIMA. Box-Jenkinsova metodologie, která se touto problematikou zabývá, klade důraz nikoliv na konstrukci jednorovnicového nebo vícerovnicového modelu, jak tomu bylo např. v regresní analýze, nýbrž na analýzu vlastních stochastických vlastností ekonomických ČR. Postupně jste se seznámili s vlastnostmi autoregresivních procesů AR, procesů pohyblivých průměrů MA, integračních procesů I, jakož i procesů vzniklých jejich kombinací ARIMA. Dále byly tyto procesy rozšířeny též na sezónní procesy. Úkolem pak bylo pro konkrétní proces časovou řadu nalézt vhodný konkrétní proces (model) typu ARIMA a nalezený model použít pro účely prognózy (predikce, extrapolace) hodnot dané časové řady. Celý postup tvorby prognózy ČR autoři metody ARIMA formulovali ve 4 krocích, které nazýváme BoxJenkinsova metodologie prognózovaní ČR. Jednotlivé kroky jsou (1) Identifikace modelu, (2) Odhad modelu, (3) Verifikace modelu a (4) Prognóza pomocí modelu. Jednotlivé kroky Box-Jenkinsovy metodologie byly ilustrovány na příkladu konkrétní časové řady čtvrtletního HDP České republiky s pomocí statistického programu SPSS. 12.11 SAMOSTATNÉ ÚKOLY 12.1 Uvažujte časovou řadu „Čtvrtletní HDP USA" vletech 1970 - 1991. Hodnoty časové řady jsou uvedeny v následující tabulce. Najděte vhodný ARIMA model této časové řady a pomocí něj prognózujte čtvrtletní hodnoty HDP až do konce roku 1994 (chybějící hodnoty v tabulce). Použijte přitom 4 kroky Box-Jenkinsovy metodologie. - 7 5 7 - Modely typu ARIMA a prognózovaní časových řad Q. Rok HDP Q Q.Rok HDP Q Q. Rok HDP Q Q. Rok HDP Q Q. Rok HDP Q 1.70 2872,8 I.75 3154 I.80 3830,8 I.85 4221,8 I.90 4880,8 11.70 2860,3 II.75 3190,4 II.80 3732,6 II.85 4254,8 II.90 4900,3 111.70 2896,6 III.75 3249,9 111.80 3733,5 III.85 4309 III.90 4903,3 IV.70 2873,7 IV.75 3292,5 IV.80 3808,5 IV .85 4333,5 IV.90 4855,1 1.71 2942,9 I.76 3356,7 1.81 3860,5 I.86 4390,5 1.91 4824 11.71 2947,4 II.76 3369,2 11.81 3844,4 II.86 4387,7 11.91 4840,7 111.71 2966 III.76 3381 111.81 3864,5 III.86 4412,6 111.91 4862,7 IV.71 2980,8 IV.76 3416,3 IV.81 3803,1 IV .86 4427,1 IV.91 4868 I.72 3037,3 I.77 3466,4 I.82 3756,1 I.87 4460 I.92 II.72 3089,7 II.77 3525 II.82 3771,1 II.87 4515,3 II.92 III.72 3125,8 III.77 3574,4 111.82 3754,4 III.87 4559,3 III. 92 IV.72 3175,5 IV.77 3567,2 IV.82 3759,6 IV .87 4625,5 IV.92 I.73 3253,3 I.78 3591,8 I.83 3783,5 I.88 4655,3 I.93 11.73 3267,6 II.78 3707 II.83 3886,5 II.88 4704,8 II.93 111.73 3264,3 III.78 3735,6 III.83 3944,4 III.88 4734,5 III.93 IV.73 3289,1 IV.78 3779,6 IV.83 4012,1 IV .88 4779,7 IV.93 1.74 3259,4 I.79 3780,8 I.84 4089,5 I.89 4809,8 I.94 11.74 3267,6 II.79 3784,3 II.84 4144 II.89 4832,4 II.94 111.74 3239,1 III.79 3807,5 111.84 4166,4 III.89 4845,6 III. 94 IV.74 3226,4 IV.79 3814,6 IV.84 4194,2 IV .89 4859,7 IV.94 -158- Jaroslav Rámů, a Radmila Stoklasová; STATISTICKÉ ZPRACOVANÍ DAT 12.12 ŘEŠENÍ ÚKOLŮ, VÝSLEDKY 12.1 a) Identifikace modelu HDP 8 -1,0 lni Confidence Limits 1 3 5 7 9 11 13 15 2 4 6 8 10 12 14 16 Lag Number Transforms: difference (1) Vybíráme model ARIMA (1; 1; 0). b) Odhad parametrů modelu FINAL PARAMETERS: Number of residuals 87 Standard error 34,260641 Log likelihood -429,95729 AIC 863,91457 SBC 868,84639 HDP 9 -5 L. l i Confidence Limits 1 3 5 7 9 11 13 15 2 4 6 8 10 12 14 16 Lag Number T r a n s f o r m s : difference (1) Variables in the Model: B SEB T-RATIO APPROX. PROB. AR1 ,317328 ,1028097 3,0865560 ,00273359 CONSTANT 22,652801 5,3519931 4,2325916 ,00005813 Koeficient AR1 = 0,32 je statisticky významný na hladině významnosti 0,05 (protože hodnota 0,0027 je menší než 0,05). - 7 5 9 - Modely typu ARIMA a prognózovaní časových řad c) Verifikace modelu Error for HDP from ARIMA, MOD_! Error for HDP from ARIMA, MOD_ Confidence Limits 1 3 5 7 9 11 1 3 1 5 2 4 6 8 1 0 1 2 1 4 1 6 Confidence Limits 1 3 5 7 9 11 1 3 1 5 2 4 6 8 10 12 1 4 16 Lag Number Lag Number Korelogramy potvrzují, že ACF i PACF jsou nulové, proto Reziduum ERR je bílý šum (i když u obou korelogramů ve dvou případech hodnota mírně přesahuje pás 95% spolehlivosti). d) Prognóza do 4.čtvrtletí 1994 Bodový odhad Intervalový odhad (95%) Ql 1992 4885,1 4816,6 4953,6 Q2 1992 4906 4792,1 5019,9 Q3 1992 4928,2 4777,3 5079 Q4 1992 4950,6 4768,4 5132,8 Ql 1993 4973,2 4763,4 5182,9 Q2 1993 4995,8 4761,2 5230,5 Q3 1993 5018,5 4760,8 5276,2 Q4 1993 5041,1 4761,9 5320,3 Ql 1994 5063,8 4764,3 5363,3 Q2 1994 5086,5 4767,5 5405,4 Q3 1994 5109,1 4771,5 5446,7 Q4 1994 5131,8 4776,2 5487,3 6 0 0 0 -160- Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT ZÁVĚR Tento text představuje studijní oporu pro studium všech akreditovaných studijních programů v navazujícím magisterském studiu na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné. Předmět Statistické zpracování dat navazuje na předmět Statistika (dříve Kvantitativní metody B) obsahující základní bakalářský kurz statistiky na SU OPF, nebo na obdobný ekvivalentní předmět základů statistiky v bakalářském stupni studia na jiné VŠ ekonomického zaměření v ČR. Tento text je inovací předchozí studijní opory s názvem Statistika pro navazující magisterské studium, specializované pro studenty distanční a kombinované formy studia. Inovací studijních oborů na SU OPF v rámci projektu OPVK vznikl také předmět Statistické zpracování dat. V tomto předmětu je kladen důraz především na uplatnění statistických metod při zpracování ekonomických dat v aplikovaných ekonomických disciplínách, jako jsou zejména marketing a management. Samotný učební text, nebo jak se říká v moderní terminologii: studijní opora umožňující studentovi plnohodnotné a zároveň samostatné studium - je rozčleněn do 12 tematických kapitol. Jednotlivé kapitoly odpovídají obvyklým výukovým týdnům jednoho semestru a jsou přibližně stejně obsahově rozsáhlé a obtížné. Takový rozsah učiva odpovídá klasické dvouhodinové přednášce v prezenčním studiu na vysoké škole ekonomického zaměření. V prezenčním studiu je ovšem na rozdíl od kombinované formy studia přednáška doplněna seminářem, kde se probraná látka aplikuje na konkrétní číselné příklady, které se řeší až k požadovanému výsledku pomocí počítače. Vysokoškolské studium v případě předmětu Statistické zpracování dat vyžaduje enormní úsilí studenta zaměřené na pravidelnost a vytrvalost ve studiu i samostudiu, schopnost koncentrace na předmět, aktivní přístup spočívající na samostatném řešení příkladů. V tom všem by tato studijní opora měla studentům kombinované formy studia pomoci nahradit kvalitní prezenční výuku i úlohu učebnic a skript. Pro lepší zvládnutí látky jsou vám v elektronické verzi kurzu Statistické zpracování dat k dispozici ještě doplňkové materiály v elektronické podobě. Dalšími podpůrnými zdroji ke studiu mohou být klasické učebnice a skripta a další doporučená literatura. - 767 - Jaroslav Ramík a Radmila Stoklasové; STATISTICKÉ ZPRACOVÁNÍ DAT SEZNAM DOPORUČENÉ LITERATURY ANDĚLJiří, 2007. Statistické metody. 4. upr. vyd. Praha: Marfyzpress, 299 s. ISBN 80-7378- 003-8. ARLT, Josef, 1999. Moderní metody modelování ekonomických časových řad. l.vyd. Praha: Grada Publishing, 307 s. ISBN 80-716-9539-4. CIPRA,Tomáš, 1986. Analýza časových řad s aplikacemi v ekonomii, l.vyd. Praha: Státní nakladatelství technické literatury, 246 s. GUJARATI, Damodar N, c2003. Basic econometrics. 4th ed. Boston: McGraw-Hill, xxix, 1002 s. ISBN 978-0-07-233542-2. HÁTLE, Jaroslav a LIKEŠ, Jiří, 1974. Základy počtu pravděpodobnosti a matematické statistiky. 2. vyd. Praha: SNTL. 463 s. HrNDLS, Richard, SEGER, Jan a HRONOVÁ, Stanislava, 2002. Statistika pro ekonomy. 1. vyd. Praha: Professional Publishing, 415 s. ISBN 80-864-1926-6. KAŇKA, Miloš, 1998. Vybrané partie z matematiky pro ekonomy, l.vyd. Praha: VŠE, 231 s. ISBN 80-707-9537-9. MAREK, Luboš a kol., 2007. Statistika pro ekonomy: aplikace. 2. vyd. Praha: Professional Publishing. 485 s. ISBN 978-80-86946-40-5. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2000. Statistika A. Vyd. 3., rozš. a upr. V Opavě: Slezská univerzita, Obchodně podnikatelská fakulta v Karviné, 162 s. ISBN 80-7248-097-9. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2000. Statistika B. Vyd. 2., rozš. a upr. V Opavě: Slezská univerzita, Obchodně podnikatelská fakulta v Karviné, 143 s. ISBN 80-724-8099-5. RAMÍK, Jaroslav a Šárka ČEMERKOVÁ, 2003. Kvantitativní metody B: statistika. Vyd. 1. Karviná: Slezská univerzita v Opavě, Obchodně podnikatelská fakulta v Karviné, 206 s. ISBN 80-724-8198-3. SEGER, Jan, HRONOVÁ, Stanislava a HINDLS, Richard, 1998. Statistika v hospodářství. l.vyd. Praha: ETC Publishing, 636 s. ISBN 80-860-0656-5. - 7 6 2 -