2. Analýza trendové složky Rychlý náhled do problematiky kapitoly Klasická analýza ekonomických časových řad vychází z předpokladu, že časovou řadu je možné rozložit na čtyři složky: trendovou, cyklickou, sezónní a nesystematickou (náhodnou) složku. V této kapitole se budeme věnovat analýze trendové složky. Tento přístup analýzy časových řad patří mezi klasické analytické postupy, které jsou založeny na regresní analýze. Budete umět Ø Charakterizovat jednotlivé složky časové řady Ø Odhadnout koeficienty lineárního trendu Ø Zvolit vhodnou trendovou funkci Ø Posoudit kvalitu sestaveného modelu časové řady 2.1 Přístupy k modelování časových řad Tradičním výchozím principem modelování časových řad je jednorozměrný model ve tvaru , (2.1) kde je hodnota modelovaného ukazatele v čase t, t = 1,2,...,n, je hodnota náhodné složky (poruchy) v čase t. K modelu (2.1) přistupujeme trojím způsobem: a) pomocí klasického (formálního) modelu – dekompozice časové řady, b) pomocí Box – Jenkinsovy metodologie, c) pomocí spektrální analýzy. a) Dekompozice časové řady - v tomto modelu jde o popis forem pohybu a ne o poznání věcných příčin dynamiky časové řady - model vychází z dekompozice časové řady na 4 složky - hledáme nástroje, který vysvětlí „systematické“ chování sledovaného procesu - Časovou řadu je možné rozložit na čtyři složky: ¨ Trendová - odráží tendenci vývoje zkoumaného jevu za dlouhé období, - je výsledkem faktorů, které dlouhodobě působí ve stejném směru, - např. technologie výroby, demografické podmínky, podmínky trhu, počet dovezených osobních aut do ČR po roce 1990 ¨ Sezónní S[t] - vyjadřuje periodické kolísání v časové řadě, které má systematický charakter, - toto kolísání se během 1 kalendářního roku a každý rok opakuje, - vyskytuje se pouze u časových řad krátkodobých (čtvrtletních, měsíčních, týdenních), - může měnit každý rok měnit svůj charakter, - zachycuje střídání ročních období (nákup dovolených, vánoce) - pracovní cyklus (výplata mezd a nákupy v maloobchodě vždy v určitou dobu) ¨ Cyklická C[t] - je „pohyb“ okolo trendu, ve kterém se střídají fáze růstu s fázemi poklesu, - cykly mají nepravidelný charakter, - cykly se odehrávají v obdobích delších než jeden rok, - někdy může být zaměněna se složkou trendovou, - cyklické pohyby v ekonomických časových řadách mohou mít příčiny ekonomického i neekonomického charakteru, - na rozdíl od makroekonomie, kdy se rozumí porucha dynamické rovnováhy ekonomiky s jednotlivými fázemi, chápe statistika cyklus jako dlouhodobé kolísání s neznámou periodou, která může mít i jiné příčiny než ekonomický cyklus (cykly demografické, inovační, plánovací) ¨ Reziduální e[t] - má nesystematický charakter, nelze ji popsat žádnou funkcí času - je tvořena náhodnými pohyby v časové řadě, chybami v měřeních a jinými nesystematickými vlivy, nepostižitelné příčiny, - je náhodnou složkou a její vlastnosti budeme prověřovat testy Dekompozice časové řady : A) ADITIVNÍ – časová řada je tvořena součtem jednotlivých složek . Jednotlivé složky jsou uvažovány se svých absolutních hodnotách a jsou v měrných jednotkách původní časové řady. B) MULTIPLIKATIVNÍ – časová řada je tvořena součinem jednotlivých složek V absolutní hodnotě je pouze trendová složka, ostatní složky jsou vyjádřeny relativně. Proč se časová řady rozkládá? - zkoumáním oddělených složek lze odhalit některé zákonitosti vývoje dané řady - lze identifikovat některé vnější vlivy určující průběh časové řady - je možno lépe porovnat průběh několika časových řad - umožňuje přesnější konstrukce předpovědí - je to prostředek umožňující sezónní očištění časových řad b) Box – Jenkinsovy metodologie - považuje za základní prvek konstrukce modelu časové řady náhodnou složku, - důraz klade na korelační analýzu závislých pozorování uspořádaných do tvaru časové řady, - patří zde ARIMA modely (p, d, q), - model klouzavých průměrů MA(1), - autoregresní modely AR (1), - časová řada musí obsahovat aspoň 30 pozorování c) Spektrální analýza - časovou řadu považujeme za „směs“ sinusovek a kosinusovek s různými amplitudami a frekvencemi, - lze provést explicitní popis periodického chování časové řady, - chceme najít významné složky periodicity, které se podílí na vlastnosti zkoumaného procesu, - hlavním faktorem není časová proměnná, ale faktor frekvenční Vedle jednorozměrného modelu typu (2.1) se můžeme setkat i s modely, které jsou založeny na předpokladu, že vývoj analyzovaného ukazatele není ovlivňován pouze časovým faktorem, ale i řadou jiných ukazatelů. Tyto ukazatele, kterými se snažíme vývoj analyzovaného ukazatele vysvětlit, nazýváme příčinné nebo faktorové. Takovýto model lze zapsat ve formě , (2.2) kde jsou ukazatele ovlivňující analyzovaný ukazatel. Modely tohoto typu se obecně nazývají vícerozměrné modely. Změny faktorové proměnné v modelu (2.2) na proměnnou y se nemusí projevovat pouze v časovém okamžiku t. Omezíme-li se pouze na jednu faktorovou proměnnou x, dostaneme tzv. Koyckův model rozložených zpoždění, který má obecný tvar , kde koeficienty jsou neznámé parametry, které vyjadřují vliv faktorové proměnné x z období na analyzovanou veličinu y v čase t. 2.2 Trendová analýza Časová řada vzniká tak, že v každém čase daná náhodná veličina stochastického procesu nabude právě jednu hodnotu v závislosti na jistých faktorech. Stochastickým procesem je v čase uspořádaná řada náhodných veličin. Např. máme časovou řadu produkce výroby. Určitá hodnota této časové řady je jednou z množiny hodnot. Tato hodnota je dána takovými faktory (např. technologie výroby, řízení výroby, management firmy, kvalifikace pracovníků, mezilidské vztahy na pracovišti,…) Jsou to faktory systematické a nesystematické. Systematické faktory způsobují existenci trendu (sezónní a cyklické složky), nesystematické způsobují existenci reziduální složky. Předpokládáme následující dekompozici časové řady: , kde systematická složka Y[t] představuje trend T[t] , který lze vyjádřit matematickou funkcí časové proměnné t, e[t] je reziduální složka typu bílého šumu - jde o časovou řadu generovanou stochastickým procesem, e[t] = N (0, s). *************************************************************************** Opakování regresní analýzy y[t] … naměřená hodnota, Y[t] … teoretická hodnota regresní funkce, e[t] … odchylka, … neznámé parametry regresní funkce … regresní funkce - hledáme typ funkce (trendové funkce) - odhadujeme parametry funkce - odhady parametrů označujeme b[0], b[1],…b[p] … odhad teoretické hodnoty regresní funkce , kde e[t] je reziduum (odhad náhodné složky) Cílem je, aby e[t] měla charakter bílého šumu, tzn. aby v odhadnutých reziduích bylo minimum části systematické. Metoda nejmenších čtverců - vypočteme parciální derivace podle parametrů , - rovnice položíme = 0, - dostaneme p+1 normálních rovnic, - v těchto rovnicích nahradíme b[j] , j = 1,2,…n Metoda nejmenších čtverců je tedy založena minimalizaci chyby, tj.odchylky teoretické hodnoty od skutečné hodnoty. *************************************************************************** Trendové funkce Konstantní trend Lineární trend Kvadratický trend Exponenciální trend Modifikovaný exponenciální trend (funkce není lineární v parametrech a není ji možno linearizovat, nelze použít k odhadu parametrů metodu nejmenších čtverců) Logistický trend (funkce je charakteristická nezápornou asymptotou a jedním inflexním bodem, pro odhad parametrů nelze použít metody nejmenších čtverců) Více o některých trendových funkcích Lineární trend . Lineární trend odhadneme rovnicí , kde jsou odhady teoretických hodnot . Skutečnou (naměřenou, získanou) hodnotu označme . Pro tuto hodnotu platí vztah . Veličina se nazývá reziduum. Odhad rezidua označme , kde . Naším cílem je minimalizovat chybu (reziduum). Tato metoda se nazývá metoda nejmenších čtverců. Označme Funkci Q chceme minimalizovat. Dosaďme a dostáváme vztah: Tuto funkci parciální derivujeme podle proměnných a první parciální derivace funkce Q položíme rovny nule. Dostáváme soustavu normálních rovnic: , . Po úpravě dostaneme následující rovnice: , . V soustavě normálních rovnic nahradíme teoretické hodnoty parametrů jejich odhady : , . Uvedenou soustavu lze řešit Cramerovým pravidlem a dostáváme . Pro ruční výpočet je snadnější zavést substituci: , je-li n liché; , je-li n sudé; kde . Pak platí Tabulka 2.1 Transformovaná časová proměnná při sudém a Rok 2001 2002 2003 2004 2005 2006 2007 2008 t 1 2 3 4 5 6 7 8 t´ -7 -5 -3 -1 1 3 5 7 Tabulka 2.2 Transformovaná časová proměnná při lichém a Rok 2001 2002 2003 2004 2005 2006 2007 t 1 2 3 4 5 6 7 t´ -3 -2 -1 0 1 2 3 Po zavedení výše uvedené substituce dostáváme následující vztahy pro výpočet odhadů teoretických hodnot parametrů: , . Kvadratický trend . Podobně jako u lineárního trendu odhadneme teoretické hodnoty parametrů , které označíme , metodou nejmenších čtverců. Pro odhady teoretických hodnot parametrů platí následující vztahy: , , . Exponenciální trend . Danou rovnici budeme nejprve logaritmovat a po zavedení substituce dostaneme lineární rovnici, jejíž parametry odhadneme metodou nejmenších čtverců. Postupujeme tedy následovně: . Zavedeme substituce: a pro časovou proměnnou t zavedeme substituci, která je definována u lineárního trendu. Dostáváme lineární trend, který je definován vztahem . Odhady parametrů označme . Pro odhadné parametry a, b v exponenciálním trendu platí . Logistický trend . Logistická trendová funkce byla původně odvozena jako křivka vyjadřující biologický růst populací za podmínek omezených zdrojů. V ekonomické oblasti se tato křivka začala používat v modelech poptávky po předmětech dlouhodobé spotřeby a s úspěchem se také používá např.při modelování vývoje, výroby a prodeje některých druhů výrobků. Patří mezi trendové funkce s kladnou horní asymptotou a jedním inflexním bodem. Pole typického průběhu se této skupině křivek říká S-křivky. Každá S-křivka vymezuje na časové ose pět základních vývojově odlišných fází cyklu. Cyklem ze budeme obecně rozumět časové období od prosazení nových sil (technologií, výrobků,...) až o jejich zániku, kdy jsou vystřídány silami novými na kvalitativně vyšší rovni. Jednotlivé fáze lze charakterizovat následujícím způsobem: 1.fáze – období, kdy se začínají formovat nové progresivní síly. Jejich prosazování je ještě v té době brzděno, původními ne zcela překonanými silami. 2.fáze – období, kdy se nové progresivní síly začínají plně prosazovat a rozhodující měrou ovlivňovat další vývoj. Tyto síly působí jako akcelerátory, takže tempo vývoje se v této fázi značně urychluje. 3.fáze – období, kdy nové progresivní síly zcela ovládly další vývoj, ale už se objevují opoziční síly, tlumící jejich účinek. Vývoj v této fázi nabývá lineárního charakteru. 4.fáze – období, kdy vzniklé opoziční síly nabývají postupnou převahu nad dosavadními silami, které pozbyly svou progresivnost, čímž se vývojové tendence podstatně zpomalují. 5.fáze – poslední fáze cyklu, kdy opoziční síly nabyly rozhodující převahu a zcela utlumily vývoj dosavadních sil. V této fázi se vývoj zastavuje až o okamžiku zformování a prosazení dalších kvalitativně progresivních sil. V praxi se s podobným vývojem můžeme setkat např. v managementu inovací. Zde logický trend může vhodně simulovat důležitá stadia ekonomické životnosti inovovaného či nového výrobku. Ten přechází postupně od počátečních vývojových fází (uvádění na trh, reklamní fáze,...) přes růst trhu a stadium zralosti až po období poklesu nebo stagnace tohoto produktu na trhu. Na rozdíl o přecházejících typů trendových funkcí, které jsou v podstatě definovány jednoznačně je logistická trendová funkce vyjadřována v různých tvarech. Nejčastěji uváděné tvary: Ať použijeme jakýkoliv tvar, vždy si logická funkce zachová svůj charakteristický průběh ve tvaru písmen S, protože jednotlivé formy zápisu se od sebe liší pouze různými vzájemnými transformace parametrů. Věnujme pozornost odhadu parametrů logistické trendové funkce, přičemž budeme vycházet z naposledy uvedeného tvaru, kde Odhad parametrů lze provést metodou vybraných bodů. Uvažujme tři vybrané body (obvykle t = 0) a položíme v nich empirické hodnoty rovny teoretickým. Vypočítáme pomocné veličiny: , , . Odhady parametrů potom získáme ze vzorců: , . 2.3 Volba a ověřování vhodnosti trendové funkce · volba trendové funkce na základě grafu zkoumané časové řady (subjektivní ovlivnění) · jednoduchým a účinným prostředkem je analýza diferencí a koeficientů růstu dané čř · analýza diferencí je vhodná pro výběr trendové funkce polynomiálního typu, protože první diference určitého polynomu snižuje jeho řád o jeden stupeň: - v případě konstanty je první diference: - v případě přímky je první diference: - v případě paraboly je první diference: (přímka) · koeficient růstu exponenciální funkce je . Pravidlo výběru trendové funkce: Ø jestliže jsou první diference přibližně nulové, volíme konstantní trend, Ø jestliže jsou druhé diference přibližně nulové, volíme lineární trend, Ø jestliže jsou třetí diference přibližně nulové, volíme parabolický trend, Ø jestliže jsou koeficienty růstu přibližně konstantní, volíme exponenciální funkci. Použití tohoto přístupu je problematické, pokud diference vykazují velkou variabilitu. Tento přístup je nepoužitelný při rozhodování mezi složitějšími typy trendových křivek. Pokud výše uvedené způsoby nevedou k jednoznačnému výsledku, vybereme několik trendových funkcí a jejich vhodnost ověříme až po odhadnutí jejich parametrů. Příklad 1. Pro časovou řadu uvedenou v následující tabulce stanovíme na základy analýzy absolutních diferencí vhodný typ trendové funkce. Rok 2000 3 2001 4 1 2002 7 3 2 2003 14 7 4 2 2004 27 13 6 2 0 2005 48 21 8 2 0 2006 79 31 10 2 0 2007 122 43 12 2 0 Řešení: Z průběhu prvních a druhých absolutních diferencí je zřejmé, že vykazují výrazný trend. Třetí diference jsou již konstantní, takže trend dané časové řady nejlépe vystihneme pomocí kubického polynomického trendu. Pro ověřování vhodnosti trendové funkce se používají dva druhy kritérií: a) interpolační kritéria, b) extrapolační kritéria (Následné hodnocení přesnosti předpovědí) a) Interpolační kritéria - jsou založena na zkoumání vztahu skutečných hodnot časové řady a tzv. interpolovaných, tj. minulých a současných hodnot odhadnutých na základě dané trendové funkce. Pro posouzení tohoto vztahu lze použít následující charakteristiky: A) I) střední chyba (Mean Error) II) střední čtvercová chyba (Mean Squared Error) III) střední absolutní chyba (Mean Absolute Error) IV) střední absolutní chyba procentuální (Mean Absolute Percentage Error) V) střední chyba procentuální (Mean Percentage Error) Zvolená trendová funkce je tím lepší, čím tyto charakteristiky nabudou menších hodnot. Příklad 2. V tabulce jsou uvedeny údaje o počtu prodaných CD nosičů hudebním vydavatelstvím v tis.ks v letech 1999 – 2007. Odhadněme trend časové řady pomocí lineární, kvadratické a exponenciální trendové funkce. Určeme chyby odhadu (charakteristiky uvedeny v bodu A) a rozhodněme, která z trendových funkcí je pro danou časovou řadu nejlepší. Rok 1999 2000 2001 2002 2003 2004 2005 2006 2007 3 10 15 21 35 42 58 81 110 Řešení: Následující tabulka zachycuje přehled chyb. Model ME MSE MAE MAPE MPE 0,000 93,214 8,296 62,578 37,386 0,000 9,403 2,848 20,622 -8,503 -2,011 80,817 6,033 21,824 -3,621 Řešení: Z tabulky vidíme, že k nejlepšímu výsledku vede použití paraboly. Parabola má v určitém oboru hodnot průběh velmi podobný s exponenciálou. B) Durbinův – Watsonův test se používá pro textování hypotézy, že rezidua nejsou autokorelovaná (mají charakter bílého šumu). Alternativní hypotéza je , tj. rezidua jsou autokorelovaná (obsahují systematickou složku). Testové kritérium má tvar: , kde . Statistika DW nabývá hodnot od 0 do 4. Výsledky D-W testu : Þ H[0] se zamítá - autokorelace Þ Test nic neříká Þ H[0] se přijímá – autokorelace není Þ H[0 ] se přijímá – autokorelace není Þ Test nic neříká Þ H[0] se zamítá – autokorelace Kritické hodnoty d[L] a d[U] jsou tabelovány. Příklad 3. Testujme Durbin-Watsonovým testem hypotézu o nezávislosti reziduí. Hodnoty reziduí jsou vypočteny v následující tabulce. t 1 2 3 4 5 6 7 8 9 10 11 12 4 7 9 6 -11 -24 -6 -17 -15 2 19 26 Řešení: Tabulku doplníme o další řádky, abychom mohli vypočítat hodnotu Durbin-Watsonova testového kritéria. t 1 2 3 4 5 6 7 8 9 10 11 12 Součet 4 7 9 6 -11 -24 -6 -17 -15 2 19 26 16 49 81 36 121 576 36 289 225 4 361 676 2470 9 4 9 289 169 324 121 4 289 289 49 1556 Dosazením dostáváme . Protože se hodnota blíží k nule, a nepohybuje se tedy okolo hodnoty 2, zamítáme hypotézu o nezávislosti náhodných poruch. C) Výběrová autokorelační funkce ACF se rovněž používá pro posouzení, zda rezidua jsou autokorelována. Funkce je definována: , k = 0,1,... Pokud hodnoty výběrové ACF nepřekračují meze 95% intervalů spolehlivosti, je možné předpokládat, že rezidua mají charakter bílého šumu. Příklad 4. Následující grafy zachycují autokorelační funkce, pro dva různé modely. Na základě těchto grafů určíme, který model je pro danou časovou řadu vhodnější. Řešení: Hodnoty ACF u 1.modelu nepřekračují meze 95% intervalů spolehlivosti a proto je možné předpokládat, že rezidua v 1.modelu mají charakter bílého šumu. Tento model bude zřejmě pro analýzu časové řady vhodnější. Případy D,E,F lze použít pouze pro trendové funkce, které jsou lineární v parametrech a jejichž parametry lze odhadnout metodou nejmenších čtverců. D) Index determinace vychází z rozkladu , tj. rozkladu celkového součtu čtverců na reziduální součet čtverců a regresní součet čtverců. Celková variabilita časové řady se skládá z variability nevysvětlené (variability reziduí) a variability vysvětlené zvoleným modelem. Index determinace je definován jako podíl variability vysvětlené k variabilitě celkové tj. . Odmocnina z indexu determinace se nazývá index korelace. Index determinace (index korelace) nabývá hodnot od nuly do jedné. Jestliže je roven nule, zvolený model nevysvětluje žádnou variabilitu časové řady, je-li roven jedné, model vysvětluje celou variabilitu zkoumané časové řady. Tyto případy prakticky nenastanou, ale lze říci, že trendová funkce je tím vhodnější, čím je její index determinace (index korelace) bližší jedné. Nedostatkem této míry je její závislost na počtu parametrů zvolené funkce. Tento nedostatek odstraňuje adjustovaný (modifikovaný) index determinace: , kde je počet parametrů dané trendové funkce, k je počet regresorů. E) Pomocí t-testů se testuje hypotéza, že jistý parametr zvolené trendové funkce je roven nule proti alternativní hypotéze, že je různý od nuly. Testové kritérium má v čitateli odhad daného parametru a ve jmenovateli odhad směrodatné chyby tohoto odhadu parametru. Testové kritérium Vysoké absolutní hodnoty testových kritérií svědí ve prospěch alternativních hypotéz, že parametry jsou různé od nuly. F) Dalším kritériem je F-test, kterým se testuje vhodnost zvolené trendové funkce. Testové kritérium F je podíl vysvětlené variability a nevysvětlené variability: kde p je počet parametrů v trendové funkci, p – 1 a n – p je počet stupňů volnosti. Je-li nulová hypotéza pravdivá, tj. jestliže není daný model vhodný, hodnota testového kritéria by měla být blízka nule. Vysoké hodnoty testového kritéria vedou k zamítnutí nulové hypotézy. Vysoké jsou takové hodnoty testového kritéria, které jsou vyšší než kvantil rozdělení F. b) Extrapolační kritéria - jsou založena na principu, že se zkoumaná časová řada nejprve zkrátí a na základě této zkrácené řady se provede volba trendové funkce, odhad jejích parametrů a ověření její vhodnosti. Poté se zvolená trendová funkce použije pro výpočet předpovědí, jenž se následně porovnají se skutečnými hodnotami časové řady. Přitom lze použít různé míry charakterizující tuto přesnost „ex post“. 2.4 Metody konstrukce předpovědí časových řad Mezi nejužívanější metody statistické prognózy patří metody extrapolace časových řad, metody regresní analýzy, strukturální analýzy a metody založené na systémovém přístupu a komplexních modelech. V dalším textu se omezíme jen na metody extrapolace časových řad. Předpovědí se rozumí kvantitativní odhad budoucí hodnoty časové řady, tento odhad je založen na minulém a přítomném průběhu časové řady. Informace o vývoji časové řady je předávána pomocí jejího modelu. Získaná předpověď by proto měla být porovnána s předpovědí získanými jinými metodami (prognózy expertů). Extrapolační prognózy se používají zejména při krátkodobých předpovědích. Jsou dva druhy předpovědí: bodové (odhadují budoucí hodnotu časové řady jedním číslem) a intervalové (číselným intervalem). ex post ex ante odhad modelu předpověď předpověď práh predikce horizont predikce (současnost) (budoucnost) Předpovědi „ex post“ se provádějí na základě zkrácené časové řady na období, které je známé. Počítají se proto, aby bylo možné hodnotit kvalitu zvoleného prognostického modelu. Práh predikce je poslední známá hodnota časové řady. Horizont předpovědi je délka období, na které se předpovědi počítají. Hodnocení přesnosti předpovědí Mějme časovou řadu ukazatele, jehož vývoj chceme předpovídat. Zkonstruovat extrapolační prognózu znamená provést v časovém okamžiku n odhad hodnoty ukazatele v čase i, kde i je zadaný horizont předpovědi. Označme tento extrapolační odhad . Jde o bodový odhad odpovídající teoretické hodnoty . Po provedení měření zjistíme, že tento odhad vede k celkové následné chybě předpovědi: , kde je hodnota, kterou sledovaný ukazatel skutečně nabyl v čase n+ i. Je-li , jde o nadceňující předpověď, je-li , jde o podceňující předpověď. Chybu předpovědi lze rozložit na dvě složky: , kde je modelová chyba předpovědi, která charakterizuje tu část chyby, která souvisí s volbou modelu, je chyba vlastního prognostického modelu, která charakterizuje tu část chyby, které se dopustíme v rámci zvoleného modelu. Intervalové předpovědi Konstruovat intervalovou předpověď znamená určit interval pro dané n kde je přípustná chyba předpovědi. Omezíme se na nejčastější případ lineárního trendu. Pro tento případ lze přípustnou chybu psát ve tvaru , kde s je odmocnina z reziduálního rozptylu , a veličina , kde je koeficient determinace. Příklad 5. Tabulka zachycuje časovou řadu počtu oprav provedených autoopravnou v letech 1995 až 2007. Odhadněme trend lineární trendovou funkcí a proveďme bodovou a intervalovou predikci pro roku 2008 až 2010. Rok 1995 1996 1997 1998 1999 2000 2001 Počet oprav 1901 2085 2124 2431 2858 3164 3150 Rok 2002 2003 2004 2005 2006 2007 Počet oprav 2963 2746 2986 3103 3287 3488 Řešení: Použijeme transformovanou časovou proměnnou . Trend odhadneme trendovou funkcí . Po dosazení ; dostaneme bodové předpovědi pro následující tři roky: , , . Za předpokladu, že zůstanou zachovány základní vývojové tendence z let 1995 – 2007, lze očekávat v roce 2008 počet oprav ve výši 3587, v roce 2009 ve výši 3701 a v roce 2010 ve výši 3814. Abychom mohli konstruovat intervalové předpovědi, vypočteme následující veličiny: reziduální součet čtverců , celkový součet čtverců , index determinace , odmocnina z reziduálního rozptylu , veličina . Pro je přípustná chyba odhadu . Hledaný interval spolehlivosti je . S 95% spolehlivostí lze očekávat, že v roce 2008 se bude počet oprav pohybovat mezi 3303 až 3871. Analogicky vypočteme intervalovou předpověď na: rok 2009 rok 2010 . Následné hodnocení přesnosti předpovědí Nejčastěji používané míry přesnosti jsou: A) následná chyba předpovědí kde jsou hodnoty predikce určené modelem, jsou skutečné hodnoty analyzovaného ukazatele. B) Průměrná chyba předpovědi C) Průměrná čtvercová chyba předpovědi . D) Průměrná hodnota chyby předpovědi . Chyba je považována za uspokojivou, platí-li vztah . E) Relativní míra předpovědi . F) Theilův koeficient nesouladu, který je velmi frekventovanou mírou variability relativních chyb předpovědi. Koeficient je dán vztahem: kde jsou hodnoty predikce určené modelem, jsou skutečné hodnoty analyzovaného ukazatele. Uvedená charakteristika nebývá nezáporných hodnot. Nulové hranice nabývá pouze v případě bezchybných prognóz. Čím více se koeficient nesouladu odchyluje od nuly, tím více se soustava hodnocených předpovědí liší od ideálních bezchybných předpovědí. Odmocninu z koeficientu nesouladu lze interpretovat jako relativní chybu předpovědi v procentech. Příklad 5. Tabulka zachycuje skutečné hodnoty a hodnoty predikované časové řady počtu uchazečů o práci registrovaných na Úřadech práce v České republice do července do prosince roku 2007. Pro konstrukci předpovědí byla zvolena Box – Jenkinsova metodologie. Ověřte pomocí Theilova koeficientu nesouladu, zda je daná funkce vhodná pro výpočet předpovědí. Řešení: t 7 460559,2773 469728 -9168,7227 84065475,95 2,20644E+11 8 459381,3342 467264 -7882,6658 62136420,11 2,18336E+11 9 455931,177 458272 -2340,823 5479452,317 2,10013E+11 10 443962,588 445174 -1211,412 1467519,034 1,9818E+11 11 440969,8426 442232 -1262,1574 1593041,302 1,95569E+11 12 458760,5193 457369 1391,5193 1936325,962 2,09186E+11 Součet X X X 156678234,7 1,25193E+12 Theilův koeficient nesouladu . Můžeme tedy tvrdit, že při konstrukci extrapolačních prognóz počtu nezaměstnaných jsme se v průměru dopustili chyby 1,18%. Z vypočtené hodnoty Theilova koeficientu nesouladu vyplývá, že zvolená metoda je z extrapolačního hlediska vhodná pro konstrukci předpovědí. Příklad 7. Tabulka zachycuje extrapolační předpovědi tempa růstu produkce v procentech pro a skutečné hodnoty tempa růstu produkce v následujícím roce . Vypočítejte všechny absolutní i relativní míry hodnocení přesnosti předpovědi. t 1 2 1 2 3 3 3 4 6 4 5 7 5 0 -2 6 -2 -3 7 3 4 8 6 6 9 1 3 10 -1 -2 Řešení: Tabulku doplníme o další sloupce, abychom mohli vypočítat absolutní a relativní míry předpovědi. t v % 1 2 1 1 1 1 100 2 3 3 0 0 9 0 3 4 6 -2 4 36 -33,3 4 5 7 -2 4 49 -28,6 5 0 -2 2 4 4 -100 6 -2 -3 1 1 9 -33,3 7 3 4 -1 1 16 -25 8 6 6 0 0 36 0 9 1 3 -2 4 9 -66,7 10 -1 -2 1 1 4 -50 Součet X X -2 20 173 X Následné chyby předpovědi jsou vypočteny ve 4. sloupci tabulky. Průměrná chyba předpovědi je = . Průměrná čtvercová chyba předpovědi = . Průměrná hodnota chyby předpovědi = 1,732. Nerovnost není splněna pro a proto příslušné odhady není možné považovat za uspokojivé. Relativní chyby předpovědi jsou vypočteny v posledním sloupci tabulky. Největší relativní chyby jsou pro Theilův koeficient nesouladu . Lze říci, že při konstrukci extrapolačních prognóz tempa růstu jsme se v průměru dopustili 34% chyby bez ohledu na znaménko. Shrnutí Trendová složka představuje nejdůležitější komponentu analyzované časové řady, a proto popis trendu je jedním z nejdůležitějších úkolů analýzy časových řad. Trendová složka totiž poskytuje rozhodující informaci pro prognózování hodnot časové řady do budoucna. K určení trendové složky používáme dva obecné přístupy: analytický a syntetický. Analytický přístup stanovení trendu vychází z předem známých typů trendových funkcí vyznačujících se přítomností parametrů, které je třeba stanovit co nejlépe s ohledem na skutečné hodnoty ukazatele časové řady. Výhodou těchto trendových funkcí je to, že je lze snadno použít pro účely prognózování. Nevýhodou je fakt, že typ trendové funkce musíme stanovit předem na základě externích, mnohdy subjektivních předpokladů a informací. Nejužívanější metodou odhadu neznámých parametrů trendové funkce je metoda nejmenších čtverců, s níž jsme se setkali již v Kvantitativních metodách B. Zde jsme tuto metodu aplikovali na speciální typ jednoduché regrese pro data ve formě ekonomické časové řady, tedy případ, kdy nezávisle proměnnou je čas a závisle proměnnou tvoří sledovaný ekonomický ukazatel. Kromě metody nejmenších čtverců pro nelineární trendové funkce uvedeme v této opoře alternativní metodu vybraných bodů. Adaptivní přístup stanovení trendu spočívá ve vyrovnání odchylek daného ukazatele v časové řadě (tzv. vyrovnání) tak, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v časové řadě, nikoliv faktor vložený z vnějšku. Nemusíme proto znát předem typ trendové funkce, což je přednost syntetického přístupu oproti přístupu analytickému. Jeho nevýhodou je naopak obtížnější využití pro prognózování hodnot časové řady. Z existujících metod adaptivního přístupu uvedeme ve 4. kapitole. Řešené příklady Příklad 8. V tabulce jsou uvedeny počty prodaných automobilů v autocentru AAA v letech 2000 až 2007. Rok 2000 2001 2002 2003 2004 2005 2006 2007 Prodané automobily 120 159 167 175 197 172 199 240 a. Trend v prodeji automobilů popište lineární trendovou funkcí. b. Jaký počet prodaných automobilů lze očekávat v roce 2008? c. Stanovte koeficient determinace a na jeho základě určete přiléhavost dat k trendové funkci. Řešení: a. Zavedeme novou časovou proměnnou (viz následující tabulka). Rok t´ y[t] y[t] t´ (y- )^2 (y- )^2 2000 -7 120 49 -840 133,818 190,937 3436,891 2001 -5 159 25 -795 146,620 153,264 385,141 2002 -3 167 9 -501 159,422 57,426 135,141 2003 -1 175 1 -175 172,224 7,706 13,141 2004 1 197 1 197 185,026 143,377 337,641 2005 3 172 9 516 197,828 667,086 43,891 2006 5 199 25 995 210,630 135,257 415,141 2007 7 240 49 1680 223,432 274,499 3766,891 Součet 0 1429 168 1077 1629,552 8533,875 Vypočítáme odhady b[0], b[1] parametrů b[0], b[1] trendové funkce: Všechny potřebné hodnoty jsou uvedeny v tabulce: , Odhadnutá trendová funkce má tvar: = 178,625 + 6,41 , = -7, -5, -3, … b. Očekávaný prodej v roce 2008 vypočítáme dosazením t´, které odpovídá roku 2008, do rovnice trendu: = 178,625 + 6,401×9 = 236,315. Příklad 9. V tabulce jsou uvedeny údaje o počtu vyrobených myček nádobí v letech 1999 - 2007. a. Trend ve výrobě tohoto výrobku popište exponenciální trendovou funkcí. b. Vypočítejte koeficient determinace a na jeho základě zhodnoťte „přiléhavost“ dat k trendové funkci. Rok 1999 2000 2001 2002 2003 2004 2005 2006 2007 Myčky nádobí (tis.ks) 8 9 17 20 38 40 70 101 180 Řešení: a. Hledáme odhady b[0], b[1] parametrů trendové funkce . Logaritmováním této rovnice přejdeme k vztahu: . Zavedením substituce , , , se původní rovnice exponenciálního trendu transformuje na rovnici lineárního trendu. Zavedeme novou časovou proměnnou a vypočítáme koeficienty podle vztahů. Všechny potřebné výpočty jsou uvedeny v tabulce. , . Potom , . Rok t´´ y lny t´´^2 t´´ (y - )^2 1999 -4 8 2,0794 16 -8,3178 7,0285 0,8425 2085,7489 2000 -3 9 2,1972 9 -6,5917 10,3519 1,9904 1995,4089 2001 -2 17 2,8332 4 -5,6664 15,2466 2,8771 1344,6889 2002 -1 20 2,9957 1 -2,9957 22,4558 6,2330 1133,6689 2003 0 38 3,6376 0 0 33,0737 24,3049 245,5489 2004 1 40 3,6889 1 3,6889 48,7122 74,1821 186,8689 2005 2 70 4,2485 4 8,4970 71,7452 2,1345 266,6689 2006 3 101 4,6151 9 13,8453 105,6690 16,3831 2240,1289 2007 4 180 5,1930 16 20,7718 155,6333 654,3364 15959,2689 Součet 0 490 31,4886 60 23,2315 783,2839 25458,0001 Hledaná trendová funkce má tvar . b. Vypočítáme koeficient determinace. Musíme proto znát hodnotu celkového součtu S[y] a reziduálního součtu S[R] (viz poslední dva sloupce v tabulce). Pro výpočet reziduálního součtu je třeba znát odhady teoretické hodnoty , které obdržíme postupným dosazováním za do rovnice trendu. Např.: = - 4: =33,07×1,47 ^- 4 = 7,08. Všechny hodnoty i součtů S[y], S[R] jsou uvedeny v tabulce. Pro koeficient determinace platí: Hodnota 0,969 říká, že data se těsně přimykají k trendové funkci. Můžeme tvrdit, že tímto modelem je vysvětleno 96,9% celkové variability. Příklady k procvičení Ano či ne?… 1) Časová řada se dá rozložit na čtyři složky. 2) Sezónní složka popisuje nesystematický charakter časové řady. 3) Koeficienty lineárního trendu časové řady se odhadují metodou největších čtverců. 4) Metoda nejmenších čtverců je založena na minimalizaci chyb. 5) Výběrová autokorelační funkce se používá pro posuzování cyklické složky. Doplňte… 6) Mezi trendové funkce patří např. …………….., ………………………, …………………, …………………………., ………………………. 7) Logistický trend má …… základních vývojově odlišných fází cyklu. 8) Mezi charakteristiky, které následně hodnotí přesnost předpovědí patří mimo jiné i ………… koeficient nesouladu. 9) Sezónní složka popisuje periodické kolísání v časové řadě během ……………………. 10) Jestliže je časová řada tvořena součtem jednotlivých složek, jedná se o ………………. dekompozici časové řady. Řešte… 11) . Počátkem kalendářního roku byl do prodeje zkušebně zaveden nový typ výrobku. O tržbách za jeho prodej (v tis.Kč) máme dispozici tyto údaje: Pořadí Měsíc Tržba 1 leden 26 2 únor 39 3 březen 56 4 duben 83 5 květen 121 6 červen 177 7 červenec 259 8 srpen 380 Předpokládejme, že dosavadní trend vývoje potrvá ještě nejméně šest měsíců (cena výrobku se přitom nebude měnit). Pomocí výpočtu prvních, druhých, třetích diferencí a koeficientu růstu nejděte vhodnou trendovou funkci, odhadněte její parametry, znázorněte původní a vyrovnaná data graficky a odhadněte tržbu za měsíc říjen. 12) Průměrnou měsíční produkci ocelářského výrobního podniku v letech 2003 – 2007 lze popsat časovou řadu 2t; 4t; 3t; 5t; 6t. a) Znázorněte tuto časovou řadu graficky. b) Vyrovnejte data lineární trendovou funkcí a znázorněte ji graficky. Použijte transformovanou časovou proměnnou t´. Řešte úlohu bez počítače i s počítačem. c) Vypočítejte vyrovnané hodnoty pro rok 2003 a 2006 a zakreslete je do grafu. d) Proveďte předpověď průměrné měsíční produkce pro rok 2012. 13) Následující časová řada obsahuje údaje o produkci textilního podniku v měsících březen až říjen roku 2007 (v Kč): 121 418; 120 401; 124 124; 125 873; 127 002; 129 188; 132 387; 134 200. Sestavte rovnici trendové přímky a určete bodovou i 90%-ní intervalovou předpověď produkce na měsíc listopad a prosinec 2007. 14) Dopravní firma vykázala v letech 1999 – 2007 své přepravní výkony v tis.tkm: 200; 215; 210; 250; 245; 230; 210; 220; 225. Vyrovnejte časovou řadu lineárním trendem, odhadněte přepravní výkon firmy v roce 2008 a zhodnoťte výstižnost této trendové funkce koeficientem determinace. Klíč k řešení Ano či ne?… 1) ano 2) ne 3) ne 4) ano 5) ne Doplňte… 6) konstantní trend, lineární trend, kvadratický trend, exponenciální trend, logistický trend 7) pět 8) Theilův 9) jednoho kalendářního roku 10) aditivní Řešte… 11) exponenciální funkce; 815,80 Kč 12) b) 4+0,9t´; c) 2,2t; 4,9t; d) 10,3t 13) 117 946,004 + 1972,917t, listopad 2007 = 135 702,3 Kč; prosinec 2007 = 137 675,2 Kč; listopad 2007 = <133205,2; 138199,4>; prosinec 2007 = <134999,5; 140350,9> 14) ; rok 2008 = 230,68 tkm; koeficient determinace