Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné STATISTICKÉ METODY PRO EKONOMY Pro prezenční formu studia Filip Tošenovský Karviná 2013 Projekt OP VK č. CZ.1.07/2.2.00/28.0017 „Inovace studijních programů na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné“ Obor: Statistika Anotace: Tento učební text předkládá čtenáři k nastudování důležité partie moderního statistického zpracování dat. Probíraná látka je zaměřena na statistické metody, které jsou standardní součástí učebních textů domácích i zahraničních vysokých škol. Tyto metody zahrnují statistické charakteristiky a jejich výklad, testování statistických hypotéz včetně popisu principů základních statistických testů, regresní a korelační analýzu, analýzu rozptylu a dále metody hojně využívané zejména v průmyslové praxi při řízení kvality výrobků a služeb: plánování experimentů, Taguchiho metody založené na ztrátových a nákladových funkcích, indexy způsobilosti a regulační diagramy. Klíčová slova: Statistické charakteristiky, regrese, korelace, analýza rozptylu, testování hypotéz, Taguchiho metody, plánování experimentů, ztrátové funkce, indexy způsobilosti, regulační diagramy. © Doplní oddělení vědy a výzkumu. Autor: Ing. Filip Tošenovský, Ph.D. Recenzenti: Prof. RNDr. Josef Tošenovský, CSc., Mgr. Radmila Stoklasová, Ph.D. ISBN Klepněte sem a zadejte text. - 3 - OBSAH ÚVOD ........................................................................................................................................ 5 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY................................ 6 1.1 STATISTICKÝ SOUBOR S JEDNÍM ZNAKEM................................................................................ 7 1.1.1 CHARAKTERISTIKY POLOHY ........................................................................................ 7 1.1.2 CHARAKTERISTIKY VARIABILITY................................................................................... 9 1.1.3 CHARAKTERISTIKY KONCENTRACE DAT ..................................................................... 11 1.1.4 OBECNÉ MOMENTY................................................................................................... 12 1.2 STATISTICKÝ SOUBOR SE DVĚMA ZNAKY............................................................................... 13 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU........................................................... 18 2.1 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ................................................................................... 18 2.2 MARKETINGOVÁ STUDIE ........................................................................................................ 23 2.3 MEDIÁNOVÝ TEST................................................................................................................... 31 2.4 TESTY DOBRÉ SHODY ............................................................................................................. 32 2.4.1 TESTOVÁNÍ DISKRÉTNÍHO PRAVDĚPODOBNOSTNÍHO ROZDĚLENÍ............................... 32 2.4.2 CHÍ-KVADRÁT TEST NEZÁVISLOSTI ZNAKŮ ................................................................. 33 3 REGRESNÍ ANALÝZA............................................................................................... 37 3.1 PODSTATA REGRESNÍ ANALÝZY ............................................................................................. 37 3.2 ODHAD REGRESNÍCH KOEFICIENTŮ ........................................................................................ 39 3.3 TEST VÝZNAMNOSTI REGRESNÍCH KOEFICIENTŮ ................................................................... 44 3.4 INTERVALY SPOLEHLIVOSTI PRO REGRESNÍ KOEFICIENTY..................................................... 45 3.5 TESTOVÁNÍ VHODNOSTI REGRESNÍHO MODELU ..................................................................... 45 3.6 SHRNUTÍ ................................................................................................................................. 46 4 KORELAČNÍ ANALÝZA........................................................................................... 54 4.1 KOEFICIENT KORELACE .......................................................................................................... 54 4.2 INDEX KORELACE ................................................................................................................... 57 4.3 SPEARMANŮV KORELAČNÍ KOEFICIENT ................................................................................. 57 4.4 VÍCENÁSOBNÁ ZÁVISLOST – PŘÍPAD DVOU VYSVĚTLUJÍCÍCH PROMĚNNÝCH ........................ 59 5 METODY PROGNÓZOVÁNÍ TRŽEB ..................................................................... 66 5.1 ČASOVÁ ŘADA........................................................................................................................ 66 5.2 DEKOMPOZIČNÍ MODELY ČŘ................................................................................................... 67 5.2.1 TREND...................................................................................................................... 68 5.2.2 SEZÓNNÍ SLOŽKA – PŘÍPAD KONSTANTNÍ SEZÓNNOSTI ............................................... 72 5.2.3 VLASTNOSTI NÁHODNÉ SLOŽKY MODELU A JEJICH OVĚŘENÍ...................................... 74 5.2.4 DURBINŮV-WATSONŮV TEST..................................................................................... 75 5.3 KLOUZAVÉ PRŮMĚRY ............................................................................................................. 77 5.3.1 PROSTÉ KLOUZAVÉ PRŮMĚRY ................................................................................... 78 5.4 PROGNÓZOVÁNÍ POMOCÍ MODELU ČŘ .................................................................................... 80 6 ANALÝZA ROZPTYLU ............................................................................................. 85 6.1 JEDNOFAKTOROVÁ ANOVA .................................................................................................... 85 6.1.1 HYPOTÉZY ANOVA..................................................................................................... 87 6.1.2 MÍRA TĚSNOSTI ZÁVISLOSTI....................................................................................... 91 - 4 - 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ A LATINSKÉ ČTVERCE......... 95 7.1 DVOJNÉ TŘÍDĚNÍ..................................................................................................................... 95 7.1.1 VLIV FAKTORU A....................................................................................................... 97 7.1.2 VLIV FAKTORU B....................................................................................................... 97 PŘÍKLAD 1 ........................................................................................................................... 97 7.2 TROJNÉ TŘÍDĚNÍ (LATINSKÉ ČTVERCE) .................................................................................. 99 8 ÚPLNÉ FAKTOROVÉ PLÁNY ............................................................................... 107 8.1 ZÁKLADY EXPERIMENTOVÁNÍ A OBLASTI POUŽITÍ .............................................................. 107 8.2 EXPERIMENTÁLNÍ PROCEDURA ............................................................................................ 108 8.3 EFEKT (VLIV) FAKTORU A JEHO VÝZNAMNOST .................................................................... 112 8.3.1 STATISTICKÝ TEST VÝZNAMNOSTI EFEKTU FAKTORU................................................ 113 8.3.2 GRAFICKÉ HODNOCENÍ VÝZNAMNOSTI EFEKTU....................................................... 114 8.3.3 GRAFY INTERAKCÍ................................................................................................... 115 8.4 MODEL EXPERIMENTU 23 ...................................................................................................... 116 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI............................ 122 9.1 POLOVIČNÍ PLÁNY ................................................................................................................ 123 9.2 GRAFICKÁ METODA HODNOCENÍ EFEKTU FAKTORU ............................................................ 125 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE.............................................. 133 10.1 DEFINICE A VLASTNOSTI ZTRÁTOVÉ FUNKCE ...................................................................... 133 10.2 ZTRÁTOVÉ FUNKCE PRO RŮZNÉ TYPY TOLERANCÍ............................................................... 135 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY KVALITY........................... 147 11.1 MONITOROVÁNÍ NÁKLADŮ NA JAKOST ................................................................................ 147 11.2 TAGUCHIHO PŘÍSTUP – PROVÁDÍ SE 100% KONTROLA PROCESU ......................................... 148 11.3 KONTROLA PROCESU SE PROVÁDÍ PO N JEDNOTKÁCH.......................................................... 149 11.4 REGULAČNÍ DIAGRAMY........................................................................................................ 150 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ................................. 157 12.1 CÍLE HODNOCENÍ ZPŮSOBILOSTI PROCESU........................................................................... 157 12.2 VÝBĚR VHODNÉHO UKAZATELE........................................................................................... 157 12.3 PŘEDPOKLADY HODNOCENÍ ZPŮSOBILOSTI.......................................................................... 157 12.4 ATRIBUTY............................................................................................................................. 158 12.5 MĚŘENÉ CHARAKTERISTIKY KVALITY ................................................................................. 158 12.6 INDEX CP ............................................................................................................................... 159 12.7 INDEX CPK ............................................................................................................................. 160 ZÁVĚR.................................................................................................................................. 166 SEZNAM POUŽITÉ LITERATURY................................................................................ 167 PŘÍLOHA Č.1 - TABULKY DURBIN-WATSONOVA TESTU .................................... 168 - 5 - ÚVOD Tento text představuje studijní oporu pro předmět Statistické metody pro ekonomy, který je vyučován na Slezské univerzitě, Obchodně-podnikatelské fakultě v Karviné. Předmět Statistické metody pro ekonomy, který navazuje na předmět Statistika, klade důraz na uplatnění statistických metod v ekonomických disciplínách, jakými jsou marketing, management, plánování výroby a management kvality. Samotný učební text je rozčleněn do 12 tématických bloků. Jednotlivé bloky odpovídají obvyklým 12 výukovým týdnům jednoho semestru a jsou přibližně stejně obsahově rozsáhlé a obtížné. Takový rozsah učiva odpovídá klasické dvouhodinové přednášce v prezenčním studiu na vysoké škole ekonomického zaměření. V prezenčním studiu je ovšem přednáška doplněna seminářem – cvičením, kde se probraná látka aplikuje na konkrétní číselné příklady, které se řeší až k požadovanému výsledku, a to často s pomocí počítačové podpory. Skriptum je ovšem možné využít i pro distanční vysokoškolské studium, což je forma studia, která v případě předmětu Statistické metody pro ekonomy vyžaduje velké úsilí studenta zaměřené na pravidelnost a vytrvalost v samostudiu, schopnost koncentrace na předmět, aktivní přístup spočívající v samostatném řešení příkladů. V tom všem by tato studijní opora měla pomoci nahradit kvalitní prezenční výuku a splnit úlohu učebnice. Dalším podpůrným zdrojem ke studiu může být také doporučená literatura uvedená v tomto učebním textu. Předpokladem pro úspěšné zvládnutí tohoto kurzu Statistické metody pro ekonomy je zvládnutí kurzu Statistika. Je sice pravda, že ne nutně vše, co se student v kurzu Statistika naučil, využije v tomto předmětu, neboť řada věcí dříve prezentovaných měla jiný účel. Rozhodně se ale vyplatí nabytá schopnost přesného a logického uvažování, nezbytností je též zvládnutí matematické symboliky a základních partií teorie pravděpodobnosti a statistiky. Nyní něco k obsahu předmětu Statistické metody pro ekonomy. Přesnější název předmětu by zněl: Vybrané statistické metody pro ekonomy, nebo ještě přesněji: Vybrané statistické metody a jejich použití v marketingu, managementu a kontrole jakosti. To jsou totiž tři významné oblasti uplatnění statistických metod, s nimiž se absolventi Obchodněpodnikatelské fakulty často v praxi setkávají. Uplatnění statistických metod v marketingu a managementu je obsahem zejména kapitol 2 až 7, přičemž kapitola 1 je věnována zopakování základních statistických pojmů. Kapitoly 8 až 12 jsou posléze věnovány aplikacím statistických metod při plánování výroby a kontrole jakosti. Během studia bude k řešení úloh využíván známý program Excel, pokud to daná úloha samozřejmě umožní. S tímto programem se student již seznámil v předmětu Statistika. Jak již bylo řečeno na začátku, text je rozdělen do 12 kapitol. Průměrně by samostatné studium každé kapitoly mělo zabrat odhadem 4 až 6 hodin. Odměna, která se na konci studia předmětu očekává, však určitě stojí za to: je to pocit, že bylo překonáno něco významného překážka, za níž se nachází svět profesionálů, kteří rozumějí odborným metodám a postupům obvykle nepřístupným obyčejným smrtelníkům. Získaný nadhled umožní snadněji pochopit a osvojit si praktické zásady analýzy informací, jimiž jsme všichni dnes velmi zahlceni. 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY - 6 - 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY Všechny statistické metody pracují s jistým pojmovým aparátem, jenž slouží k tomu, aby tvůrce statistické teorie, popřípadě uživatel již výsledné teorie mohl sdělit svému okolí výsledek vlastní analytické činnosti. Aby se tato komunikace značně zjednodušila, zavádějí se pojmy, které mají ve statistice již dlouhodobě své stálé místo. Výhoda spočívá v tom, že takové názvosloví se zavede pouze jednou, avšak jeho platnost je následně pro všechny zainteresované strany trvalá. Pomocí základních pojmů lze pak vytvářet pojmy nové, případně i celé metody. V této kapitole zopakujeme a také rozšíříme některé pojmy z předmětu Statistika a dále zavedeme s využitím definovaných pojmů základní statistické charakteristiky, které vhodně slouží k popisu některých reálných jevů. Hlavním cílem statistiky je analyzovat jisté datové soubory. Daný soubor dat je obvykle vytvořen za jistým účelem – za účelem analýzy podoby či chování nějaké veličiny, které se říká statistický znak. Příkladem takové veličiny je výška žen v České republice, politická preference občana ČR, hrubý domácí produkt, průměr vyráběného ložiska a podobně. Nás budou zajímat především číselné statistické znaky, s nimiž se matematicky dobře pracuje. Pokud je toto náš případ, potom daný znak může nabývat obecně různých hodnot. Množina všech hodnot, kterých znak může nabýt, se ve statistice nazývá základní soubor nebo také populace. Populace se vztahuje k danému statistickému pojmu a je to tedy v tomto smyslu relativní pojem. Pokud nás bude zajímat politická preference občana ČR, pak tato populace nebude obvykle k dispozici, ledaže by se provádělo sčítání lidu a jeho výsledek by byl veřejně dostupný. Pokud nás ale bude zajímat prospěch z předmětu Statistické metody pro ekonomy v konkrétní skupině studentů vysoké školy, bude tato populace mnohem dostupnější. Statistici se nicméně častěji setkávají se situací, kdy základní soubor k dispozici není. V takovém případě jim nezbývá nic jiného než provést výběr z této populace a získat tzv. výběrový soubor. Výběrový soubor lze získat různě a existují specializované disciplíny, které se různými formami výběru zabývají erudovaně. Ve statistice se nejčastěji požaduje náhodný výběr, což je datový soubor vznikající tak, že každý jeho prvek má stejnou pravděpodobnost, že bude vybrán. Přesně řečeno, náhodný výběr o rozsahu n je náhodný vektor ( , kde náhodné veličiny mají stejné pravděpodobnostní rozdělení, resp. pocházejí ze stejné populace, a jsou statisticky vzájemně nezávislé. Takový výběr se požaduje jednoduše z toho důvodu, že má jisté „reprezentativní“ vlastnosti, s nimiž statistická teorie počítá. Máme-li k dispozici výběrový soubor, můžeme jej analyzovat vybranými statistickými metodami a na základě výsledků této analýzy pak formulovat závěry o tom, jaká by mohla být datová struktura, která existuje v základním souboru. Takové úvahy pak tvoří tzv. statistickou indukci. Je-li k dispozici základní soubor, může být jedinou ambicí statistika tuto populaci popsat. Metody sloužící k tomuto účelu utvářejí deskriptivní/popisnou statistiku. Charakteristiky využívané k popisu populace se logicky nazývají populační charakteristiky. Charakteristika je obecně údajem, který jistým způsobem shrnuje informaci o sledovaném datovém souboru. Pokud má daný soubor rozsah dvou tisíc hodnot, je jistě vhodnější pro nástin podoby tohoto souboru užít jednoho čísla, než vyjmenovávat všechny jeho hodnoty. Tato agregace ovšem není bez vady: nutně během ní dochází k nemalé ztrátě původní informace. V případě, že je k dispozici pouze výběrový soubor, užívají se k popisu tohoto výběru výběrové Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 7 charakteristiky. Zvyklostí je užívat ke značení populačních charakteristik písmena řecké abecedy, zatímco pro výběrové charakteristiky se užívá obvykle latinka. Takovým způsobem je do statistiky vnesen pořádek a všichni uživatelé teorie vědí, s čím v danou chvíli pracují. Další pojmy a nově charakteristiky nyní zavedeme zvlášť pro soubor, v němž se sleduje jeden statistický znak, a pro soubor, v němž se vykytují dva statistické znaky. 1.1 STATISTICKÝ SOUBOR S JEDNÍM ZNAKEM Nechť je dán základní soubor skládající se z hodnot , kde n je přirozené a tedy konečné číslo (my budeme pracovat zejména se soubory konečné velikosti). Sledovaným statistickým znakem nechť je veličina X. Čísla jsou hodnoty, kterých tato veličina nabývá. Pokud bychom na tento soubor aplikovali náhodný výběr, můžeme na proměnnou X nahlížet jako na (diskrétní) náhodnou veličinu. Přestože soubor obsahuje hodnoty , některé z čísel se mohou opakovat. V takovém případě pak nabývá veličina X pouze k různých hodnot . Hodnota se může v souboru vyskytovat -krát a číslo pak nazýváme absolutní četností výskytu hodnoty . Obdobně se hodnota vyskytuje v souboru -krát, hodnota ... -krát a tak dále, až konečně číslo je obsaženo v souboru -krát. Různé varianty znaku X, tj. hodnoty , tvoří tzv. variační řadu. Kromě absolutních četností pracujeme také s jinými typy četností: a) s relativní četností výskytu hodnoty danou výrazem kde ∑ = značí rozsah souboru. Pokud seřadíme hodnoty vzestupně a obdržíme soubor , kde hodnota má absolutní četnost svého výskytu , můžeme zavést také pojmy b) absolutní kumulativní četnost hodnoty daná výrazem ∑ . c) relativní kumulativní četnost hodnoty daná výrazem ∑ . Uvedené druhy četností mohou být využity v souvislosti s populací i výběrovým souborem. 1.1.1 CHARAKTERISTIKY POLOHY Nechť je dán základní soubor skládající se z hodnot . Jednou z nejdůležitějších charakteristik polohy dat je prostý aritmetický průměr definovaný vztahem 1-1 ∑ . Protože se tento průměr vztahuje k populaci, nazývá se také populační průměr. V případě, že bychom vybrali z populace náhodným výběrem o rozsahu m hodnoty ̃ ̃ ̃ , mohli bychom odhadnout obvykle neznámý populační průměr výběrovým průměrem 1-2 ̅ ∑ ̃ . 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY - 8 Excel: V programu Excel lze obě charakteristiky vypočítat funkcí průměr(), která požaduje jediný parametr, a to odkaz na pole hodnot, ze kterého se průměrná hodnota počítá. Jestliže víme, že v souboru se ve skutečnosti vyskytuje pouze k různých hodnot: hodnota právě -krát, hodnota právě -krát, atd. ... až hodnota právě -krát, můžeme přepsat vzorec 1-1 do vzorce 1-3 ∑ ∑ ∑ . Obdobně lze přepsat vztah 1-2, pokud se využijí absolutní četnosti, s nimiž se vyskytují ve výběrovém souboru vybrané hodnoty ̃ ̃ ̃ . Na průměr vyjádřený vzorcem 1-3 lze také nahlížet jako na speciální případ váženého průměru. Vážený průměr hodnot s vahami je definován vztahem 1-4 ∑ ∑ . Je-li součet vah roven jedné, je jasné, že vzorce 1-3 a 1-4 jsou stejné pro ∑ , i = 1, 2,..., k. Mezi charakteristiky polohy se dále řadí modus ̂, což je hodnota, která má v daném souboru dat nejvyšší absolutní četnost. Tento popis neurčuje modus jednoznačně, a tak se může stát, že datový soubor bude mít více modusů. Další neméně významnou charakteristikou polohy je medián zvaný též prostřední hodnota, resp. padesátiprocentní kvantil. Medián, který se značí ̃, respektive , není obecně roven průměrné hodnotě dat z daného souboru, a proto nelze zaměňovat střední hodnotu/průměr s prostřední hodnotou. Pro datový soubor lze medián vypočítat následovně: 1) datový soubor seřadíme vzestupně, čímž vznikne nový soubor 2) spočteme číslo . 3) Je-li z celé číslo (nastává pro liché n), je ̃ . Není-li z celé číslo (nastává pro sudé n), platí ̃ . Excel: Excelovská funkce počítající medián má tvar median(), kde parametrem funkce je odkaz na pole dat, ve kterém se medián hledá. Medián je určen jednoznačně. Upozorňujeme, že aby tato funkce byla použita správně, musí být každá hodnota souboru vypsána, tj. nesmí jít o datový soubor charakterizovaný různými hodnotami sledovaného znaku spolu s jejich absolutními četnostmi. PŘÍKLAD 1 Nechť se v daném výběrovém souboru dat vyskytuje hodnota 7 s absolutní četností 234, hodnota 9 s absolutní četností 672 a hodnota 43 s absolutní četností 347. Spočtěme relativní četnosti jednotlivých hodnot, prostý aritmetický průměr, modus a medián. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 9 - ŘEŠENÍ Protože modus je nejčetnější hodnota, je modusem číslo 9. Relativní četnost výskytu hodnoty 7 je rovna číslu 234/(234+672+347), relativní četnost výskytu hodnoty 9 je rovna číslu 672/(234+672+347) a relativní četnost výskytu hodnoty 43 je rovna 347/(234+672+347). Prostý aritmetický průměr je roven Celkem je k dispozici 1253 hodnot, tj. lichý počet hodnot. Medián je tudíž 627.hodnota ve vzestupně seřazeném souboru, tj. číslo 9. 1.1.2 CHARAKTERISTIKY VARIABILITY Charakteristiky polohy shrnují jistým způsobem informaci o tom, kde se na reálné ose „typicky“ vyskytují hodnoty sledovaného znaku X. Ze své podstaty ale neříkají nic o tom, jak jsou hodnoty tohoto znaku „od sebe daleko“ na reálné ose. K tomuto účelu slouží právě charakteristiky variability, které svým způsobem odrážejí „typickou“ vzájemnou vychýlenost jednotlivých hodnot veličiny X. Pro základní soubor je definován populační rozptyl vztahem 1-5 ∑ . V případě, že bychom vybrali z populace náhodným výběrem o rozsahu m hodnoty ̃ ̃ ̃ , mohli bychom odhadnout obvykle neznámý populační rozptyl výběrovým rozptylem 1-6 ∑ ̃ ̅ , kde ̅ je prostý aritmetický průměr hodnot ̃ ̃ ̃ . Poznamenejme, že vztah 1-6 je typickým vzorcem pro výpočet výběrového rozptylu, nikoliv však jediným. Ve vztahu 1-5 lze vidět průměrnou kvadratickou odchylku dílčích hodnot znaku X od průměrné hodnoty tohoto znaku (od populačního průměru ). Excel: V české verzi Excelu lze hodnotu 1-5 vyčíslit funkcí var(), kde parametrem funkce je odkaz na pole dat, ze kterého se rozptyl počítá. Pro vztah 1-6 je definována funkce var.výběr() s týmž funkčním argumentem. Obdobně jako v případě průměru i u rozptylu můžeme pozměnit vzorec 1-5, resp. 1-6 do ekvivalentních tvarů pracujících s absolutními četnostmi: Jestliže víme, že v základním souboru se ve skutečnosti vyskytuje pouze k různých hodnot: hodnota právě -krát, hodnota právě -krát, atd. ... až hodnota právě -krát, můžeme přepsat vzorec 1-5 do tvaru 1-7 ∑ ∑ . Obdobně lze přepsat vztah 1-6, pokud se využijí absolutní četnosti, s nimiž se vyskytují ve výběrovém souboru vybrané hodnoty ̃ ̃ ̃ . 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY - 10 Mezi další charakteristiky variability patří směrodatná odchylka, která se počítá jako druhá odmocnina z rozptylu. Vyjdeme-li při tomto výpočtu z populačního rozptylu, vypočítáme takto populační směrodatnou odchylku . Pokud vyjdeme z výběrového rozptylu, obdržíme výběrovou směrodatnou odchylku s. Excel: V Excelu lze populační směrodatnou odchylku vypočítat funkcí stdevpa(), kde parametrem funkce je odkaz na základní soubor dat, jehož směrodatná odchylka se počítá. V případě výběrové směrodatné odchylky funguje funkce stdeva(), která pracuje s výběrovým souborem dat jako se svým jediným funkčním parametrem/argumentem. Jde o výpočet odmocnin z čísla 1-5, resp. 1-6. K charakteristikám variability se také řadí variační rozpětí , kde značí největší hodnotu ve sledovaném souboru dat a značí nejmenší hodnotu v tomto souboru. Excel: Největší hodnotu v daném souboru lze nalézt funkcí max(), nejmenší hodnotu funkcí min(). Obě funkce opět vyžadují zadat jako parametr odkaz na pole dat, v nichž se hledají obě hodnoty. Výčet charakteristik variability zakončeme variačním koeficientem V. Pokud je k dispozici základní soubor, je tento ukazatel definován vztahem 1-8 | | . Pokud je k dispozici pouze výběrový soubor – obvyklejší varianta – potom počítáme výběrový varianční koeficient 1-9 | ̅| . Variační koeficient je vhodné využít v situaci, kdy porovnáváme variabilitu hodnot ve dvou různých datových souborech, přičemž každý z těchto souborů obsahuje data v jiných fyzikálních jednotkách. Soubor s vyšším V pak vykazuje vyšší variabilitu hodnot. PŘÍKLAD 2 Nechť se v daném výběrovém souboru dat vyskytuje hodnota 7 s absolutní četností 234, hodnota 9 s absolutní četností 672 a hodnota 43 s absolutní četností 347. Nechť jde v tomto případě o základní soubor a spočtěme populační rozptyl. ŘEŠENÍ Pracujeme se vzorcem 1-5. V předchozím příkladě, kdy jsme pracovali se stejnými údaji, ovšem chápali jsme je jako výběrový soubor, jsme vypočítali průměr v hodnotě 18,07. Stejný průměr tedy vystupuje i zde, avšak správně by měl být nazván populační průměr. Podle vzorce 1-5 tedy dostáváme: Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 11 - 1.1.3 CHARAKTERISTIKY KONCENTRACE DAT Poslední skupinou charakteristik, které zde popíšeme, jsou ukazatele, které v jistém slova smyslu odrážejí míru seskupení hodnot tvořících analyzovaný datový soubor. Do této skupiny patří charakteristika špičatosti Ku (z anglického kurtosis) a charakteristika šikmosti Sk (anglicky skewness). Je-li k dispozici základní soubor , je veličina Ku dána definičně vztahem 1-9 ∑ a tento vzorec má opět také ještě ekvivalentní podobu 1-10 ∑ ∑ , jestliže se v souboru čísel vyskytuje pouze k různých hodnot: hodnota právě -krát, hodnota právě -krát, atd. ... až hodnota právě -krát. Pokud bychom počítali výběrovou špičatost, bude se postupovat opět podle vzorců 1-9, respektive 1-10, v nichž dojde pouze ke změně značení: místo se do vzorců dosadí výběrový průměr ̅ a symbol , čtvrtá mocnina populační směrodatné odchylky, přejde ve čtvrtou mocninu výběrové směrodatné odchylky . Jak je evidentní ze vzorců 1-9 a 1-10, špičatost nabývá pouze nezáporných hodnot a vyšší hodnota tohoto ukazatele vyjadřuje vyšší špičatost, tj. vyšší koncentraci hodnot blízkých prostřední hodnotě ve srovnání s ostatními hodnotami daného statistického znaku. Někdy bývají vzorce 1-9 a 1-10 pozměněny tak, že se od nich navíc odečítá číslo 3, čímž dochází ke srovnání špičatosti daného souboru dat se špičatostí normálního rozdělení. Normální rozdělení má špičatost 3 bez ohledu na své parametry. To znamená, že pokud vyjde tato modifikovaná šikmost kladně, má analyzovaný datový soubor vyšší šikmost než normální rozdělení. Existují ještě i další modifikace této charakteristiky. Excel: Excelovská funkce vyhrazená pro výpočet špičatosti má tvar skew(), kde do závorky vkládáme odkaz na oblast s údaji, jejichž špičatost počítáme. Excel užívá jednu z modifikací špičatosti, která není totožná s nejvíce užívanou definicí 1-9 či 1-10, nicméně pořád může být využita ke srovnání špičatosti dvou různých datových souborů. Charakteristiku šikmosti definujeme rovnicí 1-11 ∑ , případně podobně jako u špičatosti rovnicí 1-12 ∑ ∑ , jestliže se v základním souboru čísel vyskytuje pouze k různých hodnot: hodnota právě -krát, hodnota právě -krát, atd. ... až hodnota právě -krát. Pokud bychom počítali výběrovou šikmost, platí analogická poznámka, jaká byla učiněna v případě špičatosti: bude se postupovat opět podle vzorců 1-11, respektive 1-12, v nichž dojde pouze 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY - 12 ke změně značení: místo se do vzorců dosadí výběrový průměr ̅ a symbol , třetí mocnina populační směrodatné odchylky, přejde ve třetí mocninu výběrové směrodatné odchylky . Jak vyplývá z definičních vzorců, šikmost může nabývat libovolné reálné hodnoty. V případě, že ukazatel vychází nula, poukazuje tento výsledek na symetrické rozdělení četností hodnot v daném datovém souboru. Koncentrace malých hodnot je stejná jako koncentrace velkých hodnot v daném souboru. Pokud vychází šikmost kladně, má rozdělení četností hodnot z daného souboru kladné sešikmení (sešikmení doprava) a koncentrace malých hodnot je v takovém souboru vyšší než koncentrace velkých hodnot. Pokud vychází šikmost záporně, má rozdělení četností hodnot z daného souboru kladné sešikmení (sešikmení doleva) a koncentrace malých hodnot je v takovém souboru naopak menší než koncentrace velkých hodnot. V případě nenulové šikmosti hovoříme také o asymetrickém rozdělení četností. Rozdělení četností je obvykle reprezentováno grafem v rovině se dvěma osami souřadnic, přičemž na vodorovnou osu se vyznačují různé obměny sledovaného statistického znaku a na svislou osu četnosti, s nimiž se tyto obměny vyskytují v daném datovém souboru. PŘÍKLAD 3 Základní soubor obsahuje tyto hodnoty: 111 s absolutní četností 500, 222 s abs. četností 400, 333 s abs. četností 600 a 444 s abs. četností 300. Vypočítejme populační šikmost. ŘEŠENÍ Počet dat je 1800. Populační průměr je roven 265,166. Populační rozptyl je roven 13880,14. Směrodatná odchylka umocněná na třetí je totéž co rozptyl umocněný na 3/2, což je hodnota 1635275. Podle vzorce 1-12 tak dostáváme Lze říci, že rozdělení četností je u tohoto znaku téměř přesně symetrické. 1.1.4 OBECNÉ MOMENTY Obecné momenty jsou charakteristiky, které nahlížejí na strukturu dat z trochu jiného úhlu pohledu. Existuje několik důvodů, proč se s nimi pracuje. Jedním z těchto důvodů je skutečnost, že za jistých podmínek si rozdělení četností a momenty vzájemně jednoznačně odpovídají: datové soubory se stejnými momenty budou mít stejné rozdělení četností a naopak. Nás nicméně zajímá zejména druhý důvod práce s momenty, a tím je jejich vhodnost pro systematičtější výpočet některých charakteristik, které jsme uvedli v předchozích kapitolách. Pro základní soubor dat definujeme k-tý obecný moment Mk předpisem 1-13 ∑ Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 13 Jde tedy o průměr k-tých mocnin původních hodnot. Pokud se v souboru vyskytuje jen m různých hodnot , i=1, 2, …, m s četnostmi , lze samozřejmě jako u předchozích charakteristik vyčíslit 1-13 také dle vztahu ∑ . Platí nyní následující vztahy: 1-14 , PŘÍKLAD 4 Datový soubor D obsahuje hodnotu 11 s absolutní četností 4235 a hodnotu 254 s absolutní četností 6543. Spočtěme první a druhý obecný moment. ŘEŠENÍ Podle výše uvedeného platí 1.2 STATISTICKÝ SOUBOR SE DVĚMA ZNAKY Máme-li statistický soubor takový, že pro každé přirozené číslo i = 1, 2, …, m a j = 1, 2, …, n obsahuje soubor jistou dvojici hodnot nebo i více dvojic s těmito hodnotami, hovoříme o statistickém souboru se dvěma znaky (též argumenty). Počet výskytů dvojice hodnot se nazývá sdruženou četností dvojice a značí se . Rozsah souboru je ∑ . Rozdělení sdružených četností se zapisuje do dvourozměrné tabulky, která se nazývá kontingenční tabulka (viz. Tabulka 1). Do záhlaví tabulky se zapisují různé možné obměny obou sledovaných znaků, vnitřek tabulky obsahuje sdružené četnosti výskytu různých kombinací těchto znaků. Pod znakem y si můžeme představit například rodinný stav jednotlivce a pod znakem x stupeň vzdělání jednotlivce. Například sdružená četnost pak bude vyjadřovat, kolik je v daném souboru jednotlivců, kteří mají rodinný stav a dosáhli současně stupně vzdělání . Obdobné tvrzení platí i pro jiné sdružené četnosti. Poslední sloupec tabulky je obvykle vyhrazen pro součet sdružených četností v daném řádku a poslední řádek tabulky je vyhrazen pro součet sdružených četností z daného sloupce tyto dílčí součty se nazývají marginální četnosti. 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY - 14 Tabulka 1: kontingenční tabulka y x y1 y2 ... yn x1 f11 f12 ... f1n f1· x2 f21 f22 ... f2n f2· ... ... ... ... ... ... xm fm1 fm2 ... fmn fm· f·1 f·2 f·n r Předpokládáme-li, že uvedená tabulka představuje celou populaci, můžeme při zavedené symbolice vypočítat základní dvě charakteristiky znaků X a Y – populační průměr, respektive střední hodnotu, a populační rozptyl, a to podle následujících vzorců 1. Populační průměry 1 ,X i ij i j x f r     1 .Y j ij j i y f r     2. Populační rozptyly 2 21 ( )X i X ij i j x f r     2 21 ( )Y j Y ij j i y f r     Pokud by tabulka reprezentovala výsledek náhodného výběru, počítali bychom výběrové průměry a výběrové rozptyly podle vzorců 1. Výběrové průměry 1 ,i ij i j x x f r    1 .j ij j i y y f r    2. Výběrové rozptyly 2 21 ( ) , 1 X i X ij i j s x f r      2 21 ( ) . 1 Y j Y ij j i s y f r      Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 15 Pracujeme-li se dvěma znaky jako v našem případě daném výše uvedenou kontingenční tabulkou, definujeme také další důležitou charakteristiku zvanou kovariance. Populační kovarianci ),cov( YX znaků X a Y definujeme vzorcem 1-15 1 1 cov( , ) ( )( ) .i X j Y ij i j ij X Y i j i j X Y x y f x y f r r           Pokud budeme pracovat s výběrovými daty o rozsahu n, , definujeme výběrovou kovarianci vztahem 1-16 1 ( )( ) . 1 XY i j ij i j c x x y y f r      PŘÍKLAD 5 Znak X nabývá celých hodnot: 3, 5, 4, 6, 7, 9. Pro tyto hodnoty (v uvedeném pořadí) byly zjištěny následující hodnoty druhého znaku Y: 1, 2, 7, 9, 11, 13, tj. číslu 3 odpovídá hodnota 1 druhého znaku, číslu 5 odpovídá hodnota 2 druhého znaku, apod. Pro oba znaky platí, že každá hodnota má vždy absolutní četnost svého výskytu rovnu jedné. Spočtěme populační kovarianci. ŘEŠENÍ Využijeme vzorce 1-15, v němž jsou všechny četnosti rovny jedné. Průměrné X má hodnotu 5,66, průměr Y je roven 7,16. Dostáváme 1 (3 5,66) (1 7,16) ... (9 5,66) (13 7,16) cov( , ) ( )( ) 7,55. 6 i X j Y ij i j X Y x y f r                Kovariance se využívá k vyjádření závislosti mezi znaky X a Y ve tvaru přímky, tj. k vyjádření jejich lineární závislosti. Lze říci, že pokud vychází kovariance kladně, existuje mezi oběma znaky do jisté míry závislost ve tvaru přímé úměry. Přímá úměra značí, že s růstem hodnoty jednoho znaku úměrně roste i hodnota druhého znaku. Vychází-li kovariance naopak záporná, signalizuje to existenci jisté míry nepřímé úměry: stoupne-li hodnota jednoho znaku, úměrně tomu klesne hodnota druhého znaku. Nulová kovariance naznačuje, že lineární závislost mezi oběma znaky neexistuje. Jak je vidět, u kovariance nás zajímá především její znaménko. Aby však tato charakteristika mohla posloužit lépe jako ukazatel lineární závislosti, převádí se její hodnota na škálu, resp. interval [-1,1], který je vhodnější referencí pro měření intenzity lineární závislosti. Výsledkem tohoto převodu je koeficient párové korelace, a to buď populační, pracujeme-li s populací, nebo výběrový, je-li k dispozici pouze výběrový soubor. Populační koeficient párové korelace má tvar 1-17 , ),cov( YX YX     kde X je populační směrodatná odchylka znaku X a Y je populační směrodatná odchylka znaku Y. V případě výběru počítáme odhad koeficientu - výběrový koeficient párové korelace 1 ZÁKLADNÍ STATISTICKÉ POJMY, CHARAKTERISTIKY - 16 - 1-18 , YX XY ss c r   kde Xs je výběrová směrodatná odchylka znaku X a Ys je výběrová směrodatná odchylka znaku Y. Populační i výběrový koeficient korelace mohou nabývat pouze hodnot z intervalu [-1,1]. Vyjde-li populační párová korelace jedna, znamená to, že mezi oběma znaky existuje přesná funkční závislost v podobě přímé úměry (rostoucí přímky). Vyjde-li populační korelace naopak minus jedna, existuje mezi oběma znaky přesná funkční závislost v podobě nepřímé úměry (klesající přímky). Pokud je populační korelace nulová, říkáme, že znaky X a Y jsou nezkorelované (nikoliv nezávislé!!). Kromě párové korelace existují i jiné typy korelací, o nichž pohovoříme v kapitole 5. KONTROLNÍ TEST 1 Následující testové otázky se týkají číselného souboru, v němž se vyskytují s uvedenými absolutními četnostmi různé hodnoty znaku X. Hodnoty X Absolutní četnosti 23 2345 34 6213 33 456 35 8876 37 12134 31 5436 16 445 a. Spočtěte průměrnou hodnotu (prostý aritmetický průměr), medián a modus znaku X. b. Jak budou vypadat rozptyl, směrodatná odchylka, variační koeficient a variační rozpětí v případě, že uvedená tabulka představuje základní soubor. Jak budou vypadat uvedené charakteristiky v případě, že bude tabulka reprezentovat výběrový soubor? c. Spočtěte první a druhý obecný moment znaku X. Jsou dány následující výběrové údaje o znacích X a Y, které si odpovídají: X 3 4 5 1 6 7 8 Y 5 3 4 6 7 8 9 d. Čemu se rovná výběrová kovariance? e. Odhadněte párovou korelaci mezi znaky X a Y. f. Medián a průměr jsou charakteristiky ……………………….. . g. Směrodatná odchylka a variační rozpětí jsou charakteristiky……………………… . h. Šikmost a špičatost jsou charakteristiky……………………….. . i. Koeficient párové korelace nabývá hodnot z intervalu…………….. . Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 17 ŘEŠENÍ KONTROLNÍHO TESTU 1 a. Dle vzorce 1-3 je průměr roven 33,85. Celkem je k dispozici 35905 hodnot, tj. lichý počet. Mediánem je hodnota vzestupně seřazeného souboru dat s pořadovým číslem 17953. Následující tabulka obsahuje vzestupně seřazená data: Hodnoty Absolutní četnosti 16 445 23 2345 31 5436 33 456 34 6213 35 8876 37 12134 Hodnot 16 až 34 včetně je celkem 14895. Hodnot 16 až 35 včetně je celkem 23771. Je tedy zřejmé, že hledaný medián je číslo 35. Modus je roven číslu 37 (nejčetnější hodnota). b. Populační rozptyl je dle vzorce 1-7 roven 16,56. Odmocnina z rozptylu 4,07, což je populační směrodatná odchylka. Variační rozpětí = 37-16 = 21. Populační variační koeficient je roven 4,07/33,85 = 0,12. Výběrový rozptyl = (35905/35904).16,56 = 16,56. Při daném velkém počtu hodnot je to – zaokrouhleno na dvě desetinná místa – totéž číslo. Uvedený výpočet vyplývá ze vztahu mezi populační a výběrovým rozptylem. Výběrová směrodatná odchylka tedy vyjde rovněž 4,07, omezíme-li se na dvě desetinná místa. Tím zůstanou prakticky totožné i zbylé výběrové charakteristiky. c. První moment = průměr = 33,85. Druhý moment = 1162,56. d. Výběrová kovariance = 3,166. e. Výběrová korelace = 0,608. f. Polohy. g. Variability. h. Koncentrace dat. i. [-1, 1]. 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 18 - 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU Ve druhé kapitole se budeme zabývat testováním statistických hypotéz, což je jeden z nejdůležitějších postupů užívaných ve statistice. V první části zopakujeme některé hlavní zásady testování hypotéz. S mnohými těmito rysy jste se již setkali v kurzu Statistika. V další části kapitoly popíšeme jednak statistické testy, které lze považovat za základní, a také jsou takto prezentovány v mnohých naučných textech, jednak některé další testy, které se obzvlášť hodí do marketingu. Postup práce s testy je demonstrován na konkrétních příkladech. 2.1 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Statistické hypotézy tvoří jen část vědeckých (nebo alespoň odborných) hypotéz. Týkají se náhodných veličin a rozdělujeme je do dvou velkých tříd na parametrické hypotézy a neparametrické hypotézy. Parametrické hypotézy se vztahují k jednomu parametru nebo několika parametrům daného pravděpodobnostního rozdělení náhodné veličiny (neboli znaku populace). Neparametrické hypotézy se netýkají parametrů rozdělení náhodné veličiny, nýbrž jiných statistických vlastností, např. tvaru pravděpodobnostního rozdělení této veličiny (může nás třeba zajímat, zda lze chování náhodné veličiny modelovat binomickým rozdělením, normálním rozdělením apod.). Zopakujme, že v každém statistickém testu vystupují proti sobě dvě hypotézy: testovaná hypotéza (testované tvrzení), kterou nazýváme nulová hypotéza a značíme H0, a alternativní hypotéza, značena H1. H1 je obvykle logickou negací hypotézy H0. Při testování hypotézy máme k dispozici především výsledek náhodného výběru. Může jít například o data z marketingového průzkumu. Bez provedení náhodného výběru nelze realizovat statistický test. Na základě výběrových dat máme nyní rozhodnout, zda testovanou hypotézu přijmout nebo zamítnout. Za tímto účelem počítáme tzv. testové kritérium T jakožto funkci dat, která jsme získali náhodným výběrem, a dále vymezujeme na reálné ose podmnožinu zvanou kritický obor. Padne-li hodnota testového kritéria T pro získaný vzorek dat do kritického oboru, zamítneme testovanou, tj. nulovou hypotézu. Naopak, padne-li hodnota testového kritéria mimo kritický obor, testovanou hypotézu přijímáme. Kritický obor vymezuje obvykle reálné číslo zvané kritická hodnota K (kritický obor lze vymezit také kvantilem). Tato kritická hodnota se hledá buďto ve statistických tabulkách nebo se počítá s využitím vhodného softwaru (často např. Excelu). Poznamenejme, že přijetí statistické hypotézy není matematickým důkazem platnosti testovaného tvrzení. Testování hypotéz nemusí vždy vést ke správným rozhodnutím, což je přirozené, neboť jde o náhodný proces využívající omezené informace náhodného výběru. Nejistota závěru statistického testu souvisí mimo jiné s tzv. hladinou významnosti , kterou si statistik stanovuje při provádění statistického testu hypotézy (viz dále). Zdůrazněme opět, že základem statistického testování je náhodnost výběru, která souvisí s tím, zda vybraná data byla vybrána nezávisle na sobě. Tuto skutečnost lze rovněž testovat, viz např. [10]. Pro praktické testování statistických hypotéz nyní shrneme čtyři kroky, které vedou k rozhodnutí o zamítnutí nebo přijetí nulové hypotézy. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 19 Obecný postup testování 1. Formulace nulové hypotézy H0 a alternativní hypotézy H1, 2. Výpočet testového kritéria T, 3. Nalezení kritické hodnoty K pro zvolenou hladinu významnosti (vymezení oboru C), 4. Porovnání K a T, resp. rozhodnutí, zda T C , a dle toho přijetí nebo zamítnutí H0. Závěr a věrohodnost testu Je-li T C , H0 se zamítá. Je-li T C , H0 se přijímá. Protože rozhodnutí přijmout nebo zamítnout hypotézu závisí na omezené informaci obsažené ve vzorku dat, můžeme se při testování dopustit chyb dvojího druhu: a. Zamítneme nulovou hypotézu, která ve skutečnosti platí. Tím se dopustíme chyby prvního druhu. Pravděpodobnost chyby prvního druhu se značí  a nazývá se hladina významnosti. b. Přijmeme nulovou hypotézu, která ve skutečnosti neplatí. Dopustíme se tak chyby druhého druhu. Pravděpodobnost chyby druhého druhu se značí . Pravděpodobnost 1 -  se nazývá síla testu. Je to pravděpodobnost, že test povede k oprávněnému zamítnutí testované hypotézy H0. Hladina významnosti  se při testu volí obvykle 0,05, 0,01 nebo méně častěji 0,1. Kromě hladiny významnosti se využívají při testování hypotéz také tzv. p-hodnoty. Často jsou součástí výstupů matematických počítačových programů. P-hodnota vyjadřuje pravděpodobnost obdržení nebo překročení spočteného testového kritéria. Pokud je p-hodnota menší než stanovená hladina významnosti, příp. rovna této hladině, nulová hypotéza se zamítá. V opačném případě se nulová hypotéza přijímá. Základní statistické testy Uveďme některé elementární statistické testy: (A) Jednovýběrový t – test. (B) Dvouvýběrový t – test s rovností rozptylů. (C) Dvouvýběrový t – test s nerovností rozptylů. (D) Dvouvýběrový párový t-test. (E) Dvouvýběrový F – test pro rovnost rozptylů. Každý test je nyní uveden v podobě čtyřkrokového postupu a lze pro něj též využít program Excel, v němž v menu Nástroje/Analýza dat zvolí uživatel příslušný analytický nástroj/test. (A) Test předpokladu o střední hodnotě základního souboru (Jednovýběrový t – test střední hodnoty) Nechť X = (X1,..., Xn) je náhodný výběr z rozdělení N(, 2 ), přitom 2 není známo. 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 20 - 1. Testuje se nulová hypotéza H0:  = 0 proti alternativě H1:   0, kde hodnota 0 je dána. 2. Testové kritérium T má tvar 0 , X T n S    kde X = výběrový průměr spočtený z dat X1,..., Xn, S = výběrová směrodatná odchylka spočtená z dat X1,..., Xn, 0 = předpoklad o  zadaný statistikem n = rozsah výběru. 3. Kritickou hodnotou K je zde kritická hodnota Studentova rozdělení s n-1 stupni volnosti na hladině , která se značí tn-1(). Pro toto číslo definičně platí 1( ( ))nP T t    . Kritická hodnota se najde ve statistických tabulkách nebo v Excelu pomocí funkce TINV( ; n-1). Kritický obor je zde dán množinou C = (-, -K][K, +). 4. Je-li T  tn-1(), zamítá se H0 a přijímá H1, jinak se přijímá H0. (B) Test významnosti rozdílu mezi dvěma populačními průměry (Dvouvýběrový t-test s rovností rozptylů) Jsou dány dva nezávislé náhodné výběry o rozsahu n1, resp. n2 z rozdělení N(1, 2 1 ), resp. N(2, 2 2 ). Rozptyly 2 1 a 2 2 nejsou známy, předpokládá se ale, že 2 1 = 2 2 . 1. Testuje se nulová hypotéza H0: 1 = 2 proti alternativě H1: 1  2. 2. Použije se testovací kritérium T:      1 2 1 21 2 2 2 1 21 1 2 2 2 , 1 1 n n n nX X T n nn S n S          kde 1X je výběrový průměr spočtený z dat získaných z rozdělení N(1, 2 1 ), 2X je výběrový průměr spočtený z dat získaných z rozdělení N(2, 2 2 ). Z prvního náhodného výběru se dále počítá výběrový rozptyl 2 1S , ze druhého výběru se získá výběrový rozptyl 2 2S . Číslo n1, resp. n2 vyjadřuje rozsah prvního, resp. druhého výběru. 3. Kritickou hodnotou K je kritická hodnota Studentova rozdělení s n1+n2-2 stupni volnosti na hladině , tj. 1 2 2 ( )n nt   . Hodnota se získá ze statistických tabulek nebo v Excelu užitím funkce TINV(; n1+n2-2). Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 21 - 4. Je-li 1 2 2 ( )n nT t   , zamítá se H0 a přijímá H1, v opačném případě se přijímá H0. (C) Test významnosti rozdílu mezi dvěma populačními průměry (Dvouvýběrový t-test s nerovností rozptylů) Jsou dány dva nezávislé náhodné výběry o rozsahu n1 a n2 z rozdělení N(1, 2 1 ) a N(2, 2 2 ) a výběrové průměry 21, XX vypočítané z dat z těchto dvou výběrů, resp. výběrové rozptyly 2 2 1 2,S S vypočítané v těchto výběrech . Rozptyly 2 1 a 2 2 nejsou známy, předpokládá se ale, že 2 1  2 2 . 1. Testuje se hypotéza H0: 1 = 2 proti alternativě H1: 1  2. 2. Použije se testové kritérium: 1 2 1 2 X X T V V    , kde 2 i i i S V n  , i = 1, 2. 3. Kritická hodnota K se stanoví podle vzorce: 1 21 1 2 1 1 2 ( ) ( )n nV t V t K V V        , kde    1 21 1,n nt t   se určí z tabulek Studentova rozdělení pro n1-1 a n2-2 stupně volnosti a hladinu významnosti . K výpočtu kritické hodnoty K lze využít Excelovské funkce  1 1nt  = TINV(; n1-1), resp.  2 1nt  = TINV(; n2-1). 4. Je-li T K , zamítáme H0 a přijímáme H1. V opačném případě přijímáme H0. (D) Dvouvýběrový párový t-test Je dán náhodný výběr 1 2, ,..., nX X X X z rozdělení N(1, 2 1 ) a náhodný výběr 1 2, ,..., nY Y Y Y z rozdělení N(2, 2 2 ). Výběry nejsou nezávislé. Výběrové průměry pro tato data jsou X , respektive Y . 1. Testuje se nulová hypotéza H0: 1 = 2 proti alternativě H1: 1  2. 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 22 - 2. Použije se testové kritérium: D D T n S  , kde 2 1 1 ( ) 1 n D i i S D D n      , i i iD X Y  , i = 1, 2..., n, D X Y  . 3. Kritická hodnota K = 1( )nt  se určí z tabulek Studentova rozdělení pro n-1 stupňů volnosti a hladinu významnosti . K výpočtu kritické hodnoty lze užít v Excelu funkci TINV(; n-1). 4. Je-li T K , zamítá se H0 a přijímá H1. V opačném případě se přijímá H0. (E) Dvouvýběrový F – test pro rozptyly Jsou dány dva nezávislé náhodné výběry z rozdělení N(1, 2 1 ) a N(2, 2 2 ) o rozsahu n1 a n2 a výběrové rozptyly 2 1S a 2 2S spočtené z takto získaných výběrových dat. 1. Testuje se hypotéza, že rozptyly obou rozdělení jsou stejné, tj. H0: 2 1 = 2 2 , proti alternativní hypotéze H1: 2 1  2 2 . 2. Testové kritérium má tvar 2 2 1 2 2 2 1 2 max( , ) min( , ) S S T S S  . 3. Kritická hodnota K= 1 21, 1( )n nF   se určí z tabulek Fischerova rozdělení pro n1-1 a n2-1 stupně volnosti a hladinu významnosti . K výpočtu kritické hodnoty lze využít Excelovské funkce FINV(; n1-1; n2-1). 4. Je-li T K , zamítá se H0 a přijímá H1. V opačném případě se přijímá H0. Jak již bylo řečeno, statistické hypotézy tvoří část vědeckých hypotéz – tu část, která se týká náhodných veličin, a spadají pod ně parametrické hypotézy a neparametrické hypotézy/testy. Parametrické hypotézy se vztahují na jeden či více parametrů daného pravděpodobnostního rozdělení náhodné veličiny. Neparametrické hypotézy se netýkají parametrů rozdělení náhodné veličiny, nýbrž jiných statistických vlastností, např. tvaru rozdělení, nezávislosti náhodných veličin a podobně. Poznamenejme, že o neparametrických testech se také hovoří obecněji v případech, kdy nejsou splněny některé standardně vyžadované předpoklady pro provedení daného testu. Jak jsme viděli, např. u t-testů jsme požadovali splnění jistých podmínek, aby mohl být daný statistických test realizován – požadovali jsme, aby výběr pocházel z normálního rozdělení. Jsou situace, kdy takový předpoklad splněn není, a pak je Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 23 otázkou jak postupovat. Existují testy „robustnějšího“ charakteru, kterými lze testovat vlastnosti populace, ze které náhodný výběr pochází, a přitom je třeba splnit pouze podmínky velmi obecného charakteru pro využití těchto testů. V takových případech hovoříme rovněž o neparametrických testech, byť jimi můžeme testovat konkrétní podobu parametrů daného rozdělení. Aby nedošlo v našem pojetí výkladu látky k nedorozumění, naše dohoda bude taková, že pod pojmem neparametrický test budeme chápat to, co doposud, tedy statistický test, jenž zkoumá jiné vlastnosti neznámé populace či základního souboru než ty vlastnosti, které se týkají přímo parametrů této populace. 2.2 MARKETINGOVÁ STUDIE Pro účely demonstrace již probraných a někerých dalších statistických testů využijeme případovou marketingovou studií zvanou Studie. Tuto studii budeme využívat čas od času i při výkladu jiných statistických metod, které nejsou nutně pouhými statistickými testy. Metody budeme demonstrovat i s využitím Excelu. Studie Jistá firma chce na trhu s nealkoholickými nápoji uplatnit svůj nový výrobek: sycený nealkoholický nápoj - limonádu typu "cola". Nový výrobek se uvádí na trh ve třech verzích názvu: Kafola, Kofikola a Kofolisima. Byl vytvořen dotazník, na jehož základě byla získána data od 47 respondentů o spotřebě nových nápojů. Výsledky dotazníkové šetření jsou obsaženy v následující tabulce 2 (údaje u nápoje značí týdenní množství spotřeby v litrech). Tabulka2: výsledky dotazníkového šetření pro příklad Studie Číslo respondenta Pohlaví Věk Kafola Kofikola Kofolisima 1 m 20 1,1 0,7 0,5 2 ž 34 1 0,2 0,1 3 ž 43 0,8 0,1 0,2 4 ž 21 1,2 0,6 0,3 5 m 39 1,1 0,1 0,4 6 ž 51 0,4 0 0,2 7 m 19 0,9 0,9 0,3 8 ž 45 0,3 0,2 0,2 9 ž 48 1,2 0,1 0,4 10 ž 21 1,4 0,4 0,2 11 ž 52 0,4 0 0,3 12 ž 22 1,2 0,6 0,4 13 m 62 0,2 0 0,2 14 ž 47 0,6 0,2 0,1 15 m 23 0,9 0,8 0,2 16 m 35 0,9 0,1 0,4 17 m 22 1 0,9 0,1 18 m 38 0,5 0,2 0,2 19 ž 41 0,4 0,1 0,1 20 ž 21 0,9 0,7 0,2 21 ž 40 0,2 0 0,3 22 ž 20 0,8 0,6 0,3 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 24 - Číslo respondenta Pohlaví Věk Kafola Kofikola Kofolisima 23 m 19 1,1 0,9 0 24 m 39 1 0,1 0 25 m 19 0,9 1,1 0,4 26 ž 38 0,2 0,2 0,5 27 ž 20 1,3 1,5 0,3 28 ž 37 0,4 0,1 0,8 29 m 20 1,3 0,8 0,2 30 ž 41 0,1 0,2 0,1 31 m 42 0,2 0,1 0,2 32 ž 20 0,9 0,9 0,3 33 m 43 1,2 0,2 0,1 34 ž 21 0,9 0,7 0,2 35 m 44 0,1 0,1 0,1 36 ž 45 0 0,1 0,2 37 m 46 0,1 0,2 0,1 38 m 22 1 0,9 0,2 39 m 42 0,4 0,8 0,3 40 m 41 0,1 0,1 0,4 41 ž 22 1,1 0,5 0,2 42 ž 40 0,2 0,1 0,1 43 ž 21 1,3 0,8 0 44 m 39 0,4 0,9 0,2 45 ž 20 1,1 0,1 0,1 46 m 20 1 0,2 0,3 47 ž 21 0,8 0,1 0,4 Poznamenejme, že počet respondentů není v tomto případě příliš velký. Při marketingových průzkumech se oslovují stovky respondentů. Nám jde ale především o principy práce s marketingovými údaji. Tyty principy jsou stejné bez ohledu na počet dotazovaných. Provedeme nyní statistické testy popsané v úvodu kapitoly s tím, že daný test bude odpovídat na různé otázky, které by v souvislosti s údaji v tabulce mohl zformulovat zadavatel marketingového průzkumu. Některé uvedené testy také popíšeme v podobě jednostranného testu, kdy v testované hypotéze vystupuje sledovaný parametr nikoliv v rovnici, ale nerovnici, a alternativní hypotéza má podobu logické negace, tj. opačné nerovnosti. Dále také využijeme tabulku s daty k tomu, abychom vysvětlili některé další hojně využívané statistické testy. PŘÍKLAD 1 (jednovýběrový t-test) Otestujme na pětiprocentní hladině významnosti, zda lze předpokládat, že průměrná týdenní spotřeba nápoje Kafola je v celé populaci rovna 0,7 litru. Testujeme tedy hypotézu 0 : 0,7H   proti alternativní hypotéze 1 : 0,7H   . Hladina významnosti 05,0 . Testové kritérium je rovno 0,833 0,7 47 2,239. 0,166 T    Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 25 Zde je výběrový průměr spočtený z hodnot ve sloupci „Kafola“ roven 0,833. Výběrová směrodatná odchylka je s = 0,166 (lze ji vypočítat podle definičního vzorce uvedeného v první kapitole, případně odmocněním výsledku získaného Excelovskou funkcí var.výběr(pole dat), kde za argument pole dat dosadíme hodnoty ze sloupce „Kafola“). Protože v Excelu lze funkce také řetězit, je možno též užít funkce odmocnina(var.výběr(pole dat)) k získání potřebné charakteristiky. Protože hodnot je celkem 47, pracujeme s kritickou hodnotou t-rozdělení s 47-1 stupni volnosti. Kritická hodnota tohoto rozdělení je s využitím Excelu rovna K = TINV(0,05, 46) = 2,012. Jelikož testové kritérium v absolutní hodnotě je větší než kritická hodnota, zamítáme hypotézu o tom, že průměrná týdenní spotřeba nápoje Kafola je v populaci rovna 0,7 litru. Jednovýběrový t-test lze rovněž realizovat v podobě jednostranného testu. V takovém případě formulujeme nulovou hypotézu H0:  < 0 a k ní alternativní hypotézu H1:   0 . Použijeme test (A) z úvodu kapitoly, který ale drobně modifikujeme pro případ jednostranné hypotézy: 1. Testujeme hypotézu H0:  < 0 proti alternativě H1:   0 2. Použijeme testové kritérium 0X T n S    , kde X = výběrový průměr, S = výběrová směrodatná odchylka, 0 = předpoklad o střední hodnotě; v našem příkladě 0,7, n = rozsah výběru; v našem příkladě 47. 3. Kritický obor je v případě jednostranného testu interval C = [K, +) vymezený kritickou hodnotou K Studentova rozdělení s n-1 stupni volnosti. Tato hodnota je volena tak, aby pravděpodobnost jejího překročení (nebo jejího dorovnání) byla rovna zvolené hladině významnosti alfa. Vzhledem k tomu, jak je definována kritická hodnota pro Studentovo rozdělení, to znamená, že platí K = tn-1(2). K výpočtu kritické hodnoty pomocí Excelu použijeme funkci TINV(2 ; n-1). 4. Je-li T K , potom zamítáme H0 a přijímáme H1. V opačném případě přijímáme H0. Jak je vidět, jednostranná varianta jednovýběrového t-testu je početně velmi podobná oboustranné variantě. Rozdíl je ve výpočtu kritické hodnoty a formulaci závěru testu. V našem příkladě, kdybychom formulovali hypotézy H0:  < 0,7 proti alternativě H1:   0,7, vyšlo by testové kritérium pochopitelně stejně, ale kritická hodnota by byla na pětiprocentní hladině významnosti rovna K = TINV(2∙0,05; 46) = 1,68 a opět bychom zamítli testovanou hypotézu. Mohli bychom také řešit otázku, na jaké hladině významnosti bychom testovanou hypotézu vlastně přijali při jednostranném testu. V našem případě nulovou hypotézu přijmeme pouze 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 26 tehdy, když T < K. K odpovězení na tuto otázku je vhodné využít Excelovské funkce TDIST(K; n; chvosty). Tato funkce vrátí číslo alfa splňující rovnici ( )P X K   , kde X má t-rozdělení s počtem stupňů volnosti n, je-li za argument „chvosty“ dosazeno číslo 2, nebo vypočítá číslo alfa splňující rovnici ( )P X K   , kde X má t-rozdělení s počtem stupňů volnosti n, je-li za argument „chvosty“ dosazeno číslo 1. Dosadíme-li v našem případě za K hodnotu testového kritéria T a využijeme funkce TDIST, zjistíme, že pravděpodobnost překročení (nebo dorovnání) T je rovna TDIST(2,239; 46; 1) = 0,015. Má-li platit T < K, musí být kritická hodnota K taková, že pravděpodobnost jejího překročení (nebo dorovnání) je menší než 0,015. Tato pravděpodobnost se ale nazývá hladina významnosti. Závěr v případě jednostranné varianty t-testu je tedy takový, že na kterékoliv hladině významnosti menší než 0,015 bychom testovanou hypotézu přijali. PŘÍKLAD 2 (dvouvýběrový nepárový t-test s rovností rozptylů) V tomto příkladě si ukážeme práci s dvouvýběrovým t-testem s rovností rozptylů, a to konkrétně s nepárovou verzí tohoto testu. Rovnost rozptylů předpokládáme, správně by se i tato hypotéza měla testovat. Učiníme tak později. Naším cílem je nyní otestovat s využitím Studie na pětiprocentní hladině významnosti, zda je v populaci průměrná spotřeba nápoje Kofikola stejná jako průměrná spotřeba nápoje Kofolisima. Testové kritérium má tvar      1 2 1 21 2 2 2 1 21 1 2 2 2 , 1 1 n n n nX X T n nn S n S          z něhož je patrné, že je třeba vypočítat výběrové průměry pro oba soubory dat (pro sloupec „Kofikola“ a sloupec „Kofolisima“ v tabulce) a dále také výběrové rozptyly pro tyto soubory a jejich rozsahy. Tyto údaje jsou spočteny v následující tabulce 3. Opět je možno postupovat dle definičních vzorců při výpočtu těchto charakteristik nebo pomocí Excelovských funkcí. Tabulka 3: vstupní charakteristiky pro dvouvýběrový t-test Kofikola Kofolisima průměry 0,40851064 0,24042553 rozptyly 0,14123034 0,02289547 rozsah 47 47 Dosazením těchto údajů do vzorce pro testové kritérium obdržíme T = 2,844. Kritická hodnota testu je K = TINV(0,05; 47+47-2) = 1,986. Na pětiprocentní hladině významnosti tedy zamítáme hypotézu o rovnosti průměru v populaci. Excel: Tento test lze také realizovat pomocí analytických nástrojů, které nabízí program Excel. Onen statistický pomocník se nachází v nabídce Data a podnabídce Analýza dat (v novější verzi Excelu). Ve starších verzích Excelu jej lze nalézt v nabídce Nástroje. Musíme upozornit, že po čerstvé instalaci Excelu se v nabídce položka Analýza dat neobjeví a je ji zapotřebí ještě doinstalovat. Tato instalace je však velmi snadná, ve starší verzi Excelu v menu Nástroje je položka Doplňky, kde se zaklikne položka Analytické nástroje a volba se potvrdí. V okamžiku se doinstaluje potřebná položka Analýza dat, která obsahuje 19 statistických metod, v tom i 5 testů statistických hypotéz. Hlavní výhoda použití Analýzy dat spočívá v tom, že není zapotřebí vytvářet příslušné vzorce a provádět dílčí výpočty. Každý Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 27 test je integrován do jednoho okna a výsledek je prezentován v unifikované tabulce. V novější verzi Excelu (např. verzi 2010) se doplňky doinstalují přes Soubor/Možnosti/Doplňky/Přejít. Spustíme-li nástroj Analýza dat, objeví se dialogové okno Analytické nástroje. V něm si vybereme dvouvýběrový t-test s rovností rozptylů a volbu potvrdíme. V následujícím dialogovém okně umístíme kurzor myši do okna Soubor 1 a vyznačíme počítačovou myší první datový soubor (sloupec Kofikola). Obdobně v kolonce Soubor 2 dialogového okna vyznačíme Soubor 2 (sloupec Kofolisima). Alfa ponecháme na úrovni 0,05 a rovněž tak výstup ponecháme na Novém listě. Excel vygeneruje tabulku 4 s výsledky testu. Tabulka 4: výstup dvouvýběrového t-testu s rovností rozptylů v Excelu Soubor 1 Soubor 2 Stř. hodnota 0,408510638 0,240425532 Rozptyl 0,141230342 0,022895467 Pozorování 47 47 Společný rozptyl 0,082062905 Hyp. rozdíl stř. hodnot 0 Rozdíl 92 t Stat 2,84439379 P(T<=t) (1) 0,002741733 t krit (1) 1,661585397 P(T<=t) (2) 0,005483465 t krit (2) 1,986086317 Kromě charakteristik potřebných pro provedení testu obsahuje tabulka testové kritérium t Stat a kritickou hodnotu pro oboustranný test t krit (2). Obě hodnoty potvrzují správnost našeho dřívějšího výpočtu, který jsme provedli bez nástroje Analýza dat. Závěr testu je tedy stejný. PŘÍKLAD 3 (F-test rovnosti rozptylů) Pokud má být dvouvýběrový t-test s rovností rozptylů věrohodný, musíme ověřit, zda platí předpoklad o rovnosti populačních rozptylů pro týdenní průměrnou spotřebu nápoje Kofikola a nápoje Kofolisima. Hladinu významnosti stanovíme tentokrát na 1%. Testové kritérium uvedené v úvodu kapitoly mělo v případě F-testu tvar 2 2 1 2 2 2 1 2 max( , ) min( , ) S S T S S  . Jde o podíl výběrových rozptylů. V našem příkladě vychází výběrový rozptyl spotřeby nápoje Kofikola 2 1 0,141S  a výběrový rozptyl spotřeby nápoje Kofolisima 2 2 0,0228S  . Pro testové kritérium T tedy platí T = 6,168. Kritická hodnota testu K = FINV(0,01;47-1;47-1) = 2. To znamená, že nulovou hypotézu na jednoprocentní, a tedy velmi malé hladině významnosti zamítáme. 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 28 Excel: Stejný test můžeme provést s využitím nástroje Analýza dat v Excelu, vyberem-li v nabídce Data/Analýza dat položku Dvouvýběrový F-test pro rozptyl. Aby byl test proveden Excelem stejně, jako jsme jej provedli my, je třeba po potvrzení položky Dvouvýběrový F-test pro rozptyl vložit do dialogového okna jako Soubor 1 ten soubor, který má větší výběrový rozptyl. V našem případě je to soubor s údaji ve sloupci Kofikola: 2 1 0,141S  . Jako Soubor 2 v dialogovém okně zadáme odkaz na data ve sloupci Kofolisima. Hladinu významnosti alfa automaticky nastavenou na 0,05 přepíšeme v dialogovém okně na 0,01. Volbu potvrdíme. Excel vrátí údaje v podobě tabulky 5. Tabulka 5: výstup dvouvýběrového F-testu pro rozptyl v Excelu Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota 0,408510638 0,240425532 Rozptyl 0,141230342 0,022895467 Pozorování 47 47 Rozdíl 46 46 F 6,168484848 P(F<=f) (1) 3,7416E-09 F krit (1) 2,006833595 Zde F značí testové kritérium a F krit (1) kritickou hodnotu testu: reálné číslo K takové, že pravděpodobnost jeho překročení (nebo dorovnání) testovým kritériem je rovna v případě F rozdělení se stupni volnosti 46 a 46 uvedenému číslu 2,007. Postup, který jsme uvedli v příkladě na dvouvýběrový t-test s rovností rozptylů, je tedy sice z hlediska procedurálního správný, ale věcně správný není, protože se opírá o předpoklad, který splněn není – o rovnost rozptylů. Tento nedostatek proto nyní napravíme tím, že aplikuje na data ze Studie dvouvýběrový t-test s nerovností rozptylů. PŘÍKLAD 4 (dvouvýběrový t-test s nerovností rozptylů) Uvedli jsme, že testové kritérium má v případě tohoto testu tvar 1 2 1 2 X X T V V    , kde 2 /i i iV S n , i = 1, 2, 2 iS = výběrový rozptyl i-tého souboru a in = rozsah i-tého souboru. Dosazením do těchto vzorců dostáváme v našem příkladě s nápoji 1 2 1 2 0,408 0,24 2,85. 0,14 / 47 0,0228/ 47 X X T V V        Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 29 Kritická hodnota testu je rovna 1 21 1 2 1 1 2 ( ) ( ) 0,003 2,013 0,00048 2,013 2,013. 0,003 0,00048 n nV t V t K V V              Závěr testu je tedy takový, že zamítáme nulovou hypotézu o rovnosti středních hodnot. Excel: Využijeme nyní nástroje Analýza dat v Excelu, v němž vybereme v nabídnutém dialogovém okně položku Dvouvýběrový t-test s nerovností rozptylů. Po potvrzení tohoto výběru opět vyplníme potřebné údaje: vložíme odkazy na příslušná data v Excelu do kolonky soubor 1 a soubor 2 dialogového okna stejně jako v případě t-testu s rovností rozptylů a nastavíme hladinu významnosti alfa (zde ponecháme na 5%). Výsledkem Excelu je tabulka 6 Tabulka 6: výstup dvouvýběrového t-testu s nerovností rozptylů v Excelu Dvouvýběrový t-test s nerovností rozptylů Soubor 1 Soubor 2 Stř. hodnota 0,408510638 0,240425532 Rozptyl 0,141230342 0,022895467 Pozorování 47 47 Hyp. rozdíl stř. hodnot 0 Rozdíl 61 t Stat 2,84439379 P(T<=t) (1) 0,00302417 t krit (1) 1,670219484 P(T<=t) (2) 0,006048339 t krit (2) 1,999623585 K tabulce 6 je třeba nyní přidat komentář: ukazatel t stat vyjadřuje testové kritérium, kritickou hodnotou je zde míněn ukazatel t krit (2). Je třeba poznamenat, že obdobně jako v případě některých základních statistických charakteristik, konkrétně v případě šikmosti a špičatosti, Excel počítá některé údaje poněkud odlišným způsobem, než jak se standardně uvádí v rigorózních učebních textech věnovaných statistice. Kritická hodnota tohoto testu se počítá vícero způsoby, při nichž se vybraným způsobem aproximují stupně volnosti studentova rozdělení, které se k tomuto testu vztahuje. Je proto možné (časté), že kritická hodnota poskytnutá Excelem se bude v tomto případě drobně lišit od kritické hodnoty definované v první kapitole. Závěr testu se ale v našem příkladě nemění i při využití této alternativní kritické hodnoty. PŘÍKLAD 5 (párový test) Zdůrazněme opět, že při použití dvouvýběových t-testů, ať už s rovností rozptylů či s nerovností rozptylů, se mimo jiné požaduje, aby oba výběry pocházely z normálního rozdělení a byly to nezávislé náhodné výběry. Zvláště předpoklad nezávislosti je dosti důležitý v tomto případě. Pokud předpoklad splněn není, je vhodnější využít test párový. 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 30 Pokud je splněn předpoklad nezávislosti a analytik použije test párový místo dvouvýběrového t-testu, nic závažného se nestane. Ideální postup to ale není, neboť párový test na rozdíl od dvouvýběrových t-testů (nepárových) vyžaduje stejné rozsahy výběrů, a proto je možné, že bude-li analytik chtít tento statistický test využít, bude se v případě nestejně velkých výběrů muset zbavit některých cenných informací (dat). Pokud situace naopak vyžaduje použití párového testu z hlediska předpokladů tohoto testu a analytik místo něj použije nepárový dvouvýběrový t-test, dopustí se hrubé chyby a jeho závěry budou zcela nevěrohodné. Nyní užijeme párový test, abychom demonstrovali jeho využití, a otestujeme, zda průměrná týdenní spotřeba nápoje Kofikola je stejná jako průměrná týdenní spotřeba nápoje Kofolisima. Odečteme za tímto účelem údaje ležící ve stejném řádku a ve sloupcích Kofikola a Kofolisima, čímž obdržíme odchylky i i iD X Y  , kde iX značí spotřebu nápoje Kofikola uvedenou v i-tém řádku tabulky a iY značí spotřebu nápoje Kofolisima uvedenou v i-tém řádku tabulky. Dále spočteme průměr z těchto odchylek 0,408 0,24 0,168D X Y     . Výsledek je zde ve skutečnosti na více desetinných míst a my jsme jej zaokrouhlili. Naším dalším krokem je vypočítat výběrovou směrodatnou odchylku 2 1 1 ( ) 0,4076. 1 n D i i S D D n       Zde je n = 47 = rozsah souboru/souborů = počet řádků v tabulce. Testové kritérium je rovno (0,168/ 0,4076) 47 2,826. D D T n S     Kritická hodnota K = 1( ) (0,05;47 1) 2,013.nt TINV    Protože T K , zamítáme H0. Excel: Zvolíme-li v Excelu nabídku Data/Analýza dat/Dvouvýběrový párový t-test na střední hodnotu a do kolonek soubor 1, resp. soubor 2 vložíme odkazy na data ve sloupci Kofikola naší tabulky, resp. na data ve sloupci Kofolisima, získáme počítačový výstup (Tabulka 7). Tabulka 7: výstup Excelu pro párový t-test Dvouvýběrový párový t-test na střední hodnotu Soubor 1 Soubor 2 Stř. hodnota 0,408510638 0,240425532 Rozptyl 0,141230342 0,022895467 Pozorování 47 47 Pears. korelace -0,017650836 Hyp. rozdíl stř. hodnot 0 Rozdíl 46 t Stat 2,827157048 P(T<=t) (1) 0,003464955 t krit (1) 1,678660414 P(T<=t) (2) 0,006929909 t krit (2) 2,012895599 Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 31 Položka t stat odpovídá testovému kritériu párového testu, položka t krit (2) odpovídá kritické hodnotě tohoto testu. Údaje v tabulce, jak je vidět, odpovídají demonstrovaným „ručním“ výpočtům (zaokrouhleným). V další části textu popíšeme statistické testy, které jsme dosud neprobírali. Vysvětlíme smysl jejich použití a využijeme Studie k tomu, abychom ukázali konkrétní práci s těmito statistickými metodami. 2.3 MEDIÁNOVÝ TEST Mediánový test patří k postupům, které jsou méně náročné na podmínky svého využití. Jak napovídá název metody, testuje se touto metodou hodnota mediánu, resp. prostřední hodnoty v populaci. Pokud jde o populaci, která má tu vlastnost, že její populační průměr se shoduje s mediánem, lze mediánový test využít také jako jednovýběrový t-test. Jedinou podmínkou pro použití mediánového testu je předpoklad, že rozdělení četností v populaci (obecněji pravděpodobnostní rozdělení náhodné veličiny, jejíž realizace jsou k dispozici) je možno popsat distribuční funkcí spojitého typu. Nepožaduje se tedy v tomto případě normální rozdělení jako v případě jednovýběrového t-testu. Označme neznámý medián v populaci symbolem ~ , rozsah vzorku dat, který je k dispozici, je n. Předpokládáme, že rozsah výběru je větší, neboť platnost dále popsaného testu se zpřesňuje s růstem rozsahu n. 1. Testujeme nulovou hypotézu H0: 0 ~~   proti alternativní hypotéze H1: 0 ~~   . Zde je opět hodnota 0 zadaná statistikem. 2. Testové kritériu je 2m n T n   , kde m je počet pozorování ve vzorku menších než 0 ~ . 3. Kritická hodnota je K = z1-/2, kde z1-/2 je kritická hodnota normovaného normálního rozdělení pro zadanou hladinu významnosti . Je to tedy reálné číslo z1-/2 takové, že pravděpodobnost jeho překročení (nebo dorovnání) je rovna hodnotě 1 / 2 . Tuto hodnotu nalezneme buď ve statistických tabulkách normovaného normálního rozdělení N(0,1) nebo pomocí Excelu použitím funkce NORMSINV(1-/2) . 4. Jestliže platí T K , potom se H0 zamítá. V opačném případě se H0 přijímá. PŘÍKLAD 6 Otestujeme nulovou hypotézu tvrdící, že průměrný věk spotřebitelů nápoje typu „cola“ 33 let (přesněji mediánový věk). Test provedeme na pětiprocentní hladině významnosti. K dispozici máme údaje ze Studie. Podíváme-li se na tyto údaje, vidíme, že ve 20 případech z celkem 47 byl věk spotřebitele nápoje typu „cola“ menší než 33 let. Je tedy 2 2 20 47 1,02. 47 m n T n       Kritická hodnota K = z1-/2 = NORMSINV(1-0,05/2) = 1,96. Nulovou hypotézu nezamítáme, resp. nulovou hypotézu přijímáme. 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 32 - 2.4 TESTY DOBRÉ SHODY Poslední kategorií testů, které probereme, jsou tzv. testy dobré shody. Do této skupiny statistických metod patří řada testů, my se budeme zabývat dvěma z nich, které lze považovat za základní a často využívané při marketingových či sociologických výzkumech. První test je zaměřen na testování podoby pravděpodobnostního rozdělení, z něhož pochází náhodný výběr, který je k dispozici, druhý test zkoumá statistickou nezávislost dvou znaků. Protože se v obou případech pracuje s rozdělením chí-kvadrát, pokud jde o rozdělení testového kritéria, hovoří se také o chí-kvadrát testech. 2.4.1 TESTOVÁNÍ DISKRÉTNÍHO PRAVDĚPODOBNOSTNÍHO ROZDĚLENÍ Jak je známo z matematické statistiky, nejčastěji používaná pravděpodobnostní rozdělení pro popis chování náhodné veličiny jsou buďto diskrétní nebo spojitá. Test chíkvadrát lze použít pro kterýkoliv z těchto případů. My se nyní zaměříme na případ diskrétního rozdělení. Test vysvětlíme v obecné formě a posléze budeme výklad demonstrovat na konkrétním příkladě. Nechť je dán statistický znak X (ne nutně číselný), který sledujeme v základním souboru. Takovým znakem může být např. druh spotřebovávaného nápoje. Předpokládejme, že tento znak existuje v populaci v k obměnách 1 2, ,..., kX X X (k druhů nápoje X). Množství výskytu ité obměny iX v populaci v relativním vyjádření označme ip . Pokud bychom z takové populace provedli náhodný výběr o rozsahu n a zaznamenali si počty, v nichž se v tomto výběru vyskytly obměny 1 2, ,..., kX X X , mohli bychom na tyto počty nahlížet jako na realizace náhodných veličin 1 2, ,..., kX X X . Výraz   2 1 k i i i i X np T np    lze pak chápat při tomto druhu experimentu jako náhodnou veličinu a ta má přibližně pravděpodobnostní rozdělení chí-kvadrát s k-1 stupni volnosti. S růstem n se přitom toto přiblížení zpřesňuje. Hodnota i-té obměny iX získaná realizací experimentu se nazývá empirická četnost, člen inp se nazývá teoretická nebo také očekávaná četnost. Výše uvedeného poznatku se využívá k testování hypotézy o podobě podílů ip , i = 1, 2, …, k, obměn 1 2, ,..., kX X X v populaci, což z pohledu statistiky také znamená, že se testuje podoba parametrů speciálního pravděpodobnostního rozdělení (multinomického v tomto případě). Při tomto testu se formuluje nulová hypotéza týkající se parametrů ip , provede se náhodný výběr, z nějž se vypočítá výše uvedené testové kritérium T. Pokud 2 1( )kT   , kde 2 1( )k  značí kritickou hodnotu rozdělení chí-kvadrát s k-1 stupni volnosti, a to na hladině významnosti alfa, potom se nulová hypotéza o parametrech ip zamítne. V opačném případě, kdy 2 1( )kT   , se nulová hypotéza přijímá. Kritickou hodnotu lze získat ze statistických tabulek nebo Excelovskou funkcí CHIINV(alfa, k-1). Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 33 PŘÍKLAD 7 Demonstrujme popsaný postup na příkladě s nápoji typu „cola“. Populací bude pro nás nyní Obchodně-podnikatelská fakulta Slezské univerzity, přičemž předpokládáme, že na této fakultě se prodávají pouze nápoje typu „cola“. Testujeme hypotézu, že se na fakultě spotřebovává každý ze tří uvažovaných nápojů (Kafola, Kofolisima, Kofikola) ve stejné míře. Statisticky řečeno to rovněž znamená, že testujeme zda má statistický znak X = nápoj typu „cola“ rovnoměrné rozdělení. Tento nápoj se vyskytuje ve třech obměnách. Hladinu významnosti zvolíme pětiprocentní. Tabulka 8 obsahuje výsledek náhodného výběru - absolutní počty spotřebovaných lahví každého nápoje. Tabulka 8: počty spotřebovaných nápojů Počet lahví Kofola 87 Kofikola 93 Kofolisima 101 Máme n = 87+93+101 = 281, k = 3. Nulová hypotéza je 0 1 2 3: 1/ 3H p p p   . Testové kritérium má tvar   2 2 2 2 1 (87 281/ 3) (93 281/ 3) (101 281/ 3) 1,053. 281/ 3 281/ 3 281/ 3 k i i i i X np T np          Kritická hodnota K = CHIINV(0,05,3-1) = 5,99. Nezamítáme tedy hypotézu o rovnoměrné spotřebě všech tří nápojů. 2.4.2 CHÍ-KVADRÁT TEST NEZÁVISLOSTI ZNAKŮ Samostatným a novým problémem je v tomto testu vytvoření speciální kontingenční tabulky. Uvažují se dva znaky: znak A (např. Pohlaví) a znak B (např. Způsob odměny v práci). Znak A je třídicí znak, který má 2 kategorie značené A1 a A2, sledovaný znak B má s možných kategorií hodnot 1 2, ,..., sB B B , 2s  . Kontingenční tabulka 9 má tento tvar: Tabulka 9: kontingenční tabulka pro chí-kvadrát test nezávislosti znaků Kategorie znaku A / B B1 B2 B3 ... Bs Součet A1 n11 n12 n13 . … n1s n1. A2 n21 n22 n23 . … n2s n2. Součet n.1 n.2 n.3 . … n.s n 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 34 V tabulce značí nij absolutní četnost případů, při kterých znak A nabývá hodnoty (kategorie) Ai a současně znak B hodnoty Bj. Symbolem 1 s i ij j n n    značíme celkový počet případů, při kterých se vyskytla i-tá kategorie znaku A, symbolem 1 2j j jn n n   značíme celkový počet případů, při kterých se vyskytla j-tá kategorie znaku B. Zajímá nás, zda jsou oba znaky na sobě nezávislé. Postup testu 1. Testuje se na hladině významnosti alfa hypotéza H0: Znaky A a B jsou nezávislé proti alternativní hypotéze H1: Znaky A a B nejsou nezávislé. 2. Testové kritérium má tvar   2 2 1 1 Ts ij ij T j i ij n n T n      , kde ( ) /T ij i jn n n n   jsou teoretické (očekávané) četnosti. Hodnoty ijn představují empirické četnosti získané náhodným výběrem. 3. Kritická hodnota testu K = 2 1( )s  . 4. Závěr testu: pokud T K , zamítáme hypotézu H0. V opačném případě ji přijímáme. PŘÍKLAD 8 Mějme situaci, kdy sledovaným znakem A je pohlaví respondentů v jistém marketingovém výzkumu a znakem B je forma odměny, kterou tito respondenti dostávají při sportovních soutěžních akcích. Absolutní počty dotázaných, kteří byli náhodně vybráni, a spadají do příslušné kategorie podle klasifikačního hlediska A a B, jsou uvedeny v tabulce 10. Tabulka 10: údaje o odměnách a respondentech Například počet 78 je jednou ze sdružených četností uvedených v tabulce a udává, že právě 78 dotázaných respondentů byli muži, kteří současně uvedli, že jako odměnu dostávají peníze. Celkové počty uvedené v tabulce byly již dopočteny příslušným marketingovým pracovníkem a nebyly součástí odpovědí dotázaných. Tyto celkové (marginální) součty potřebujeme mít k dispozici pro výpočet teoretických četností a sestavení testu. Pozorované čet. Peníze Limonády Celkový součet Muži 78 42 120 Ženy 46 34 80 Celkový součet 124 76 200 Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 35 Další dvě tabulky 11 a 12 obsahují výpočet očekávaných četností (tabulka vlevo) a výpočet sčítanců (tabulka vpravo), které v součtu dávají testové kritérium. Zde Eij značí empirickou četnost a Oij očekávanou/teoretickou četnost. Očekávané četnosti vypočítáme z kontingenční tabulky 10 jako součin příslušného řádkového a příslušného sloupcového součtu vyděleného celkovým součtem. Je tedy v tomto případě např. 74,4 120 124/ 200  . Tabulka 11: očekávané četnosti Tabulka 12: sčítance pro testové kritérum Poslední tabulka 13 obsahuje hodnotu testového kritéria T, stupně volnosti s-1, které se rovněž publikují pod zkratkou df = degrees of freedom, a kritickou hodnotu K pro hladinu významnosti alfa a stupně volnosti s-1. Tabulka 13: testové kritérium T a kritická hodnota testu K T 1,14 alfa 0,05 df s-1 = 2-1 K 3,84 Testové kritérium T = 1,14. Kritická hodnota K = CHIINV(0,05; 2-1) = 3,84. Protože testové kritérium je menší než kritická hodnota, přijímáme hypotézu, že mezi formou odměny a pohlavím neexistuje souvislost. Poznamenejme ještě na úplný závěr, že test lze v Excelu realizovat také pomocí funkce CHITEST(aktuální; očekávané), která má dva parametry: parametr „aktuální“ je odkazem na pole dat (tabulku) s empirickými četnostmi, zatímco parametr „očekávané“ je odkazem na pole dat/tabulku očekávaných četností. Po vyznačení těchto polí vrátí funkce CHITEST reálné číslo p-value a vyhodnocení testu se provádí takto: pokud je p-value menší než hladina významnosti alfa, případně také rovna, nulová hypotéza se zamítne; pokud je p-value větší než hladina významnosti alfa, nulová hypotéza se přijme. KONTROLNÍ TEST 2 a. Údaje uvedené v tabulce představují výsledek náhodného výběru, který se týká statistického znaku Y. S využitím jednovýběrového t-testu zjistěte na pětiprocentní hladině významnosti, že zda střední hodnota znaku Y je rovna 17,8. Uveďte, jak vyšlo testové kritérium a kritická hodnota. Změní se závěr testu, pokud test realizujeme na desetiprocentní hladině významnosti (ve druhém případě rovněž uveďte úroveň nové kritické hodnoty). Y 16 15 17 18 19 14 13 Očekávané čet. Peníze Limonády Muži 74,4 45,6 Ženy 49,6 30,4 (Eij - Oij)^2/Eij 0,174 0,284 0,261 0,426 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU - 36 b. Nechť jsou k dispozici tyto údaje o znacích Y a X: X 6 25 17 18 29 4 15 Y 16 15 17 18 19 14 34 Spočtěte F-testem, zda oba výběry pocházejí z populací se stejným rozptylem, a to na pětiprocentní hladině významnosti. Uveďte v rámci výpočtu testové kritérium a kritickou hodnotu testu. Test si vyzkoušejte bez pomocí Excelovského modulu Analýza dat! c. Pomocí dvouvýběrového t-testu pro případ rovnosti populačních rozptylů otestujte na jednoprocentní hladině významnosti, zda znaky X a Y mají stejnou střední hodnotu. Využijte k tomu údaje z úkolu 2.2. d. Výběrové šetření ohledně četnosti užívání různých značek mobilních telefonů vedlo ke zjištěním uvedeným v tabulce. Otestujte na desetiprocentní hladině významnosti hypotézu, že 25% všech lidí používá Mobil1, 33% všech lidí používá Mobil2 a zbylých 42% celé populace používá Mobil3. Opět uveďte v rámci výpočtu testové kritérium a kritickou hodnotu testu. Počet uživatelů Mobil1 2340 Mobil2 3124 Mobil3 3000 e. Pomocí testu nezávislosti znaků ověřte, zda souvisí pohlaví řidiče osobního vozu se závažností způsobené nehody. Test proveďte na jednoprocentní hladině významnosti. V rámci výpočtu uveďte testové kritérium, kritickou hodnotu a závěr testu. K dispozici máte tyto výsledky výběrového šetření: Muž Žena Drobné nehody 134 127 Středně závažné nehody 254 301 Závažné nehody 14 4 ŘEŠENÍ KONTROLNÍHO TESTU 2 a. Testové kritérium = -2,2. Kritická hodnota = 2,44. Testové kritérium je v absolutní hodnotě menší než kritická hodnota, proto přijímáme hypotézu, že střední hodnota je rovna 17,8. Pro 10% hladinu významnosti vychází kritická hodnota 1,94. V tomto druhém případě bychom hypotézu o střední hodnotě 17,8 zamítli. b. Testové kritérium = 1,78. Kritická hodnota = 4,28. Hypotézu o rovnosti rozptylů nezamítáme. c. Testové kritérium = 0,63. Kritická hodnota = 3,05. Hypotézu o rovnosti středních hodnot nezamítáme. d. Testové kritérium = 43.25. Kritická hodnota = 4.6. Hypotézu o testovaném poměrném zastoupení jednotlivých skupin uživatelů telefonu zamítáme. e. Testové kritérium = 8,65. Kritická hodnota = 9,21. Přijímáme hypotézu, že závažnost nehody a pohlaví řidiče vozu spolu nesouvisejí. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 37 - 3 REGRESNÍ ANALÝZA Regresní analýza se zabývá závislostí kvantitativního znaku na kvantitativním znaku (nebo více kvantitativních znacích). V případě závislosti jednoho znaku na jednom znaku mluvíme o jednoduché regresi, u závislosti jednoho znaku na více kvantitativních znacích hovoříme o vícenásobné (nebo mnohonásobné) regresi. V této kapitole byste si měli prohloubit znalosti získané o regresní analýze v základním kurzu statistiky [5], a to zejména, pokud jde o vícenásobnou regresi. V kapitole jsou nejprve zopakovány základní pojmy a uvedeny předpoklady regresní analýzy. Dále je zde sestaven vztah pro výpočet vektoru regresních koeficientů a je popsáno testování statistické významnosti těchto regresních koeficientů. Výklad kapitoly uzavírá test vhodnosti celého regresního modelu. 3.1 PODSTATA REGRESNÍ ANALÝZY Regresní analýza hledá obecně řečeno matematický vztah - rovnici, jež v nějakém slova smyslu nejlépe vyjadřuje změny náhodné proměnné Y v závislosti na změnách náhodných proměnných X1, X2, …, Xk. My budeme předpokládat případ standardně prezentovaný v odborné literatuře, tj. případ, kdy jsou k dispozici některé hodnoty proměnných X1, X2,…, Xk, které se jakožto realizace náhodných veličin značí malými písmeny: xij = i-tá hodnota j-té proměnné Xj. Pokud jde o tyto hodnoty, obvykle jde o „řízený experiment“ v tom smyslu, že analytik si je určí a k těmto zvoleným hodnotám potom najde (např. naměří) hodnoty veličiny Y. Naměřené Y pro i-tou zvolenou hodnotu proměnných X1, X2,…, Xk označíme Yi. Jako příklad uveďme znak Y = HDP, který je ovlivněn faktory X1, X2,…, Xk. Při různé konstelaci těchto faktorů se bude HDP chovat obecně jinak a náhodně, jelikož těžko vymezíme k faktorů, které v plné míře popisují chování HDP. Takže vždy půjde o náhodnou veličinu a vždy půjde o HDP, avšak pravděpodobnostní chování této veličiny se změní se změnou hodnot faktorů X1, X2,…, Xk. Proto uvádíme index i ve znaku Yi. Při tomto řízeném experimentu, kdy půjde o zjišťování konkrétní podoby vztahu mezi Y a proměnnými X1, X2, …, Xk na zvolené podmnožině množiny všech hodnot proměnných X1, X2, …, Xk, vycházíme z předpokladu, že mezi uvažovanými proměnnými platí rovnice  1 2, ,..., kY f X X X   . V tomto vztahu regresní funkce f závisí na neznámých parametrech a člen  je náhodná veličina dotvářející popis chování proměnné Y, které zcela neumí podchytit systematická část modelu daná funkcí  1 2, ,..., kf X X X . Jak jsme již naznačili tímto krátkým vstupem do regrese, v dalším se bude otázka vztahů řešit obecně pro případ, že proměnná Y – tzv. závisle proměnná závisí na k nezávisle proměnných - na vektoru proměnných  1,..., kX X X . Tvar  1 2, ,..., kf X X X může být různý:  1 2 1 2 1, ,..., kf X X X X   ,   2 1 2 0 1 1 2 2, ,..., kf X X X X X     , apod. Parametry beta zde uvedené nejsou známy! Má-li systematická část modelu tvar        1 2 1 1 2 2, ,..., ...k k kf X X X f X f X f X      , hovoříme o lineární regresi (lineární z hlediska parametrů), nebo o lineárním regresním modelu. Nejčastěji uvažujeme tento model ve tvaru: 3 REGRESNÍ ANALÝZA - 38 - 3-1  1 2 1 1 2 2, ,..., ...k k kf X X X X X X      . V našem výkladu začneme nejjednodušším případem, kdy f je lineární funkcí jedné nezávislé proměnné: 3-2  1 1 2 1f X X   . Uvažujeme tedy vztah 1 2 1 1( )Y X f X        . Naše situace je vykreslena v následujícím grafu. Obrázek 1: regresní závislost v podobě přímky Graf ukazuje, že chování veličiny Y je dáno systematickou částí regresního modelu, tj. funkcí f(X1), jež odráží vliv jediné proměnné X1 na hodnoty proměnné Y. K úplnému popisu chování veličiny Y však nestačí funkce f(X1) a je k ní nutné přičíst také vliv ostatních faktorů shrnutých v proměnné . Právě vyřčené potom platí samozřejmě také pro konkrétní hodnotu proměnné X1, např. pro bod xi1: v bodě xi1 platí vztah Yi = f(xi1) + εi, kde f(xi1) je konkrétní hodnota. Přestože ale f(xi1) je konkrétní hodnota, tuto hodnotu neznáme, i kdybychom znali charakter tvaru funkce f (např. bychom věděli, že to je přímka). Důvod je ten, že funkce f obsahuje neznámé parametry beta! Cílem regresní analýzy je odhadnout neznámé parametry beta. K tomuto účelu je třeba mít k dispozici údaje. Například pro odhad parametrů přímky bývají k dispozici údaje      11 1 21 2 1,Y , ,Y ,..., ,Y .n nx x x Tento zápis znamená, že máme k dispozici n bodů z roviny, přičemž první souřadnice těchto bodů, což jsou hodnoty jediné nezávislé proměnné X1, jsme si zvolili a k těmto hodnotám jsme naměřili hodnoty proměnné Yi, i = 1, 2, …, n. V tomto případě jsme ke každé hodnotě veličiny X1 získali právě jednu hodnotu veličiny Y. Odhad hodnoty funkce  1 2 1 1 2 2, ,..., ...k k kf X X X X X X      při i-té hodnotě proměnných 1 2, ,..., kX X X budeme značit 1 1 2 2 ...i i i k ikY b x b x b x    . Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 39 Závisí-li Y na dvou proměnných X1, X2, budou body (získané experimentálně kvůli potřebě odhadu parametrů modelu) reprezentovány uspořádanými trojicemi: (x11, x12 ,y1) (x21, x22 ,y2) ... (xn1, xn2 ,yn). První index v každé trojici představuje pořadové číslo bodu (prvý, druhý,…, n-tý bod). Tyto body budou v trojrozměrném prostoru proloženy funkcí – v tomto případě rovinou o rovnici 1 1 2 2Y b x b x  . Tato funkce aproximuje vztah mezi veličinou Y na straně jedné a veličinami X1, X2 na straně druhé. Obecněji, v případě závislosti Y na k proměnných X1, X2,…,Xk, předpokládáme znalost bodů v k+1-rozměrném prostoru: (x11, x12,…, x1k, Y1) (x21, x22,…, x2k, Y2) ... (xn1, xn2,…, xnk, Yn) Tyto body budou ve zmíněném prostoru proloženy funkcí – v tomto případě nadrovinou o rovnici 1 1 2 2 ... k kY b x b x b x    . Tato funkce aproximuje vztah mezi veličinou Y na straně jedné a veličinami X1, X2,…, Xk na straně druhé. Aby byly ospravedlněny dále uvedené postupy odhadu parametrů regresní funkce (nejen v případě přímky), je třeba učinit některé předpoklady o statistických vlastnostech náhodné složky ε: 1. Střední hodnota i je nula, tj. E(i) = 0 pro každé i. 2. Rozptyl i je konstantní, nezávislý na i, tj. Var(i) = 2 pro každé i. 3. Veličiny i, j jsou nekorelované, tj. Cov(i, j) = 0 pro i ≠ j. 4. Veličiny i mají normální rozdělení, tj. i  N(0, 2 ) pro každé i. Přitom je zvykem značit střední hodnotu náhodné veličiny symbolem E, rozptyl (varianci) symbolem Var a kovarianci symbolem Cov. Pokud jste zapomněli tyto pojmy, zopakujte si je v základním kurzu statistiky. 3.2 ODHAD REGRESNÍCH KOEFICIENTŮ Regresní funkci předpokládáme ve tvaru:  1 2 0 1 1, ,..., ...k k kf X X X X X      . Body získané například tak, že ke zvolené k-tici (xi1, xi2,…, xik) nalezneme experimentálně yi, jsou jediným a rozhodujícím východiskem určujícím kvalitu odhadu parametrů i, pominemeli samozřejmě předpoklady o náhodné složce ε. O odhadu hovoříme proto, že pracujeme s omezeným počtem bodů (výběrem). Vektor parametrů 0( ,..., )k   přísluší celému populačnímu souboru všech možných k+1-tic typu (xi1, xi2,…, xik, Yi). Odhadem vektoru parametrů (0,…,k) bude vektor 0( ,..., )kb b b , který zjistíme pouze z výběru n bodů typu (xi1, xi2,…, xik, Yi). 3 REGRESNÍ ANALÝZA - 40 Vektor regresních koeficientů 0( ,..., )kb b b získáme z vektorové rovnice 3-3   1 . .T T T b X X X Y   , kde X je tzv. matice regresorů 3-4 11 12 1 21 22 2 1 2 1 ... 1 ... ... ... ... ... ... 1 ... k k n n nk x x x x x x X x x x             , 3-5 1 2(Y ,Y ,...,Y )T nY  . Symbol ZT značí transpozici matice Z a symbolem Z-1 se značí inverze matice Z. K vyčíslení vzorce 3-3 je třeba znát pouze hodnoty bodů (x11, x12,…, x1k, Y1) (x21, x22,…, x2k, Y2) ... (xn1, xn2,…, xnk, Yn). PŘÍKLAD 1 Odhadněte závislost spotřeby elektrické energie (Y) na délce elektrického vedení (X1) a odběru energie (X2). Regresní funkce se předpokládá ve tvaru  1 2 0 1 1 2 2, .f X X X X     Jsou k dispozici následující výběrová data Tabulka 14: vstupní údaje pro regresní analýzu X1 X2 Y 1,2 3,6 3,2 1,3 3,7 3,3 1,3 3,8 3,4 1,4 3,8 3,5 1,4 3,9 3,6 1,5 3,9 3,6 1,5 4 3,7 1,6 4 3,8 1,6 4,1 3,9 1,7 4,2 4 Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 41 Tabulka 14 představuje body, z nichž získáme potřebné matice X a Y. 1 1,2 3,6 1 1,3 3,7 1 1,3 3,8 1 1,4 3,8 1 1,4 3,9 1 1,5 3,9 1 1,5 4 1 1,6 4 1 1,6 4,1 1 1,7 4,2 X                                 3,2 3,3 3,4 3,5 3,6 3,6 3,7 3,8 3,9 4 Y                                 Vektor odhadu regresních koeficientů 0 1 2 b b b b            obdržíme pomocí 3-3 postupně: 1 1,2 3,6 1 1,3 3,7 1 1,3 3,8 1 1,4 3,8 1 1 1 1 1 1 1 1 1 1 10 14,5 39 1 1,4 3,9 1,2 1,3 1,3 1,4 1,4 1,5 1,5 1,6 1,6 1,7 14,5 21,25 56 1 1,5 3,9 3,6 3,7 3,8 3,8 3,9 3,9 4 4 4,1 4,2 1 1,5 4 1 1,6 4 1 1,6 4,1 1 1,7 4,2 T X X                                       ,8 . 39 56,8 152,4            1 245,2 108 103 108 60 50 . 103 50 45 T X X             3 REGRESNÍ ANALÝZA - 42 - 3,2 3,3 3,4 3,5 1 1 1 1 1 1 1 1 1 1 36 3,6 1,2 1,3 1,3 1,4 1,4 1,5 1,5 1,6 1,6 1,7 52,56 . 3,6 3,6 3,7 3,8 3,8 3,9 3,9 4 4 4,1 4,2 140,82 3,7 3,8 3,9 4 T X Y                                              Nyní můžete podle 3-3 vypočítat:   0 1 1 2 245,2 108 103 36 0,78 108 60 50 52,56 0,60 . 103 50 45 140,82 0,90 T T T b b X X X Y b b                                                  Hledaná regresní funkce má tedy rovnici 1 20,78 0,60 0,90Y x x    . Teoretické hodnoty Teoretické hodnoty 1 2, ,..., nY Y Y obdržíme dosazením do 1 20,78 0,60 0,90Y x x    za x1 a x2 postupně z tabulku vstupních dat: 1 0,78 0,60 1,2 0,90 3,6 3,18Y        , 2 0,78 0,60 1,3 0,90 3,7 3,33Y        , ... 10 0,78 0,60 1,7 0,90 4,2 4,02Y        . Tyto hodnoty lze získat pomocí maticového násobení najednou takto: 1 1,2 3,6 3,18 1 1,3 3,7 3,33 1 1,3 3,8 3,42 1 1,4 3,8 3,48 0,78 1 1,4 3,9 3,57 0,6 1 1,5 3,9 3,63 0,9 1 1,5 4 3,72 1 1,6 4 3,78 1 1,6 4,1 3,87 1 1,7 4,2 4,02 T Y X b                                                                     1 2 10 ˆ ˆ . . . . . . . ˆ y y y                                  Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 43 Vektor reziduálních odchylek: Rozdíl teoretické a skutečné hodnoty, tj. rozdíl vektorů e Y Y  představuje vektor reziduálních odchylek. V našem příkladu jej obdržíme následovně: 3,2 3,18 0,02 3,3 3,33 0,03 3,4 3,42 0,02 3,5 3,48 0,02 3,6 3,57 0,03 3,6 3,63 0,03 3,7 3,72 0,02 3,9 3,78 0,02 3,9 3,87 0,03 4 4,02 0,02 e Y Y                                                                               1 2 10 . . . . . . . e e e                                       Rozdíly v tomto případě vznikají tak, že se odečítají sobě odpovídající souřadnice vektorů. Rozptyl odhadu regresních koeficientů: Protože při výpočtu regresních koeficientů se jedná o odhady, je účelné také nalézt rozptyly těchto odhadů, které vyjadřují přesnost odhadů. Získáme je jako prvky hlavní diagonály matice: 3-6   12 ( ) ,T Var b s X X     kde 2 2 1 n i i e s n k     je odhad rozptylu veličiny . Přitom ie = i-tá reziduální odchylka, n = počet bodů, k = počet parametrů regresního modelu. V našem příkladu obdržíme: 2 2 1 0,006 0,0008571. 10 3 n i i e s n k        Tedy   . 0386,00429,00883,0 0429,00514,00926,0 0883,00926,02102,0 4550103 5060108 1031082,245 0008571,0)( 12                              XXsbVar T  3 REGRESNÍ ANALÝZA - 44 Diagonálu poslední matice tvoří rozptyly jednotlivých regresních koeficientů: s2 (b0) = 0,2102, odtud směrodatná odchylka je s(b0) = 0,4584. s2 (b1) = 0,0514, odtud směrodatná odchylka je s(b1) = 0,2267. s2 (b2) = 0,0386, odtud směrodatná odchylka je s(b2) = 0,1965. Po nalezení regresního modelu a rozptylů odhadů regresních koeficientů píšeme obvykle výsledné řešení tak, že pod regresní koeficienty do závorek uvádíme příslušné směrodatné odchylky (též tzv. standardní chyby). V našem případě máme: 1 20,78 0,60 0,90Y x x    (0,4584) (0,2267) (0,1965) Při výpočtu regresních koeficientů b1, b2, …, bk se stává, že mezi koeficienty jsou až řádové rozdíly, např. b1 = 200 a b2 = 0,02. V takových případech stojíme před problémem, zda má smysl zařadit např. b2 do regresní funkce. K objektivnímu posouzení významnosti regresních koeficientů lze použít následující statistický test. 3.3 TEST VÝZNAMNOSTI REGRESNÍCH KOEFICIENTŮ Test má tuto strukturu: 1. Testované hypotézy jsou: H0: i = 0, H1: i  0. 2. Testové kritérium: ( ) i i b T s b  , kde bi je odhad parametru i, s(bi) je směrodatná odchylka odhadu bi . 3. Kritická hodnota K = tn-p(α), kde α je zvolená hladina významnosti. 4. Porovnáme T a K: Je-li T  K, zamítá se H0 a přijme se alternativní hypotézu H1, podle které vypočítaný koeficient je možné považovat za nenulový, neboli statisticky významný a je proto důvod pro jeho zařazení do regresní funkce. V opačném případě přijímáme H0 a parametr považujeme za statistický nevýznamný. V našem příkladu dostáváme konkrétně 1 1 1 0,60 2,65 ( ) 0,0514 b T s b    , 2 2 2 4,58 ( ) b T s b   , Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 45 přičemž tn-p(α) = t10-3 (0,05) = 2,365. Protože T1  2,365 a také T2  2,365 , jsou oba regresní koeficienty statistický významné a nenulové, a proto je oba zařadíme do regresní funkce. Jak již bylo řečeno, výchozím předpokladem pro nalezení odhadu  kbbb ,...,1  regresních koeficientů  1,..., k   je znalost matic X a Y, což znamená znalost bodů (xj1, xj2,…, xjk, Yj). Praktik stojící před úlohou formulovanou v úvodu této kapitoly však musí tyto hodnoty získat. V této souvislosti musí rozhodnout, jak volit hodnoty xij a kolik bodů je potřeba pro seriózní odhad regresních koeficientů. Uvážíme-li, že jak volba bodů xij, tak i jejich počet mají rozhodující význam pro kvalitu odhadu, jsou obě otázky klíčové. Další zpracování těchto údajů je už rutinní záležitostí. Uvedenou problematikou se zabývá mimo jiné plánování experimentů, které je náplní pozdějších kapitol tohoto učebního textu. 3.4 INTERVALY SPOLEHLIVOSTI PRO REGRESNÍ KOEFICIENTY Intervaly spolehlivosti pro parametry 1,…,k, tj. intervaly, ve kterých lze očekávat tyto parametry s pravděpodobností 1-α, získáme pomocí vztahu: 3-7 )]().(),().([ ipniipni bstbbstb    , kde bi = odhad parametru i, s(bi) = směrodatná odchylka odhadu bi, tn-p(α) = kritická hodnota Studentova rozdělení, n = počet bodů, p = počet parametrů modelu, α = hladina významnosti, Při hladině významnosti α je stupeň spolehlivosti 1-α. S touto pravděpodobností se nachází neznámý parametr i v intervalu 3-7. 3.5 TESTOVÁNÍ VHODNOSTI REGRESNÍHO MODELU Vhodnost volby regresního modelu  1 2 0 1 1, ,..., ...k k kf X X X X X      (tj. volby nezávisle proměnných) se ověří testem. Test má následující strukturu: 1. Hypotézy jsou: 0...:H 210  k , respektive, vektorě zapsáno, 0:H0   . 0:H1   . 3 REGRESNÍ ANALÝZA - 46 - 2. Testové kritérium: , )1/( )/(ˆ   knS kS T e Y kde 2 ˆ 1 1 1 ( ) , n n i iY i i S Y Y Y Y n      , 2 2 1 1 ( ) . n n e i i i i i S Y Y e       3. Kritická hodnota K = )(1, knkF , kde )(1, knkF je kritická hodnota Fischerova rozdělení F se stupni volnosti df1 = k a df2 = n-k-1. V Excelu se kritická hodnota vypočítá pomocí funkce FINV(; df1; df2). 4. Je-li KT  , pak se H0 zamítá. V opačném případě se H0 nezamítá. Použijeme-li test na náš příklad, obdržíme: 5,346 )310/(006,0 )13/(594,0    T , K = F3,10-3-1(0,05) = 4,757. Protože T překročilo kritickou hodnotu K, zamítá se H0 a model se považuje za vyhovující, tj. zamítá se hypotéza o nulovosti všech regresních koeficientů (s výjimkou β0). Testové kritérium překročilo kritickou hodnotu výrazně a stalo by se tak i na jednoprocentní hladině významnosti. 3.6 SHRNUTÍ V této kapitole jsme se zabývali regresní analýzou. Regresní analýza řeší vztah mezi kvantitativním znakem Y nazývaným vysvětlovaná (závislá) proměnná a mezi kvantitativními znaky nazývanými vysvětlující (nezávislé) proměnné. Zabývali jsme se lineárním regresním modelem (lineárním podle parametrů). V závěru kapitoly jsme se seznámili s testy, pomocí nichž lze posoudit statistickou významnost regresních koeficientů či statistickou významnost celého modelu a sestavit intervaly spolehlivosti pro odhadnuté parametry. Text je proložen řešenými příklady. Pracovali jsme s těmito pojmy: lineární regrese, odhad regresních koeficientů, teoretická hodnota, reziduální odchylky, rozptyl a směrodatná odchylka odhadů regresních koeficientů, testování regresních koeficientů, testování vhodnosti regresního modelu, intervaly spolehlivosti pro odhadnuté koeficienty. Následují další řešené příklady. PŘÍKLAD 2 a) Odhadněte regresní koeficienty v regresní rovnici 0 1 1 2 2Y b b x b x   , b) Vypočtěte teoretické hodnoty, Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 47 c) Vypočtěte reziduální odchylky, d) Vypočtěte rozptyl odhadů regresních koeficientů, e) Testujte regresní koeficienty na významnost. f) Pro vstupní hodnoty        5121 3111 0X proveďte predikci závislé proměnné Y0. K úkolům a-f využijte následující údaje: y x1 x2 10 1 0 25 3 -1 32 4 0 43 5 1 58 7 -1 62 8 0 67 10 -1 71 10 2 ŘEŠENÍ a. Odhad regresních koeficientů:            35 2710 368 YX T ,                                    26,0 59,6 47,6 35 2710 368 . 60840240 4064384 2403842887 4664 1T b  . b. Teoretické hodnoty  13,06 , 25,98, 32,83, 39,68, 52,34 , 59,19 , 72,11, 72,89Y  . c. Rezidua  89,1,11,5,81,2,66,5,32,3,83,0,98,0,06,3 e  . d. Rozptyl koeficientů 65,912 i ie , 3 REGRESNÍ ANALÝZA - 48 -                           39,2...... ...25,0... ......35,11 60840240 4064384 2403842887 4664 1 . 38 65,91 )(bVar  . e. Test koeficientů: 92,1 37,3 47,6 )0( 0 0  bs b T , 18,13 5,0 59,6 1 T , T2 = 0,17 . K = 571,2)05,0()( 38   tt pn  . Statisticky významný je pouze koeficient 1 , neboť pouze T1 > K. f. Predikce Y0:        5121 3111 0X                         85,86 74,79 26,0 59,6 47,6 . 5121 3111 0Y . PŘÍKLAD 3 Zjistěte, zda existuje závislost hodnoty produkce na výši firemních investic v odvětví lehkého strojírenství. Tato závislost je reprezentována koeficientem 1 v regresní funkci obsahující dva parametry. Přitom víte, že regresní koeficient získaný z 12 výběrových dat 1 2,1622.b  Dále víte, že směrodatná odchylka tohoto regresního koeficientu 1( ) 0,615516.s b  Existenci závislosti prověřte testem na nulovost koeficientu 1 , a to na pětiprocentní hladině významnosti. ŘEŠENÍ Dosadíte-li do testového kritéria 1 1 , ( ) b T s b  dostanete 2,1622 3,513. 0,615516 T   V tabulce Studentova rozdělení naleznete pro 12 – 2 = 10 stupňů volnosti kritickou hodnotu 10 (0,05) 2,228t  . Protože 3,513 > 2,228, zamítáte na zvolené hladině významnosti hypotézu o nulové hodnotě regresního koeficientu. Tento regresní koeficient je tedy na hladině významnosti 5% statisticky významný a zkoumaná závislost existuje. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 49 PŘÍKLAD 4 Nalezněte lineární regresní rovnici, která popisuje závislost celkové měsíční tržby – proměnná Y (v 10 000 Kč) na tržbě ve stravovacích úsecích – proměnná 1X (v 10 000 Kč) a na počtu „lůžkonocí“ – proměnná 2X . Měsíční kapacita hotelů se udává často tímto ukazatelem a je dána součinem celkového počtu lůžek a počtu dnů v měsíci. Výchozí údaje obsahuje následující tabulka. Výchozí údaje: Y 1x 2x 12,0 2,0 150 8,0 1,2 94 76,4 14,8 811 17,0 8,3 254 21,3 8,4 399 10,0 3,0 95 12,5 4,8 149 97,3 15,6 312 88,0 16,1 952 25,0 11,5 247 38,6 14,2 400 47,3 14,0 312 ŘEŠENÍ Vektor vysvětlované proměnné a matice vysvětlujících proměnných mají tvar: 12,0 1 2,0 150 8,0 1 1,2 94 76,4 1 14,8 811 17,0 1 8,3 254 21,3 1 8,4 399 10,0 1 3,0 95 , 12,5 1 4,8 149 97,3 1 15,6 312 88,0 1 16,1 952 25,0 1 11,5 247 38,6 1 14,2 400 47,3 1 14,0 312 Y X                                                            .                 3 REGRESNÍ ANALÝZA - 50 - Odtud     1 1 12,0 113,90 4175,0 453,4 113,9 1428,43 51958,5 , 6006,8 , 4175,0 51958,50 2266001 230647,8 0,343 0,02629 0,0003 0,026 0,006234 0,000094 , 0,00003 0,000094 0,00000266 T T T T T X X X Y X X X X X                                    9,126450 3,729273 . 0,033091 T Y b           Vícenásobná regresní rovnice má tedy tvar 1 29,126450 3,729273 0,033091 .Y x x    PŘÍKLAD 5 Testujte statistickou významnost regresních koeficientů 21, z předchozího příkladu. Test hypotézy o nulovosti těchto regresních koeficientů proveďte na hladině významnosti 5%. ŘEŠENÍ Nejprve samostatně vypočtete směrodatné odchylky regresních koeficientů. Měli byste dospět k těmto hodnotám: .0283,0)(,371,1)( 21  bsbs Hodnoty testového kritéria podle )( j j bs b T  jsou .1693,1 0283,0 033091,0 ,7201,2 371,1 729273,3 21  TT Provedeme-li test na hladině významnosti 5%, nalezneme v tabulce Studentova rozdělení pro 12 – 3 = 9 stupňů volnosti kritickou hodnotu .26,2)05,0(9 t Porovnáme-li obě hodnoty testového kritéria 21 TaT s uvedenou kritickou hodnotou, vidíme, že v případě proměnné 1x zamítáme na zvolené hladině významnosti hypotézu H0 o nulové hodnotě regresního parametru 1 . V případě proměnné 2x ovšem hodnota testového kritéria nepřekročila kritickou mez a zůstává tedy v oboru přijetí. Jinými slovy řečeno, proměnná 2x na rozdíl od 1x významným způsobem neovlivňuje v modelu hodnoty závislé proměnné a její zařazení do vícenásobného regresního modelu oprávněné nebylo. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 51 KONTROLNÍ TEST 3 3.1 Regresní analýza zkoumá závislost kvantitativních znaků? 3.2 Odchylku naměřených hodnot od teoretických hodnot nazýváme reziduální odchylka? 3.3 Regresní analýza se zabývá pouze lineární regresí? 3.4 Kritická hodnota t při testování regresních koeficientů je kritickou hodnotou normálního rozdělení? 3.5 Nulová hypotéza při testování vhodnosti modelu je tvaru: 0...:H 210  k ? 3.6 Klasický regresní model předpokládá, že náhodné složky mají __________ střední hodnotu a __________ rozptyl. 3.7 Pro testování hypotézy o nulovosti individuálních regresních koeficientů se používá __________ 3.8 Je-li v rovnici 0 1 1 ... k kY b b x b x    absolutní člen 0b , jsou v matici X v prvním sloupci __________ 3.9 Regresní analýza zkoumá závislost __________ znaků. 3.10 Rozptyly odhadů regresních koeficientů najdeme na __________ __________ matice     12   XXsbVar T  . 3.11 Personální oddělení shromáždilo údaje o věku (X) a době pracovní neschopnosti (Y) dvaceti náhodně vybraných zaměstnanců. Zjištěné údaje jsou zaznamenány v tabulce. x Y x Y 20 4 58 20 35 14 46 13 35 15 43 16 34 10 33 10 32 10 29 10 28 9 36 11 25 12 48 14 46 15 55 15 38 15 36 14 50 16 19 6 Odhadněte regresní koeficienty v rovnici regresní funkce 0 1Y b b x  . 3.12 Statistický úřad zkoumal souvislost ročních úspor s ročními příjmy rodin se dvěma dětmi školou povinnými. Výsledky studie jsou zachyceny v tabulce. Příjem (tis. Kč) 104 2 125 1 146 1 167 1 111 1 135 1 189 1 196 2 205 2 210 1 170 2 230 Úspory (tis. Kč) 6 5,6 9 9,2 1 14 8 8 9 9,1 2 20,5 2 29 2 23,2 3 38,5 2 25 4 40 Najděte lineární regresní model popisující závislost úspor na příjmech a na základě tohoto modelu odhadněte úspory rodiny, bude-li její roční příjem 205 tis. Kč. 3.13 Ze statistiky rodinných účtů jsme náhodně vybrali osm čtyřčlenných domácností se dvěma nezaopatřenými dětmi. Z podkladů jsme zjišťovali celkový hrubý roční příjem 3 REGRESNÍ ANALÝZA - 52 domácnosti v Kč (vysvětlující proměnná x) a celkové roční výdaje těchto domácností za průmyslové zboží (Kč, vysvětlovaná proměnná Y) – viz tabulka: x x 211399 306502 250251 264138 274060 297046 328645 249987 Y Y 42276 72341 49852 53827 54914 60409 71729 47997 a. odhadněte parametry lineární regresní rovnice vystihující závislost roční výše výdajů domácností za průmyslové zboží na celkovém hrubém ročním příjmu těchto domácností, b. nalezněte odhad teoretické výše těchto výdajů v domácnosti, která by měla roční příjem přes 300 000Kč. 3.14 a. Stanovte z dat otázky 3.13 směrodatnou odchylku odhadu parametrů ,ib i = 0, 1. b. Určete pro odhad parametru 1b hodnotu testové statistiky T používané v testu hypotézy H0 o nezávislosti mezi příjmy a výdaji a tento test proveďte proti oboustranné alternativě H1 na hladině významnosti .05,0 Údaje opět převezměte z kontrolní otázky 3.13. 3.15 Z údajů o objemu produkce (mil. FRF, stálé ceny roku 1980, proměnná Y), o hrubé tvorbě fixního kapitálu (mil. FRF, stálé ceny roku 1980, proměnná X1) a o zaměstnanosti (tis. osob, stav k 31.12.1998, proměnná X2) v roce 1998 v jednotlivých odvětvích národního hospodářství Francie, které jsou v tabulce, odhadněte parametry vícenásobné regresní funkce typu 2211021 ),( xxXXf   . Odvětví Yi 1ix 2ix Zemědělství 288443 18781 1055 Potravinářství 393828 13990 551 Energetika 330300 33813 223 Výroba polotovarů 602182 32022 1101 Výroba výrobních zařízení 426720 19520 965 Výroba zařízení pro domácnosti 34008 1258 49 Výroba dopravních prostředků 185887 10462 358 Výroba spotřebních předmětů 427766 16392 1030 Stavebnictví a veřejné práce 436926 19828 1472 Obchod 495319 36354 2691 Doprava a spoje 417147 58196 1268 Tržní služby 1002132 116083 4617 Pojišťovací služby 61827 2053 158 Finanční služby 709297 6908 441 Netržní služby 840622 136923 6148 ŘEŠENÍ KONTROLNÍHO TESTU 3 3.1 ano 3.2 ano 3.3 ne 3.4 ne Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 53 - 3.5 ne 3.6 nulovou, konstantní 3.7 t-test 3.8 jedničky 3.9 kvantitativních 3.10 hlavní diagonále 3.11 1,394 0,296Y x  , 3.12 26,399 0,274Y x   ; 29 711Kč 3.13 a. 19599,4 0,2796 ,Y x   b. pro 300000 je 64298 ,i ix Kč Y Kč  3.14 a. 1( ) 0,03375,s b  b. Testové kritérium T = 8,284, kritická hodnota  447,2)05,0(6t přijímáme H1 o existenci závislosti roční výše výdajů domácností za průmyslové zboží na celkovém hrubém ročním příjmu těchto domácností. 3.15 1 2263684,7 2,2331 66,7912 .Y x x   4 KORELAČNÍ ANALÝZA - 54 - 4 KORELAČNÍ ANALÝZA V předcházející kapitole jsme u regresních modelů řešili problém hledání funkčního vztahu, který by vyjadřoval závislost vysvětlované proměnné (Y) na vysvětlujících proměnných (shrnutých do vektoru X). Regresní modely vycházely mimo jiné z předpokladu, že je znám směr kauzálního vztahu mezi těmito proměnnými, a také předpokládal, že hodnoty vysvětlujících proměnných jsou předem známy. Z hlediska matematického šlo o modely lineární z hlediska parametrů. V této kapitole se budeme zabývat problémem měření intenzity závislosti mezi proměnnými. Existuje více způsobů měření intenzity závislosti, z nichž možná ten nejjednodušší spadá do tzv. korelační analýzy. Korelační analýza má úzkou návaznost na regresní analýzu [2], neboť se v ní využívá teorie lineárních regresních modelů. Klade si ale jiný cíl – nehledá vhodnou formu vzahu mezi proměnnými, neboť už primárně vychází z předopkladu, že tento vztah je lineární (dokonce nejen z hlediska parametrů, ale i z hlediska proměnných), a soustředí se na kontrukci měr závislostí mezi těmito proměnnými. Následující kapitola je doplněna řešenými příklady, které by vám měly pomoci danou problematiku pochopit. Po prostudování kapitoly si ověřte, zda jste schopni samostatně vypočítat příklady na konci této sekce. Pokud budete studovat důkladně, určitě to zvládnete. 4.1 KOEFICIENT KORELACE V nejjednodušším případě se sleduje závislost dvou náhodných veličin Y a X. V tomto případě lze použít jako míru lineární závislosti těchto veličin (párový) koeficient korelace ρxy, definovaný vztahy 4-1 ( , ) ( ). ( ) xy Cov X Y X Y     pro ( ) 0, ( ) 0X Y   , 0 v ostatních případech. Zde ( , ) ( ) ( ) ( )Cov X Y E XY E X E Y   značí kovarianci náhodných veličin X a Y, jak již bylo uvedeno v první kapitole tohoto textu, zatímco ( ),X respektive ( )Y je směrodatná odchylka veličiny X, respektive Y. Symbol E značí střední hodnotu náhodné veličiny. Tento pojem byl probrán v kurzu Statistika pro případ diskrétních náhodných veličin, u kterého zde také zůstaneme. Pro párový koeficient korelace platí [ 1,1]xy   . Je-li xy = 0, říkáme, že veličiny X a Y jsou nezkorelované. Je-li xy = 1 nebo xy = -1, existuje přesná funkční závislost mezi veličinami X a Y v podobě přímky. Tato přímka je rostoucí v prvním případě a klesající ve druhém případě. Je-li xy = 0, je třeba se omezit pouze na konstatování, že obě veličiny jsou nezkorelované. Nelze tvrdit, že jsou (statisticky) nezávislé. Zatímco nezávislé veličiny jsou nezkorelované, opak neplatí (až na několik výjimečných případů). Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 55 PŘÍKLAD 1 Vypočítejme koeficient korelace xy , jsou-li dány tyto údaje: Tabulka 15: vstupní dvojice hodnot pro výpočet korelace X -2 -1 0 1 2 Y 4 1 0 1 4 Všechny páry hodnot nastávají se stejnou pravděpodobností p. K ručnímu výpočtu xy je výhodné uspořádat potřebné výpočty do tabulky 16: Tabulka 16: mezivýpočty pro vyhodnocení koeficientu korelace Xi Yi Xi.Yi -2 4 -8 -1 1 -1 0 0 0 1 1 1 2 4 8 xi = 0 yi = 10 xi.yi = 0 Je 2 ( , ) ( ) ( ) ( ) 0i i i i i i i Cov X Y E XY E X E Y p x y p x y        , a tedy xy = 0. Přitom tyto veličiny rozhodně nejsou nezávislé. Dokonce mezi nimi existuje přesná funkční závislost v podobě kvadratické funkce, jak se lze snadno přesvědčit. Vzorec 4-1 se týká populačního/teoretického koeficientu korelace, který ve většině případů nebudeme schopni vypočítat, jelikož nebudou k dispozici populační charakteristiky ( , )Cov X Y , ( )X a ( )Y . Výše uvedený příklad je samozřejmě uměle zkonstruovaný. Z tohoto důvodu aproximujeme ukazatel 4-1 výběrovým párovým korelačním koeficientem rxy, získaným na základě realizace náhodného výběru. Tento výběrový ukazatel je dán vztahem 4-2 2 2 2 2 . . . . ( ) . ( ) i i i i xy i i i i n x y x y r n x x n y y                  . Abychom mohli „objektivně“ rozhodnout o existenci jisté míry lineární závislosti mezi veličinami Y a X , testujeme statistickou hypotézu xy = 0 pomocí testu hypotézy o nulovosti koeficientu korelace. Využíváme k tomu právě výběrového koeficientu korelace rxy. 4 KORELAČNÍ ANALÝZA - 56 Testování nulovosti párové korelace 1. Nulová hypotéza H0: xy = 0 vs. alternativní hypotéza H1: xy  0. 2. Testové kritérium: T = 2 . 2 1 xy xy r n r   , kde n = počet dvojic (xi, yi), tj. rozsah výběrového souboru. 3. Kritická hodnota testu na hladině významnosti alfa je K = tn-2(α). Týká se tedy Studentova rozdělení s n-2 stupni volnosti. 4. Je-li T < K, pak se H0 přijímá, tj. Y není lineárně závislé na X. V opačném případě přijímáme H1, což znamená, že Y je (do jisté míry) lineárně závislé na X. Poznamenejme, že musí být splněny některé předpoklady pro to, aby mohl být test realizován. Tím hlavním předpokladem je, že sdružené pravděpodobnostní rozdělení náhodného vektoru (X,Y) je dvourozměrné normální rozdělení. PŘÍKLAD 2 Mějme hodnoty xi a yi získané náhodným výběrem: Tabulka 17: výsledek náhodného výběru (první a druhý sloupec) a mezivýpočty xi yi xi yi xi 2 yi 2 -2 -5 10 4 25 -1 -3 3 1 9 0 0 0 0 0 1 1 1 1 1 2 4 8 4 16 Σ = 0 Σ = -3 Σ = 22 Σ = 10 Σ = 51 S pomocí vzorce 4-2 obdržíme 2 5.22 0.( 3) 0,9918. (5.10 0).(5.51 ( 3) ) xyr        Taková hodnota je jasným signálem vysoké závislosti Y na X, nicméně hodnot je velmi málo, proto raději provedeme statistický test, a to na jednoprocentní hladině významnosti: T = 2 0,9918. 5 2 1,718 13,443. 0,0161 0,9918     Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 57 Je α = 0,01, tedy kritická hodnota K = t5-2(0,01) = TINV(0,01; 3) = 5,84. Protože T  K, je lineární závislost Y na X významná. Potvrzuje to i p-hodnota testu = TDIST(13,443; 3; 2) = = 0,00089, která je podstatně menší než alfa, a znamená též, že hodnota korelačního koeficientu je statisticky významná na hladině významnosti 0,00089 a větší, tj. na každé „rozumné“ hladině významnosti. 4.2 INDEX KORELACE Není-li regresní funkcí, podle níž se posuzuje korelace veličin, přímka, ale jiná, i nelineární funkce, je možné k odhadu závislosti X a Y použít index korelace: 4-3 ˆY xy Y S I S  , kde vystupují součty čtverců 2 ˆ 1 ( ) n iY i S Y Y    , 2 1 ( ) . n Y i i S Y Y    Symboly zde značí totéž, co v regresní analýze. Výpočet Ixy je pracnější než u rxy z toho důvodu, že je potřeba nejprve najít rovnici regresní funkce f, aby mohly být vypočítány teoretické hodnoty závislé proměnné iY pomocí této regrese a z těchto hodnot pak potřebný součet čtverců. Hodnoty iY jsou změřené, jejich průměr je Y . Teoretické hodnoty iY odpovídají příslušným hodnotám veličiny X tak, jako tomu bylo v kapitole o regresní analýze: ( )i iY f x . Index korelace Ixy nabývá hodnot 0 ≤ Ixy ≤ 1. Diskuse k výsledkům je obdobná jako u rxy, testování významnosti se obvykle neprovádí. Ixy je použitelný též pro regresní přímku, pak je ovšem totožný s absolutní hodnotou příslušného párového korelačního koeficientu. 4.3 SPEARMANŮV KORELAČNÍ KOEFICIENT Jsou-li hodnoty veličin X ,Y zadány pořadím, používá se k odhadu míry závislosti těchto veličin Spearmanův koeficient (pořadové) korelace, který se počítá dle vzorce 4-4 2 2 6 1 ( 1) i i S d r n n      . Zde je id diference i-tého pořadí X a Y a n je počet párů hodnot X a Y , resp. rozsah výběru. 4 KORELAČNÍ ANALÝZA - 58 PŘÍKLAD 3 Výrobky byly seřazeny dle jakosti dvěma komisemi, z nichž jednu tvořili odborníci a druhou zástupci laické veřejnosti. Rozhodněte, zda se výsledky hodnocení obou komisí shodují ve smyslu korelace. V levé části níže uvedené tabulky 18 jsou pořadí, v pravé části této tabulky jsou spočteny rozdíly v pořadí. Tabulka 18: pořadí výrobků Výrobek Laické pořadí Odborné pořadí di di 2 1 7 8 -1 1 2 9 9 0 0 3 8 7 1 1 4 10 10 0 0 5 6 6 0 0 6 5 4 1 1 7 3 5 -2 4 8 4 3 1 1 9 2 2 0 0 10 1 1 0 0 2 2 6 6.8 1 1 0,95. ( 1) 10.99 i i S d r n n        Výběrový koeficient pořadové korelace lze využít k testu nezávislosti (!) obou veličin: 1. Testovaná hypotéza H0: X,Y jsou nezávislé vs. alternativní hypotéza H1: X,Y nejsou nezávislé. 2. Testové kritérium má tvar: ( 1) ST n r   . 3. Kritická hodnota testu K = kritická hodnota rozdělení N(0,1) na hladině významnosti alfa = NORMSINV(1-alfa). 4. Je-li T K , zamítáme hypotézu H0. V opačném případě přijímáme H0. Přijmeme-li H0, víme, že jsou veličiny nezávislé, a tedy i nezkorelované. Pokud hypotézu zamítneme, víme, že veličiny nejsou nezávislé, nejsme ale schopni rozhodnout v takovém případě, zda jsou nezkorelované. Test platí přibližně pro 30n  a za předpokladu, že náhodný vektor (X,Y) má dvourozměrné pravděpodobnostní rozdělení spojitého typu. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 59 - 4.4 VÍCENÁSOBNÁ ZÁVISLOST – PŘÍPAD DVOU VYSVĚTLUJÍCÍCH PROMĚNNÝCH Chceme-li zjistit lineární závislost proměnné Y na větším počtu vysvětlujících proměnných 1 2, ,..., pX X X , používáme k měření těsnosti závislosti buďto: a. koeficienty dílčí (parciální) korelace, b. koeficient vícenásobné korelace. Ad a. Koeficient dílčí (parciální) korelace 1 2 ,..., pyx x xr  měří intenzitu lineární závislosti proměnné Y na vysvětlující proměnné X1 za předpokladu, že je jistým způsobem odstraněn vliv ostatních proměnných 2,..., pX X . Jde o proměnné, které jsou uvedeny za symbolem „∙“. Důvod výpočtu tohoto ukazatele jen ten, že vliv proměnné X1 může být zkreslen současným působením proměnných 2,..., pX X . Omezíme se nyní na případ p = 2. Koeficient dílčí korelace vystupuje opět ve dvou podobách: buďto jde o populační koeficient nebo jeho odhad – výběrový koeficient parciální korelace. Výběrový koeficient parciální korelace se v případě dvou vysvětlujících proměnných vypočítá dle vztahu 4-5    1 2 1 2 1 2 2 1 2 2 2 1 1 yx yx x x yx x yx x x r r r r r r      , respektive dle rovnice 4-6    2 1 1 2 2 1 1 1 2 2 2 1 1 yx yx x x yx x yx x x r r r r r r      . V obou případech nabývají koeficienty hodnot z intervalu [-1,1]. Jak je patrné ze vzorců 4-5 a 4-6, k výpočtu parciální korelace je třeba vypočítat různé kombinace párových korelací. Jelikož jde o výběrovou korelaci, lze s její pomocí testovat podobu jejího populačního protějšku: Test statistické významnosti koeficientu parciální korelace (případ 4-5): 1. 1 20 : 0yx xH    (není přítomna korelační závislost), 1 21 : 0yx xH    . 2. Testové kritérium: 1 2 1 2 2 3 1 yx x yx x r n T r      . 3. Kritická hodnota na hladině alfa = K =  3nt = TINV(α,n-3). 4 KORELAČNÍ ANALÝZA - 60 - 4. Pokud T  3nt  , pak je koeficient parciální korelace statisticky významný, tj. nenulový. Test platí za předpokladu, že náhodný vektor (Y, X1, X2) se řídí třírozměrným (regulárním) normálním rozdělením. Předpokládáme také, že n > 3. Ad b. Koeficient vícenásobné korelace měří závislost proměnné Y na všech vysvětlujících proměnných pXXX ,...,, 21 dohromady. Pro 2 vysvětlující proměnné se výběrová verze tohoto koeficientu spočte dle vztahu 4-7 1 1 2 1 2 2 1 2 1 2 2 2 2 2 1 yx yx yx x x yx y x x x x r r r r r r r      , 1 2 0 1y x xr   . I tento koeficient lze využít k testu podoby populační korelace: Test statistické významnosti koeficientu vícenásobné korelace: 1. 1 20 : 0y x xH    (není závislost) vs. 1 21 : 0y x xH    . 2. Testové kritérium:     1 2 1 2 2 2 3 2 1 y x x y x x r n T r        . 3. Kritická hodnota K se tentokrát týká Fisherova rozdělení se stupni volnosti 2 a n-3: na hladině významnosti alfa se zapisuje ve tvaru  2, 3nF  a v Excelu se spočte užitím funkce FINV(α,2,n-3). 4. Pokud je T   2, 3nF  , pak je koeficient vícenásobné korelace statisticky významný na dané hladině významnosti. V opačném případě není statisticky významný. Test platí za předpokladu, že náhodný vektor (Y, X1, X2) se řídí třírozměrným normálním rozdělením. Předpokládáme také, že n > 3. SHRNUTÍ V této kapitole jsme se seznámili s dalším důležitým tématem: korelační analýzou. Naučili jsme se stanovit koeficient korelace, index korelace a Spearmanův index pořadové korelace. V závěru kapitoly jsou uvedeny koeficienty parciální a vícenásobné korelace. Protože výpočet pro případ, že Y závisí na proměnných 1 2, ,..., pX X X , kde 2p  , je pracnější, je v teorii a řešených příkladech uveden tvar pro výpočet korelace pro případ 2p  . Následují další řešené příklady. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 61 PŘÍKLAD 4 Zjistěte, zda existuje mezi následujícími proměnnými lineární závislost. Vypočtěte parciální korelační koeficienty, proveďte test významnosti menšího z nich (hladina významnosti 5%), vypočtěte také koeficient vícenásobné korelace a testujte jeho významnost na hladině 5%. Využijte k tomu data tabulky 19, která představují celkové měsíční tržby Y (v mil. Kč), tržby stravovacích úseků X1 (v mil. Kč), počet „lůžkonocí“ X2. (Počet lůžkonocí je dán součinem počtu lůžek a počtu dnů v měsíci). Tabulka 19: vstupní údaje pro měření lineární závislosti Y 12 8 76,4 17 21,3 10 X1 2 1,2 14,8 8,3 8,4 3 X2 150 94 811 254 399 95 Y 12,5 97,3 88 25 38,6 47,3 X1 4,8 15,6 16,1 11,5 14,2 14 X2 149 312 952 247 400 312 ŘEŠENÍ Nejprve vypočteme jednoduché korelační koeficienty: 1 2 1 2 0,85, 0,75, 0,73.yx yx x xr r r   Nyní dosadíme do vztahu pro parciální korelační koeficienty 4-5, 4-6:    1 2 1 2 1 2 2 1 2 2 2 1 1 yx yx x x yx x yx x x r r r r r r      ,    2 1 1 2 2 1 1 1 2 2 2 1 1 yx yx x x yx x yx x x r r r r r r      . Po dosazení dostáváme následující hodnoty parciálních korelačních koeficientů: 1 2 0,67yx xr   , 2 1 0,36yx xr   . Dalším úkolem je testovat parciální korelační koeficient 2 1 0,36yx xr   : 1. 2 10 : 0yx xH    vs. 2 11 : 0yx xH    . 2. Testové kritérium: 2 1 2 1 2 12 3 1 yx x yx x r T r      = 1,16. 3. Kritická hodnota Studentova rozdělení:  12 3 0,05 2,262t   . 4 KORELAČNÍ ANALÝZA - 62 - 4. Protože hodnota testového kritéria leží v oboru přijetí, tj. |T| < t9(0,05), přijímáme nulovou hypotézu a parciální korelační koeficient není statisticky významný. Jinak řečeno, nebylo prokázáno, že by celkové měsíční tržby závisely na počtu lůžkonocí při vyloučení vlivu tržeb ze stravovacích úseků. Nakonec vypočtěme koeficient vícenásobné korelace a testujme jeho statistickou významnost. Po dosazení do vztahu 4-7 dostaneme: 1 1 2 1 2 2 1 2 1 2 2 2 2 2 0,87. 1 yx yx yx x x yx y x x x x r r r r r r r       Jak je vidět, jeho hodnota je větší než největší z jednoduchých korelačních koeficientů. Nyní následuje test: 1. 1 20 : 0y x xH    (není lineární závislost) vs. 1 21 : 0y x xH    . 2. Testové kritérium:     1 2 1 2 2 2 12 3 2 1 y x x y x x r T r       = 14,54. 3. Kritická hodnota Fisherova rozdělení = FINV(0,05,2,9) = 4,26. 4. Protože hodnota testového kritéria leží v kritickém oboru, zamítáme nulovou hypotézu a lze tvrdit, že celkové měsíční tržby jsou společně ovlivněny jak tržbami stravovacích úseků, tak současně počtem lůžkonocí. PŘÍKLAD 5 V náhodném výběru o rozsahu 25 pozorování byl vypočítán výběrový koeficient párové korelace 0,23xyr  . Ověřte testem provedeným na 1% hladině významnosti, zda z tohoto výsledku lze usuzovat na lineární nezávislost mezi proměnnými X a Y v základním souboru. ŘEŠENÍ Vypočítáme hodnotu testového kritéria 2 2 1 xy xy r n T r    2 0,23 25 2 1,133. 1 0,23     V tabulce kritických hodnot Studentova rozdělení t naleznete při 1% hladině významnosti pro 23 stupňů volnosti kritickou hodnotu t23(0,01) = 2,8. Protože 1,133 < 2,8, tj. hodnota testového kritéria náleží do oboru přijetí, nelze na 1% hladině významnosti zamítnout hypotézu H0. Existenci lineární závislosti mezi veličinami v základním souboru považujeme tedy za neprokázanou. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 63 PŘÍKLAD 6 V podniku Canard se při hodnocení údajů (tabulka 20) vycházejících z vnitropodnikového účetnictví sledovala závislost vlastních nákladů připadajících na jednotku produkce (proměnná Y) na objemu produkce v 1 000 ks (proměnná X). Tabulka 20: náklady Y a produkce X firmy Canard ix 60 71 92 144 192 306 iy 5157 2620 1986 1582 1100 954 ix 437 481 747 989 1383 iy 729 456 200 196 110 Vypočítejte index korelace za předpokladu hyperbolické regresní závislosti ve tvaru a Y b X    , kde a, b jsou neznámé regresní parametry. ŘEŠENÍ Nejprve je zapotřebí stanovit metodou nejmenších čtverců regresní koeficienty a a b (přesněji jejich odhady ˆˆ,a b , poté dosadit do nalezené regresní rovnice za xi údaje z tabulek, a vypočítat tak postupně teoretické hodnoty ˆˆ ˆ( / )i iy a x b  . K výpočtu indexu korelace potřebujeme podle 4-3 také průměrnou hodnotu y . Dosadíme-li příslušné součty řádků do 4-3, dostáváme     2 2 ˆ 19813814 0,945. 22155242 i yx i y y I y y        Výsledná hodnota indexu ukazuje na vysokou závislost mezi vlastními náklady na jednotku produkce a objemem produkce. Lze tedy říci, že použití regresní hyperboly tuto závislost velmi dobře vystihuje a případné regresní odhady Y prováděné na jejím základě je možno považovat za rozumné. KONTROLNÍ TEST 4 4.1 Koeficient korelace vyjadřuje lineární závislost Y na X? 4.2 Koeficient korelace nabývá hodnot z intervalu [0,1] ? 4.3 Nulová hypotéza při testování statistické významnosti korelačního koeficientu předpokládá, že Y je nezkorelované s X? 4.4 Výpočet indexu korelace I je mnohem snadnější než výpočet koeficientu korelace? 4 KORELAČNÍ ANALÝZA - 64 - 4.5 Spearmanův koeficient korelace nabývá hodnot z intervalu [ 1,1] ? 4.6 Korealční analýza hledá číselné charakteristiky k vyjádření __________ 4.7 Je-li hodnota koeficientu korelace 1xyr  , pak je přímka, která vyjadřuje tuto závislost, __________ 4.8 Index korelace I nabývá hodnot z intervalu __________ 4.9 Pokud jsou hodnoty veličin X, Y zadány pořadím, používá se k vyjádření míry jejich lineární závislosti __________ koeficient korelace. 4.10 Je-li veličina Y lineárně závislá na vektoru  mXXXX ,...,, 21 používá se k výpočtu míry této závislosti koeficient __________ __________ 4.11 Vypočítejte koeficient korelace mezi těžbou uhlí v 1000t a náklady na vytěženou tunu v Kč. Výchozí údaje potřebné k výpočtu jsou uvedeny v tabulce. Důl č. ix iy 1 350 37 2 351 38 3 329 38 4 329 38,5 5 327 37,5 6 322 39,1 7 321 39,6 8 316 42,1 9 298 42,9 10 286 43,5  3229 396,2 4.12 Ze statistiky rodinných účtů jsme náhodně vybrali osm čtyřčlenných domácností se dvěma nezaopatřenými dětmi. Z podkladů jsme zjišťovali celkový hrubý roční příjem domácnosti v Kč (proměnná X) a celkové roční výdaje těchto domácností za průmyslové zboží (proměnná Y). Údaje jsou uvedeny v tabulce.Vypočítejte index korelace pro případ závislosti ve tvaru přímky a korelační koeficient. ix 211399 306502 250251 264138 iy 42276 72341 49852 53827 ix 274060 297046 328645 249987 iy 59914 60409 71729 47997 4.13 Filmový festival v kategorii hudebních filmů představil festivalové porotě 10 snímků, které současně oceňovala v anketě i divácká obec. Pořadí hodnocení děl (ta označíme písmeny A, B, ..., J) shrnuje tabulka. Film A B C D E F G H I J Pořadí odb. poroty 5 7 9 1 2 8 3 4 6 10 Pořadí v anketě 1 6 4 3 8 7 2 5 10 9 Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 65 Spearmanovým korelačním koeficientem odhadněte, zda existuje souvislost mezi těmito dvěma sadami hodnocení. Otestujte tento koeficient na 5% hladině významnosti. 4.14 Z údajů o objemu produkce (proměnná Y), o hrubé tvorbě fixního kapitálu (proměnná X1) a o zaměstnanosti (tis. osob, proměnná X2) v jednotlivých odvětvích národního hospodářství Francie, které jsou v tabulce, vypočítejte koeficient vícenásobné korelace. Odvětví iy 1ix 2ix Zemědělství 288443 18781 1055 Potravinářství 393828 13990 551 Energetika 330300 33813 223 Výroba polotovarů 602182 32022 1101 Výroba výrobních zařízení 426720 19520 965 Výroba zařízení pro domácnosti 34008 1258 49 Výroba dopravních prostředků 185887 10462 358 Výroba spotřebních předmětů 427766 16392 1030 Stavebnictví a veřejné práce 436926 19828 1472 ŘEŠENÍ KONTROLNÍHO TESTU 4 4.1 ano 4.2 ne 4.3 ano 4.4 ne 4.5 ano 4.6 míry závislosti 4.7 rostoucí 4.8 [0,1] 4.9 Spearmanův 4.10 vícenásobné korelace 4.11 0,8967yxr   4.12 0,9196yx yxr I  4.13 Spearmanův koeficient pořadové korelace 0,38sr  , 3,44T  , 1,64.K  Je významný. 4.14 1 2 2 0,6069.y x xr   5 METODY PROGNÓZOVÁNÍ TRŽEB - 66 - 5 METODY PROGNÓZOVÁNÍ TRŽEB Analýza časových řad představuje v současnosti velmi důležitou součást ekonometrie, neboť umožňuje popisovat systémy, které mění v čase svůj charakter. Přitom dynamika takovýchto systémů se s rostoucí globalizací společnosti spíše prohlubuje než naopak. Typickou oblastí využití analýzy časových řad je národní hospodářství i mikroekonomická sféra. Jako příklad můžeme uvést měsíční údaje o vývoji cen, které publikuje Český statistický úřad, nebo kurs koruny oficiálně kotovaný na konci každého obchodního dne na devizovém trhu. Časové řady ovšem nevznikají pouze v ekonomické oblasti, ale i jinde. Tak například v demografii se sleduje vývoj porodnosti a úmrtnosti v čase, v meteorologii se sledují maximální a minimální denní teploty, v medicíně se mohou při pravidelných preventivních kontrolách zaznamenávat údaje o naměřeném krevním tlaku pacienta a podobně. Cílem analýzy časových řad je především porozumět mechanismu, který vygeneroval hodnoty dané časové řady, neboť to umožňuje alespoň do jisté míry „ovládat“ fungování systému, o jehož chování vypovídají naměřené hodnoty. Takové poznání umožňuje nasměrovat pro budoucí účely systém vhodným směrem na základě rozumně stanovených vstupních parametrů, které do chování systému zasahují. Umožňuje to ovšem také provádět předpovědi budoucího chování takového systému. Systém, který řadu vytvořil, je popisován matematickým modelem. Je třeba říci, že celá teorie časových řad je mimořádně rozsáhlá. Někteří autoři ji dokonce řadí mezi vůbec nejrozsáhlejší, pokud jde o oblast statistické analýzy dat. My se zaměříme v tomto kurzu na tzv. klasickou analýzu časových řad. Vzpomeneme-li si na obecné vyjádření regresního modelu, šlo o funkční vztah, který se skládal z určité systematické části a z náhodné složky. Zatímco systematická část odrážela systematický vliv nejvýznamnějších faktorů, náhodná složka reprezentovala vliv ostatních, méně důležitých faktorů, jejichž izolovaný vliv nelze dost dobře zachytit. V analýze časových řad existují různé přístupy k budování příslušného modelu, který popisuje mechanismus vzniku dané časové řady. Klasický přístup je zaměřen především na systematickou část modelu časové řady. Klasická analýza vychází z toho, že pomocí určité dekompozice systematické části modelu je možné rozumně zachytit nejdůležitější faktory, jež stojí v pozadí vzniku časové řady. Při této dekompozici se vychází z představy, že takové faktory je snadnější detekovat v případě, kdy je systematická část vhodně rozložena, než když tvoří jeden celek. Jiným důvodem dekompozice modelu je také rozpoznání sezonní složky tak, aby bylo možné původní řadu od této složky očistit. Sezonní očišťování se provádí u časových řad velmi často. V našem případě klasické teorie předpokládáme, že v matematickém modelu popisujícím časovou řadu bude vystupovat v roli vysvětlované proměnné pouze proměnná t, jež vyjadřuje konkrétní časový okamžik. 5.1 ČASOVÁ ŘADA Časová řada (ČŘ) je posloupnost prostorově a věcně srovnatelných číselných údajů uspořádaných v čase od minulosti přes přítomnost do budoucnosti. Zde nás budou zajímat zejména ČŘ ekonomických veličin, speciálně tržeb, neboli tzv. ekonomické časové řady. Rozlišují se okamžikové ČŘ (stavové hodnoty v daných časových okamžicích, např. počet zaměstnanců podniku vždy k 1. dni měsíce) a intervalové ČŘ (hodnoty ukazatele za časové intervaly, např. hodnoty tržeb podniku za jednotlivé měsíce). Ve druhém případě dochází k jisté agregaci hodnot. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 67 V časové řadě se obvykle předpokládá, že:  hlavním faktorem změny je čas (označuje se t),  údaje jsou uvedeny za ekvidistantní, tj. stejně dlouhé časové intervaly. Vývoj časové řady se popisuje matematickým modelem. Hlavním cílem konstrukce takového modelu je jeho využití k predikci budoucího vývoje řady. Prognózování (též predikování, předvídání apod.) tržeb představuje odhad budoucí velikosti tržeb. Rozlišují se přitom bodové a intervalové prognózy. 5.2 DEKOMPOZIČNÍ MODELY ČŘ Předpokládá se, že model časové řady může obsahovat až 4 složky, které vyjadřují různé druhy pohybu analyzovaného ukazatele:  trendovou složku (trend) Tt,  sezónní složku St,  cyklickou složku Ct,  náhodnou složku t . Trendová složka vyjadřuje základní směřování hodnot ČŘ (růst, pokles a jejich eventuální zesílení nebo tlumení). Tato složka vyjadřuje systematický a dlouhodobější vliv faktorů, které působí jedním směrem. Trend může být buďto rostoucí nebo klesající. Nepřevažuje-li ani růst ani pokles, jedná se o časovou řadu bez trendu. Sezónní a cyklická složka, souhrnně nazývané periodická složka, zachycují pravidelné kolísání hodnot ČŘ. Sezonní složka vyjadřuje pravidelné výkyvy hodnot časové řady, k nimž dochází během roku. Tyto výkyvy se každý rok v daném období opakují. Hlavním důvodem těchto výkyvů jsou především přírodní vlivy jako např. střídání ročních období, ale také určité společenské návyky (např. stavební činnost je intenzivnější v létě než v zimě apod.). Důležitým rysem sezonní složky, nebo se také říká sezónnosti, je skutečnost, že časová prodleva mezi výkyvy není delší než jeden rok. Cyklická složka reprezentuje vliv faktorů, které způsobují dlouhodobější výkyvy hodnot řady. Říká se také, že jde o výkyvy kolem trendu, přičemž časová prodleva mezi těmito výkyvy je na rozdíl od sezónnosti delší než jeden rok. Cyklická složka se často velmi obtížně matematicky popisuje, a proto se také v modelu někdy ani neuvažuje. Důvod je ten, že intenzita výkyvů i jejich pravidelnost se často mění, takže cyklickou složku je v prvé řadě obtížné detekovat stejně tak jako její příčiny. Trendová, sezónní a cyklická složka tvoří společně deterministickou složku. Zpravidla se uvažuje, že tyto složky jsou v aditivním vztahu, takže model časové řady potom můžeme zapsat ve tvaru 5-1 , 0, 1, 2,...t t t t tY T S C t       . V tomto případě se hovoří o aditivním modelu časové řady. V ekonomických časových řadách se nejčastěji setkáme se dvěma speciálními případy modelu 5-1: s případem, kdy se v řadě nevyskytuje periodická složka, tj. s případem S Ct t  0 . Je pak 5-2 , 0, 1, 2,...t t tY T t     . 5 METODY PROGNÓZOVÁNÍ TRŽEB - 68 Nebo se z výše uvedených důvodů předpokládá, že 0tC  , a tedy model 5-1 má tvar 5-3 , 0, 1, 2,...t t t ty T S t      . Jde pak o časovou řadu se sezónní složkou. Vedle aditivního modelu 5-1 existuje také multiplikativní model vycházející z předpokladu, že vzájemný vztah jednotlivých složek modelu je dán pronásobením: 5-4 , 0, 1, 2,...t t t t ty T S C t       . Popis a kvantifikace jednotlivých složek modelu časové řady patří k hlavním úkolům analýzy časových řad. Kromě popisu časové řady založeného na dekompozičních modelech existují i jiné možnosti, jak analyzovat proces, který řadu vygeneroval. K těmto jiným přístupům, které zmíníme později, patří tzv. adaptivní přístupy zahrnující techniku klouzavých průměrů a exponenciálního vyrovnávání. Popis modelování, který následuje, je zaměřen zejména na praktickou práci s časovou řadou tak, jak je tomu i u jiných postupů předmětu Statistické metody pro ekonomy. Zájemci o hlubší pozadí analýzy časových řad mohou využít speciální kurzy pro tento účel, např. předmět Analýza časových řad. 5.2.1 TREND Jak již bylo řečeno, jediným faktorem vývoje dynamiky analyzovaného ukazatele je v tuto chvíli čas t. Tato úvaha, která sice často výrazně zjednodušuje skutečnost, umožňuje jednoduše modelovat časovou řadu a oddělit od sebe její jednotlivé složky, z nichž trendová složka představuje nejdůležitější komponentu analyzované časové řady. Předpokládejme, že model můžeme zapsat ve tvaru 5-2. Trend se v tomto modelu popisuje nejčastěji lineární funkcí, polynomem druhého stupně, exponenciální funkcí, modifikovanou exponenciální funkcí nebo logistickou, případně Gompertzovou křivkou. Tyto funkce se liší svou složitostí, což se odráží i ve způsobu odhadu parametrů, které v těchto funkcích vystupují. V případě lineární funkce a polynomu druhého stupně jde o regresní funkce lineární z hlediska parametrů, takže pro odhad neznámých parametrů můžeme v jejich případě aplikovat obyčejnou metodu nejmenších čtverců tak, jak byla popsána v kapitole Regresní analýza. V případě ostatních křivek je situace složitější, protože tyto funkce nejsou lineární z hlediska parametrů, takže pro odhad jejich parametrů se musí postupovat jinak. Lineární trend (případně polynom vyššího stupně) Předpokládáme-li lineární trend, můžeme model 5-2 konkretizovat ve tvaru 5-5 0 1 , 0, 1, 2,...t tY t t        . Odhady parametrů , získáme metodou nejmenších čtverců přesně tak, jak jsme ji popsali v kapitole věnované regresní analýze. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 69 PŘÍKLAD 1 Následující tabulka 21 obsahuje údaje fiktivní časové řady. Tabulka 21: časová řada hodnot yt 14,1 15,3 17,7 18,2 20,5 22,8 23,4 25,5 27,9 28,9 31 33,1 35,2 t 1 2 3 4 5 6 7 8 9 10 11 12 13 Excel: Tuto řadu je možné nechat si zobrazit v programu Excel i spolu s trendem získaným metodou nejmenších čtverců a koeficientem determinace. Výsledek ukazuje obrázek 2. Obrázek 2: původní časová řada a její proložení přímkou K zobrazení pomocí Excelu (týká se verze 2010) byl použit tento postup: vyznačte v Excelu oblast dat proměnné Yt, t = 1, 2, …, n a následně vyberte z horní lišty Excelu Vložit  Graf  XY bodový  Bodový s rovnými spojnicemi. Tím se vykreslí graf vývoje původní řady. Je-li třeba změnit stupnici na vodorovné ose na hodnoty 1,2, …, n, je třeba kliknout na graf pravým tlačítkem počítačové myši, vybrat „Vybrat data“ z nabídky a v dalším dialogovém okně pak upravit osu x. Pokud poklepeme na graf myší znovu, objeví se na horní liště Excelu Nástroje grafu a v ní podnabídka spojnice trendu. V této podnabídce lze vybrat typ Lineární spojnici trendu a v dolní části dialogového okna v rámci Dalších možností spojnice trendu také rovnici přímky a koeficient determinace (hodnota spolehlivosti). Zcela analogicky by se postupovalo v případě volby kvadratického trendu tvaru , případně polynomů vyšších stupňů. y = 1,7495x + 11,877 R² = 0,9954 0 5 10 15 20 25 30 35 40 0 5 10 15 Řady1 Lineární (Řady1) 5 METODY PROGNÓZOVÁNÍ TRŽEB - 70 Logistický trend Logistická křivka se vzhledem ke svému tvaru řadí mezi takzvané S-křivky. Tento typ křivek se často používá zejména v situacích, kdy je modelován určitý obchodní cyklus. Obchodní cykly mají své fáze včetně určité fáze nasycení, které logistická křivka vhodně vystihuje, neboť má vodorovnou asymptotu. Například u výrobku nově zaváděného na trh lze očekávat, že nějakou dobu potrvá, než jej zaregistruje větší počet zákazníků a než si jej odzkouší. V ranné fázi prodejů výrobku je tak možné předpokládat pouze pozvolna rostoucí objemy odbytu. Za nějaký čas, pokud se nový produkt ujme, jeho odbyt ovšem pravděpodobně poroste výrazněji s tím, jak bude větší množství zákazníků přecházet od starších verzí produktu k jeho nové verzi. Ve fázi nejsilnějšího růstu bude produkt na trhu dominovat, stane se jakousi módní záležitostí. V určité fázi životního cyklu výrobku jej ale obvykle následují konkurenční produkty a časem i výrobky s lepšími vlastnostmi. Růst odbytu výrobku tak začne slábnout. Tento vývoj lze právě vhodně popisovat logistickou křivkou (obrázek 3). Obrázek 3: S-tvar logistického trendu Logistický trend je vyjádřený vztahem: 1 0 1 , 0, 0, t = 1,2,... 1 t t T          . Tvar S-křivky nabývá logistický trend pro , . Parametry trendu lze odhadnout např. metodou vybraných bodů: Nechť je délka časové řady , kde je liché číslo, a vyberme chronologicky první, prostřední ( -té) a poslední pozorování řady. Potom pro odhady parametrů beta platí 5-6 √ ( ⁄ ) V případě sudého počtu dat T bychom museli vybrat jiné hodnoty řady, např. první , -tou a -tou hodnotu tak, aby platilo - - , a následně užít vzorce 5-6. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 71 PŘÍKLAD 2 Hodnoty časové řady z tabulky 22 vyrovnejme logistickým trendem za použití metody vybraných bodů. Tabulka 22: hodnoty časové řady k vyrovnání logistickým trendem t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 yt 0,4 0,6 0,6 0,7 0,7 0,8 0,9 0,9 1 1,1 1,2 1,2 1,8 1,4 1,6 1,7 t 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 yt 2,3 2,5 2,2 2,6 2,3 2,6 2,7 2,8 3,2 3 3,1 3,1 3,3 3,4 3,6 Metoda vybraných bodů dává následující výsledek √ √ ( ⁄ ) Máme tedy model ̂ Další tabulka 23 obsahuje teoretické hodnoty vypočtené s použitím výše uvedeného modelu. Řada teoretických hodnot je spolu s hodnotami původní časové řady, tj. empirickými hodnotami, zanesena do obrázku 4, který umožňuje vizuální porovnání průběhu řady a jejího modelu. Tabulka 23: empirické a teoretické hodnoty časové řady t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 yt 0,4 0,6 0,6 0,7 0,7 0,8 0,9 0,9 1 1,1 1,2 1,2 1,8 1,4 1,56 1,73 ̂ 0,4 0,4 0,5 0,5 0,6 0,7 0,7 0,8 0,9 1 1,1 1,3 1,4 1,5 1,64 1,79 t 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 yt 2,3 2,5 2,2 2,6 2,3 2,6 2,7 2,8 3,2 3 3,1 3,1 3,3 3,44 3,56 ̂ 1,9 2,1 2,2 2,4 2,5 2,7 2,8 2,9 3 3,2 3,3 3,4 3,5 3,54 3,62 5 METODY PROGNÓZOVÁNÍ TRŽEB - 72 Obrázek 4: původní řada a její logistický model Existují samozřejmě další možnosti volby trendu (např. trend exponenciální, modifikovaný exponenciální, Gompertzova křivka apod.). Zainteresovaného čtenáře, jak jsme již zmínili na začátku kapitoly, odkazujeme na speciální kurs věnovaný časovým řadám. Poznamenejme, že výběr mezi mezi trendem lineárním, kvadratickým či logistickým lze provést např. na základě diferencí hodnot časové řady různého řádu: , , a to takto: Tabulka 24: výběr trendu Kritérium Trend ∆1 yt ≈ konstanta Lineární ∆1 yt ≈ lineární, ∆2 yt ≈ konstanta Kvadratický yt - yt-1 ≈ Gaussova křivka Logistický 5.2.2 SEZÓNNÍ SLOŽKA – PŘÍPAD KONSTANTNÍ SEZÓNNOSTI Vlivy sezónních faktorů můžeme popisovat nejen pomocí vhodně zvolených klouzavých průměrů (viz dále), ale také matematickými křivkami s použitím regresní analýzy. Princip tohoto přístupu spočívá v tom, že se regresní funkce, ve které již vystupuje trendová složka, rozšíří o sezónní složku s neznámými parametry. Regresí se pak odhaduje vícero neznámých parametrů takového modelu. Sezónnost je v modelu vyjadřována pomocnými proměnnými , i = 2, 3, ..., s, kde s je počet sezón v roce. Každá proměnná nabývá pouze hodnot 0 nebo 1 podle toho, jestli zrovna jde o i – tou sezónu (hodnota 1) či nikoli (hodnota 0). Počet pomocných proměnných je o jedničku menší, než kolik je sezón v roce. Pokud bychom totiž vyjádřili těmito proměnnými všechny sezóny, vznikla by v případě lineární regrese perfektní multikolinearita, která by neumožňovala odhadnout parametry modelu. Vliv jedné sezóny je z tohoto důvodu zahrnován do absolutního členu modelu. Rozšířený regresní model můžeme vzhledem k výše uvedenému formulovat ve tvaru V případě polynomického trendu dostáváme konkrétně model Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 73 v němž absolutní člen obsahuje vliv jedné sezóny. U této reprezentace sezónnosti se dále předpokládá, že součet sezónních vlivů v rámci jednoho roku je roven nule, tj. že se vlivy v úhrnu vyruší. Zdůrazněme ještě, že model, ze kterého nyní vycházíme, předpokládá nezávislost sezónních výkyvů na úrovni trendové složky a aditivní dekompozici regresního vztahu. Pokud by závislost mezi sezónnou a trendem existovala, může být vhodnější pracovat s tzv. proporcionální sezónností. Ukažme si nyní, jak se s modelem pracuje. PŘÍKLAD 3 Níže uvedená tabulka 25 obsahuje hodnoty časové řady zachycené ve čtyřech po sobě jdoucích letech. Jde o čtvrtletní data a vzhledem k jejich průběhu (viz obrázek 5) předpokládáme přítomnost sezónních faktorů v každém čtvrtletí. Dále předpokládáme, že trendovou složku je možno popsat lineárním trendem. Volíme tedy model . Tabulka 25: hodnoty čtyřleté časové řady Sezóna(i) Sz(1) Sz(2) Sz(3) Sz(4) Sz(1) Sz(2) Sz(3) Sz(4) t 1 2 3 4 5 6 7 8 yt 1,74 -0,3 2,27 -2,7 1,19 -1 1,51 -2,8 Sezóna(i) Sz(1) Sz(2) Sz(3) Sz(4) Sz(1) Sz(2) Sz(3) Sz(4) t 9 10 11 12 13 14 15 16 yt 1,46 -0,2 2,35 -3 1,39 -1,3 1,7 -2,5 Obrázek 5: průběh hodnot časové řady z tabulky 25 Odhadněme nyní neznámé koeficienty modelu metodou nejmenších čtverců (viz kapitola věnovaná regresní analýze). Dostáváme výsledek , - , - , , - . Můžeme tedy psát ̂ Tím ovšem výpočet ještě nekončí. Je třeba si uvědomit, že jednak hodnota 1,605 obsahuje vliv sezónního faktoru působícího v prvních čtvrtletích a jeho úroveň bychom rádi znali, jednak je zde také skutečnost, že odhady ještě nereprezentují úroveň sezónního vlivu v i- 5 METODY PROGNÓZOVÁNÍ TRŽEB - 74 tém čtvrtletí! Například hodnota 0,56 totiž vyjadřuje přírůstek ve třetím kvartále, ale při současném započtení sezónního vlivu v prvním čtvrtletí, který je automaticky obsažen v hodnotě 1,605. Sezónní vlivy v jednotlivých čtvrtletích, které označíme , izolujeme následovně V našem případě dostáváme , takže pro další sezónní vlivy platí , , . Přidáme-li ještě pomocnou proměnnou pro první sezónu, můžeme výsledný model přepsat do tvaru Vypočítejme s použitím nalezeného modelu teoretické hodnoty (tabulka 26) a porovnejme je vizuálně s hodnotami původní časové řady (obrázek 6). Obrázek 6 ukazuje, že model je v tomto případě poměrně zdařilý. Tabulka 26: teoretické hodnoty nalezeného modelu t 1 2 3 4 5 6 7 8 y-teoretické 1,582 -0,5 2,096 -2,617 1,49 -0,6 2,004 -2,709 t 9 10 11 12 13 14 15 16 y-teoretické 1,398 -0,7 1,912 -2,801 1,306 -0,8 1,82 -2,893 Obrázek 6: srovnání empirických hodnot časové řady a modelu 5.2.3 VLASTNOSTI NÁHODNÉ SLOŽKY MODELU A JEJICH OVĚŘENÍ V našich modelech založených na dekompozici řady na jednotlivé složky jsme uvažovali kromě trendu a sezónního vlivu také náhodnou složku, která dokresluje chování časové řady. Pro odhad jednotlivých složek modelu jsme přitom využili regresní analýzy. Aby odhady parametrů takového modelu měly dobré statistické vlastnosti, je potřeba, aby náhodná složka modelu splňovala podmínky tzv. klasické regrese. Jde o podmínky uvedené v kapitole Regresní analýza. Zopakujme je: 1. Střední hodnota i je nula, tj. E(i) = 0 pro každé t. 2. Rozptyl i je konstantní, nezávislý na t, tj. Var(i) = 2 pro každé t. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 75 - 3. Veličiny i, j jsou nezkorelované, tj. Cov(i, j) = 0 pro i ≠ j. 4. Veličiny i mají normální rozdělení, tj. i  N(0, 2 ) pro každé t. Platí-li bod 2, hovoříme o homoskedasticitě (v opačném případě o heteroskedasticitě). Platí-li bod 3, mluvíme o nezkorelovanosti náhodných složek modelu. Uvedené podmínky by měly být ověřeny vhodnou statistickou metodou. My se zaměříme na podmínku třetí a to z následujících důvodů: Podmínka 1 se neověřuje a je brána za danou. Jeli splněna podmínka 4 spolu se všemi ostatními podmínkami, potom odhady získané metodou nejmenších čtverců budou v jistém slova smyslu nejlepší v rámci všech tzv. nestranných odhadů. Jsou-li splněny „pouze“ podmínky 1-3, což ovšem není žádná samozřejmost, budou odhady parametrů získané metodou nejmenších čtverců nejlepší „pouze“ v rámci tzv. lineárních nestranných odhadů. Užili jsme zde několik termínů, které by potřebovaly dovysvětlení, ale neučiníme tak. Cílem této poznámky je zejména poukázat na to, že i když podmínka 4 splněna není, pořád nám popsané postupy poskytují odhady parametrů, které jsou v jistém slova smyslu rozumně kvalitní. Pokud jde konečně o podmínku 2, existuje např. statistický test Goldfeld-Quandtův, který je konkrétnější, pokud jde o formulaci podoby případné testované heteroskedasticity, a také existují testy obecnější, pokud jde o tuto formulaci. Mezi obecnější testy patří např. Whiteův test. Problém heteroskedasticity je ale typický pro průřezovaná data, nikoliv pro modely časových řad, pro které je typické nedodržení podmínky 3. To jsou důvody, kvůli kterým nyní v konkrétnější podobě popíšeme ověřování podmínky 3. Podrobnější výklad ostatních problémů v regresních modelech je obsažen ve speciálních kurzech (např. v kurzu Ekonometrické metody). Než přistoupíme k popisu ověřování autokorelace, podotkněme, že ověřování podmínek v regresi je založeno na analýze reziduí, tj. na hodnotách ˆˆ , 0, 1, 2,...,t t t te Y T S t      má-li výchozí model tvar , 0, 1, 2,...t t t tY T S t      . Ve výrazu ˆˆ t t t te Y T S   představuje tY konkrétní hodnotu časové řady v čase t, ˆ tT je odhad trendové složky modelu a ˆ tS je odhad sezónní složky modelu. K ověřování autokorelace se využívá zejména Durbinův-Watsonův test. 5.2.4 DURBINŮV-WATSONŮV TEST Pro ověření, zda můžeme předpokládat vztah mezi náhodnými složkami v podobě autoregresního modelu 1.řádu AR(1), tj. vztah , kde splňuje podmínky formulované pro náhodnou složku v regresním modelu, slouží Durbinův – Watsonův test. V uvedeném modelu je neznámý parametr – korelační koeficient. Test zkoumá platnost nulové hypotézy, že model není zatížen autokorelací, proti alternativní hypotéze, že v modelu je autokorelace ve tvaru AR(1). Test se provádí v několika krocích. Nejprve se najdou odhady parametrů původního regresního modelu časové řady metodou nejmenších čtverců a ze získaných vyrovnaných hodnot se vypočtou reziduální odchylky . Na základě těchto reziduí se pak počítá testové kritérium 5-7 ∑ ∑ 5 METODY PROGNÓZOVÁNÍ TRŽEB - 76 kde T udává délku časové řady hodnot, které jsou k dispozici. Pro toto kritérium jsou určeny speciální statistické tabulky uvedené na konci tohoto učebního textu. V těchto tabulkách se pro daný počet pozorování , hladinu významnosti a počet parametrů modelu bez absolutního členu najde dolní hodnota a horní hodnota . Dále je třeba vypočítat odhad párové korelace mezi reziduí regresního modelu. Tento odhad r má tvar 5-8 ∑ ∑ V případě, že výběrový korelační koeficient je kladný, vyhodnocuje se statistický test tak, že je-li testové kritérium 5-7 větší než , nulová hypotéza o absenci autokorelace se přijímá, zatímco je-li kritérium menší než , hypotéza se zamítá. Pokud je záporný, vypočte se náhradní statistika a výše uvedené vyhodnocení se provádí stejně s tím rozdílem, že se aplikuje na testové kritérium . Pokud se kterékoliv z testovacích kritérií dostane mezi hodnoty , nelze na základě testu rozhodnout o platnosti či neplatnosti nulové hypotézy. Většinou se ale v takovém případě doporučuje vycházet pro opatrnost z toho, že v modelu autokorelace je, protože v případě modelu časové řady je to dosti pravděpodobné. PŘÍKLAD 4 Tabulka 27 obsahuje fiktivní údaje o vývoji měsíčních výdajů domácností na potraviny v Moravskoslezském kraji (v milionech Kč). Data byla získána v období leden 2000 (t = 1) až březen 2001 (t = 15). Tabulka 27: měsíční výdaje domácností Yt Yt 141 145 142 147 146 154 150 158 157 165 164 170 167 174 175 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Vzhledem k charakteru vývoje časové řady (obrázek 7) vyjdeme při modelování těchto výdajů z lineárního trendu , ve které bude vystupovat jediná vysvětlující proměnná . Sezónnost nyní nepředpokládáme. Parametry modelu nejprve odhadneme obyčejnou metodou nejmenších čtverců a výsledek otestujeme na přítomnost autokorelace pomocí Durbinova – Watsonova testu. Obrázek 7: vývoj ukazatele Yt Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 77 Obyčejná metoda nejmenších čtverců dává v prvním kroku vektor odhadů ( ) ( ) ( ) ( ) Dosadíme-li tyto odhady do našeho modelu, obdržíme spolu s postupným dosazováním jednotlivých hodnot teoretické výdaje ̂ a dále rezidua ̂ ̂ . Všechny tyto údaje jsou uvedeny v tabulce 28 spolu s ostatními hodnotami, které využijeme při testu autokorelace. Tabulka 28: dílčí výpočty s reziduií et et-1 (et - et-1) 2 et 2 et . et-1 1,8 3,24 3,25 1,8 2,1025 10,5625 5,85 -2,28 3,25 30,5809 5,1984 -7,41 0,17 -2,28 6,0025 0,0289 -0,3876 -3,37 0,17 12,5316 11,3569 -0,5729 2,08 -3,37 29,7025 4,3264 -7,0096 -4 2,08 42,6409 19,8025 -9,256 1 -4 29,7025 1 -4,45 -2,54 1 12,5316 6,4516 -2,54 2,91 -2,54 29,7025 8,4681 -7,3914 -0,62 2,91 12,4609 0,3844 -1,8042 2,82 -0,62 11,8336 7,9524 -1,7484 -2,71 2,82 30,5809 7,3441 -7,6422 1,74 -2,71 19,8025 3,0276 -4,7154 0,2 1,74 2,3716 0,04 0,348 Suma 272,547 85,9438 -48,7297 Pro Durbinovu – Watsonovu charakteristiku tedy máme . Odhad korelace mezi náhodnými složkami vychází podle 5-8 . V příslušných statistických tabulkách lze najít pro , počet regresorů bez absolutního členu = jeden a hladinu významnosti dolní hodnotu a horní hodnotu Protože korelace je záporná, porovnáme s těmito hodnotami statistiku T* = , která vychází velmi nízko, takže na pětiprocentní hladině významnosti můžeme usuzovat na to, že v modelu je významná autokorelace typu AR(1). 5.3 KLOUZAVÉ PRŮMĚRY Dosavadní výklad věnovaný různým typům trendů předpokládal, že snahou je nalézt jednu matematickou křivkou, kterou bychom mohli proložit všechny hodnoty časové řady. Taková situace má jistě často své opodstatnění. Nejjednodušším příkladem je situace, kdy 5 METODY PROGNÓZOVÁNÍ TRŽEB - 78 časová řada není příliš dlouhá, takže můžeme s celkem rozumnou přesností popsat mechanismus jejího vzniku jednou funkcí. Jiným příkladem je situace, kdy uživatele výsledného modelu zajímá spíše dlouhodobý trend než krátkodobé změny, tedy v tomto případě jde vlastně o vnímání vývoje především ze strategického hlediska. Mnohdy jsou ale okolnosti takové, že prokládat všechny hodnoty jednou jedinou funkcí může být poněkud příliš ambiciózní cíl. Jako příklad uveďme společnost, kterou zajímá vývoj zkoumaného ukazatele v bezprostředně následujícím období, přičemž toto budoucí období je dosti krátké. V takovém případě bude onu firmu zajímat asi především vývoj daného ukazatele v bezprostředně předcházejícím období, protože lze očekávat, že charakter vývoje v nedávné minulosti bude určovat mechanismus budoucího vývoje časové řady spíše než zákonitosti ze staršího období. Potom by ovšem bylo na místě pracovat s modely, které zohledňují změny v čase. Přístupy, které tento princip umožňují realizovat, existují a říká se jim adaptivní přístupy. Jedním z těchto přístupu – dalo by se říci základním – jsou takzvané klouzavé průměry. Princip klouzavých průměrů spočívá obecně v tom, že vybranou funkcí prokládáme vždy jen určitou část (tzv. klouzavou část) uvažované časové řady, přičemž pro další analýzy pracujeme následně vždy jen s jedním reprezentantem takto vyrovnané části. Tímto reprezentantem je střed vyrovnané části. Funkce, kterou prokládáme daný úsek má přitom opět nějaké neznámé parametry, které můžeme odhadnout obyčejnou metodou nejmenších čtverců. I v této kapitole budeme předpokládat, že každou část řady lze popsat vždy aditivním modelem , kde splňuje požadované podmínky, a že analytický tvar trendu se v čase nemění. V závislosti na tom, jakou část časové řady budeme funkcí prokládat, se budou obecně měnit odhadnuté parametry modelu. Proto se v této souvislosti také hovoří o modelech s proměnlivými parametry. Existují různé typy klouzavých průměrů. Pokud se jednotlivé úseky řady prokládají lineární funkcí, hovoří se o prostých klouzavých průměrech, pokud je zvolenou funkcí polynom druhého stupně, mluví se o vážených klouzavých průměrech. Ukažme teoreticky a prakticky princip prvního přístupu. 5.3.1 PROSTÉ KLOUZAVÉ PRŮMĚRY Mějme časovou řadu . Pokud chceme použít klouzavé průměry, musíme především zvolit tzv. délku klouzavé části a dále tzv. řád klouzavého průměru. Řád je dán stupněm polynomu, kterým se části řady vyrovnávají. V případě prostého klouzavého průměru používáme k vyrovnávání lineární funkci, takže pracujeme s řádem jedna. Délka klouzavého průměru se obvykle volí jako liché číslo obecně zapsané ve tvaru , kde je celé kladné číslo. Každá část řady, která je vyrovnávána, má svůj střed. Tyto středy jsou určovány hodnotami , kde . To znamená, že následující klouzavá část vzniká vždy tak, že se předchozí část řady posune o jedno období dopředu. Tímto způsobem „kloužeme“ přes hodnoty časové řady. Střed první klouzavé části je dán hodnotou , střed druhé části hodnotou , atd. až střed poslední části je určen hodnotou . K-tá klouzavá část zahrnuje hodnoty , což lze také zapsat jako posloupnost hodnot { } , respektive { } , kde . Proložit část řady s obecným středem v časovém bodě metodou nejmenších čtverců pak znamená minimalizovat kritérium 5-9 ∑ [ ] Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 79 Vypočteme –li tedy parciální derivace tohoto výrazu podle jednotlivých parametrů a položíme je rovno nule, dostáváme 5-10 ∑ [ ] ∑ [ ] Řekli jsme, že princip klouzavých průměrů spočívá v tom, že se pracuje jen s jedním zástupcem vyrovnaného úseku řady a tím je střed příslušné klouzavé části. V tomto středu je ovšem a pro vyrovnanou hodnotu tedy musí v tomto bodě platit ̂ . Stačí nám tedy vypočítat ze soustavy 5-10 pouze absolutní člen použité lineární funkce a tím je, jak přímo vyplývá z první rovnice soustavy, hodnota 5-11 ∑ Jak se tedy ukazuje, zástupcem vyrovnané klouzavé části je prostý aritmetický průměr hodnot časové řady, které do této části spadají. Odtud také vznikl název prostých klouzavých průměrů. Ukažme princip metody na konkrétním příkladě. PŘÍKLAD 5 Časovou řadu uvedenou v tabulce 29 proložme prostými klouzavými průměry délky pět. Tabulka 29: časová řada pro výpočet klouzavých průměrů t 1 2 3 4 5 6 7 8 9 10 Yt 34 40 37 42 45 47 44 51 52 58 t 11 12 13 14 15 16 17 18 19 20 Yt 55 64 59 66 68 62 72 75 72 77 Je , takže . První vyrovnanou hodnotou je tedy ∑ , druhou vyrovnanou hodnotou je ∑ , atd…až poslední vyrovnanou hodnotou je číslo ∑ . Rozšiřme původní tabulku 29 o vyrovnané hodnoty. Dostáváme tak tabulku 30. Tabulka 30: původní časová řada a klouzavé průměry délky pět t 1 2 3 4 5 6 7 8 9 10 Yt 34 40 37 42 45 47 44 51 52 58 průměry 40 42 43 46 48 50 52 56 t 11 12 13 14 15 16 17 18 19 20 Yt 55 64 59 66 68 62 72 75 72 77 průměry 58 60 62 64 65 69 70 72 5 METODY PROGNÓZOVÁNÍ TRŽEB - 80 Výsledné teoretické hodnoty můžeme zobrazit graficky (obrázek 8). Řada původních (empirických) hodnot je v grafu zkrácena o první dvě a poslední dvě pozorování. Obrázek 8: časová řada a její proložení klouzavými průměry 5.4 PROGNÓZOVÁNÍ POMOCÍ MODELU ČŘ Prognózování v ČŘ se někdy nazývá predikování, předpovídání, předvídání, extrapolace, apod. Mezi prognostickými metodami hrají významnou roli statistické prognostické metody. Do této skupiny patří také metody používající při konstrukci prognóz extrapolaci časových řad využívající regresní analýzy. Podstata extrapolačních metod spočívá ve studiu minulosti prognózovaného jevu a v přenosu zákonitostí vývoje z minulosti a přítomnosti do budoucnosti. Tyto metody jsou konstruovány na základě předpokladu relativní stability již existujících tendencí vývoje zkoumaného jevu. Latinsky se tento předpoklad nazývá ceteris paribus, což znamená za jinak stejných okolností shodně s vývojem minulým. U procesů, které jsou v čase stabilní, lze tento princip s úspěchem použít. Naopak v případě, kdy během prognózovaného období probíhají podstatné kvalitativní změny, je použití extrapolačních modelů problematické. Uvažujme model časové řady t t tY T   , t = 1, 2,…, n, kde tT odráží lineární nebo kvadratický trend a n je časový okamžik přítomnosti. Bodový odhad n hY  neznámé veličiny t hY  časové řady v čase n + h, kde h je zadaný horizont bodové prognózy, lze stanovit takto: 5-12 n h n hY T  . Zde hnT  je trendová funkce vyčíslená v čase n + h. Tato hodnota sice známá není, ale je znám její odhad získaný regresí. Tento odhad se při této predikci v praxi nakonec využije. Bodová předpověď umožňuje pomocí jednoho čísla odhadnout hodnotu předvídané veličiny. Spočívá jednoduše v tom, že do odhadnuté regresní funkce/do odhadnutého trendu dosadím budoucí časový okamžik, který mne zajímá. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 81 Kromě bodové predikce konstruujeme také intervaly spolehlivosti pro t hY  . Intervalová prognóza vytvořená v čase n na období posunuté o i časových jednotek dopředu je definována jako oboustranný interval spolehlivosti takto: - V případě lineárního trendu má 95% interval spolehlivosti tvar 5-13 [ n iY  – tn-2(0,05) ( )ns Q i , n iY  + tn-2(0,05) ( )ns Q i ], kde 5-14 2 1 1 ˆ 2 n n t t t t Y T s n        a 5-15 2 2 2 1 1 ( ) ( ) 1n n t n i t Q i n t nt        , ( 1) / 2t n  . - V případě kvadratického trendu má 95% interval spolehlivosti tvar 5-16 [ n iY  – tn-3(0,05) ( )ns Q i , n iY  + tn-3(0,05) ( )ns Q i ], kde 5-17 2 1 1 ˆ 3 n n t t t t Y T s n        a 5-18 2 1 2 2 1 1 1 1 2 4 ( ) 1 1, ,( ) ( ) 1, ,( ) , . . . 1 TT nQ i n i n i X X n i n i X n n                             . SHRNUTÍ V této kapitole jsme studovali problematiku časových řad a možnosti jejich prognózování. Nejprve jsme vyšetřovali trendovou složku ČŘ, kterou jsme popsali polynomem nebo S-křivkou. Ve druhém případě jsme si ukázali způsob odhadu parametrů Skřivky pomocí metody vybraných bodů. Dále jsme analyzovali sezónní složku konstantního charakteru, a to opět pomocí regresního přístupu. V další části jsme si objasnili význam náhodné složky v časové řadě a předpoklady, kterým by tato složka měla vyhovovat, aby byl 5 METODY PROGNÓZOVÁNÍ TRŽEB - 82 model validní pro prognózování. K tomuto účelu byl použit Durbinův-Watsonův test. Na závěr jsme uvedli způsob prognozóvání budoucího vývoje časové řady, v níž je trend popsán lineární nebo kvadratickou funkcí. Šlo o prognózu bodovou a intervalovou. KONTROLNÍ TEST 5 5.1 Deterministická složka časové řady je dána (označte správnou odpověď, může jich být i více): a. trendovou složku b. trendovou a sezónní složku c. trendovou, sezónní a cyklickou složku d. sezónní a cyklickou složku 5.2 Periodická složka ČŘ je složena ze: a. sezónní složky b. trendové a sezónní složky c. trendové, sezónní a cyklické složky d. sezónní a cyklické složky 5.3 Ke každému pojmu z levého sloupce přiřaďte správné charakteristiky z pravého sloupce: (1) Aditivní model ČŘ (A) Jednotlivé složky modelu se mezi sebou sčítají (2) Multiplikativní model ČŘ (B) Trend tvoří lineární funkce (3) Lineární model trendu ČŘ (C) Jednotlivé složky modelu se mezi sebou násobí 5.4 Doplňte správný výraz: a. Konstantnost rozptylu v modelu ČŘ nazýváme __________. b. Náhodné složky t v modelu ČŘ jsou __________. 5.5. Časovou řadu uvedenou v tabulce proložte kvadratickým trendem. Použijte k tomu metodu nejmenších čtverců. t 1 2 3 4 5 6 7 8 9 10 Yt 1,2 6,3 14,3 37,1 76,5 125 274 349 499 578 t 11 12 13 14 15 16 17 18 19 20 Yt 711 859 987 1114 1135 1349 1506 1680 1721 1890 Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 83 - 5.6. Časovou řadu uvedenou v následují tabulce vyrovnejte prostými klouzavými průměry délky pět. t 1 2 3 4 5 6 7 Yt 18,683 15,236 20,552 20,988 30,598 23,22 38,375 T 8 9 10 11 12 13 14 15 Yt 43,698 47,813 61,403 62,002 68,386 63,904 68,247 67,818 5.7 K dispozici jsou data ve dvou tabulkách. Najděte parametry modelu a ověřte na pětiprocentní hladině významnosti splnění podmínky nezkorelovanosti náhodných složek Durbinovým-Watsonovým testem. t 1 2 3 4 5 6 7 8 xt1 3,3 3,4 3,5 3,5 3,4 3,3 3,4 3,2 xt2 5,9 6 6,2 6,3 6,3 5,9 5,9 5,8 Yt 25,3 23,02 19,9 20,95 18,59 16,15 15,22 17,26 t 9 10 11 12 13 14 15 16 17 xt1 3,2 3,1 3,1 3,1 3,2 3,1 3,1 3 3 xt2 5,5 5,4 5,2 4,8 4,8 4,7 4,6 4,5 4,5 Yt 18,98 20,09 18,65 17,79 20,84 16,69 18,33 16,79 16,48 ŘEŠENÍ KONTROLNÍHO TESTU 5 5.1 c. 5.2 d. 5.3 (1) – (A), (2) – (C), (3) – (B) 5.4 a. homoskedasticita, b. nezkorelované. 5.5 metoda nejmenších čtverců aplikovaná na kvadratický model 2 0 1 2Y t t       dává odhady 0 ˆ 127,   1 ˆ 38,34,  2 ˆ 3,27.  5.6 Prosté klouzavé průměry jsou následující t 3 4 5 6 7 8 9 10 11 12 13 průměry 21,2 22,1 26,7 31,4 36,7 42,9 50,7 56,7 60,7 64,8 66,1 5 METODY PROGNÓZOVÁNÍ TRŽEB - 84 - 5.7 Metoda nejmenších čtverců dává odhady 0 3,5b  , 1 3,88b  , 2 0,52b  . Rezidua mají hodnotu t 1 2 3 4 5 6 7 8 9 e(t) 5,898 3,173 -0,439 0,566 -1,407 -3,256 -4,568 -1,703 0,17 t 10 11 12 13 14 15 16 17 e(t) 1,727 0,389 -0,266 2,401 -1,313 0,379 -0,719 -1,03 Výběrový korelační koeficient je kladný, neboť 17 1 2 17 2 1 40,3 0,67. 59,37 t t t t t e e r e         Dále pro Durbin-Watsonovu statistiku platí 17 2 1 2 17 2 1 ( ) 71,84 1,21. 59,37 t t t t t e e DW e          Protože model obsahuje dva parametry (při nezahrnutí absolutního členu), je k = 2. Počet hodnot je n = 17. Pro tyto dvě hodnotu najdeme v tabulce pro Durbinův-Watsonův test (na konci učebnice) dolní mez dL = 1,015 a horní mez dH = 1,536. Statistika leží mezi dolní a horní mezí, takže na základě tohoto testu nelze rozhodnout, zda je či není přítomna autokorelace. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 85 - 6 ANALÝZA ROZPTYLU V kapitole 2 jsme se mimo jiné věnovali dvouvýběrovým t-testům. Rozšíření těchto testů je obsahem této kapitoly, která se zabývá tzv. analýzou rozptylu – ANOVA. Ta patří k nejčastěji používaným metodám v marketingovém výzkumu i jiných oblastech datové analýzy. Metoda umožňuje posoudit vliv různých úrovní/kategorií nějakého kvalitativního nebo kvantitativního znaku na kvantitativní veličinu. Například dovoluje hodnotit účinky různých reklamních kampaní na velikost tržeb z prodeje konkrétního produktu. Různé reklamní kampaně v tomto případě reprezentují různé kategorie sledovaného kvalitativního znaku (znak = reklamní kampaň). Velikost tržeb je pak zmíněný kvantitativní znak. Tento vliv lze matematicky vyjádřit tak, že se zjišťuje, zda změna úrovně daného faktoru mění populační průměr sledovaného kvantitativního znaku. V tomto smyslu ANOVA testuje, zda existují rozdíly v populačních průměrech kvantitativního znaku, které náleží různým úrovním znaku kvalitativního. Matematicky spočívá základní myšlenka analýzy rozptylu v rozkladu celkového rozptylu kvantitativního znaku na dílčí rozptyly příslušející jednotlivým vlivům, které tuto variabilitu způsobují. Kromě dílčích rozptylů je složkou celkového rozptylu také reziduální rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Hovoříme také o jednoduchém a dvojném třídění, případně o tříděních vyšší úrovně (trojném, čtverném a podobně). Bystrého čtenáře může v této souvislosti napadnout, proč neřešit problém porovnávání vícero populačních průměrů opakovaným užitím dvouvýběrového t-testu. Mohli bychom přece tento test použít vždy na vybranou dvojici náhodných výběrů z celkového počtu k náhodných výběrů, které jsou k dispozici v dané situaci, a pokud bychom nezamítli nulovou hypotézu o rovnosti populačních průměrů při žádném z těchto dvouvýběrových t-testů, mohli bychom formulovat závěr, že všechny populační průměry jsou stejné, a faktor tedy nemá žádý vliv na sledovaný kvantitativní znak. Z čistě teoretického hlediska lze takto postupovat, avšak za cenu malé věrohodnosti závěru o rovnosti populačních průměrů. Vzpomeňme, že každý statistický test je zatížen jistými chybami a pokud provádíme celou sadu testů, pak se tyto chyby v jistém slova smyslu kumulují. Právě z tohoto důvodu byla navržena metoda ANOVA tak, aby se pravděpodobnost výskytu takových chyb pohybovala na přijatelné úrovni. V této kapitole se seznámíme především s jednofaktorovou a dvoufaktorovou verzí ANOVA.Všeobecně používané označení ANOVA je zkratkou anglických slov „ANalysis Of VAriance“ (doslovný překlad: analýza rozptylu). V rámci výkladu látky si projděte podrobně řešené příklady v textu a potom zkuste samostatně vyřešit neřešené příklady a dosažené výsledky si zkontrolujte s výsledky ze závěru kapitoly. Pokud vás výsledek neuspokojí, vraťte se zpět k řešeným příkladům a postup opakujte. 6.1 JEDNOFAKTOROVÁ ANOVA Často se vyskytuje situace, kdy máme k nezávislých náhodných výběrů, které obecně nepocházejí z jednoho základního souboru. Tyto výběry jsou rozsahu 1 2, ,..., kn n n , což jsou obecně různá přirozená čísla. Číslo k může být 2, 3,...V každém z těchto náhodných výběrů je znám výběrový průměr ix , a také výběrový rozptyl 2 is . Index i = 1,2,..., k vyjadřuje, o který 6 ANALÝZA ROZPTYLU - 86 výběr jde. V praktických situacích obvykle tyto výběry vzniknou tak, že základní soubor rozdělíme podle určitého třídícího statistického znaku X do k skupin a z každé z těchto k populací vybíráme samostatně in prvků. Znak X se pak označuje jako faktor, jehož úrovně, respektive kategorie jsou předem stanoveny a hovoří se proto často o faktoru kontrolovaném, nebo faktoru pozorovaném, např. věková skupina, druh výrobku, typ reklamy, typ služby apod. Kategorie faktoru X se označují 1 2, ,..., kx x x Faktor X má k úrovní (kategorií) a potenciálně ovlivňuje statistický znak Y, jenž má kvantitativní, tedy číselnou povahu. Hodnoty znaku Y příslušné i-té kategorii ix faktoru X označujeme 1 2, ,..., ii i iny y y Pro analýzu rozptylu je výhodné uspořádat výchozí údaje do přehledné tabulky 31 Tabulka 31: organizace tabulky pro analýzu rozptylu Úroveň faktoru Zjištěné hodnoty sledovaného znaku Rozsah výběru Průměr Rozptyl 1 1111211 nj y,...,y,...,y,y 1n 1y 2 1s 2 2222221 nj y,...,y,...,y,y 2n 2y 2 2s      i iinijii y,...,y,...,y,y 21 in iy 2 is      k kknkjkk y,...,y,...,y,y 21 kn ky 2 ks Celkem N y 2 s Metoda analýzy rozptylu ANOVA spočívá v tom, že se celková variabilita měřená součtem čtverců odchylek zjištěných hodnot od celkového průměru rozdělí na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Celková variabilita znaku se měří obvykle výběrovým rozptylem:   2 2 1 ij i j y y s N     . V souvislosti s analýzou rozptylu nás bude zajímat ovšem pouze čitatel výše uvedeného zlomku, totiž součet čtverců odchylek zjištěných hodnot ijy od celkového průměru y , přičemž tento průměr je dán vztahem: Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 87 - 1 1 1 ink ij i j y y N     . Tento celkový součet čtverců se označuje symbolem yS , tedy: 6-1   2 1 1 ink y ij i j S y y     . Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme pro ni označení v,yS , přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto: 6-2   2 , 1 1 ink y v ij i i j S y y     . Variabilitu mezi skupinami označujeme jako meziskupinovou, označujeme ji symbolem myS , a definujeme výrazem: 6-3   2 , 1 k y m i i i S y y n     . Ve výrazech 6-1 až 6-3 vystupuje celkový průměr ze všech hodnot y a rovněž skupinové průměry iy (viz také předchozí tabulka 31). Algebraickými úpravami výše uvedených vzorců lze dokázat základní vztah analýzy rozptylu, totiž, že celkový součet čtverců je roven součtu meziskupinové a vnitroskupinové variability, symbolicky: 6-4 , ,y y m y vS S S  . V anglické literatuře nebo v softwarech je možné se setkat i s následujícím označením: Sy = SD (D z angl. Difference), Sy,m = ST (T z angl. Treatment), Sy,v = SR (R z angl. Residual). Základní vztah 6-4 má potom samozřejmě tvar D T RS S S  . V této kapitole budeme nadále používat původní značení. 6.1.1 HYPOTÉZY ANOVA Analýza rozptylu je statistickým testem, tudíž je třeba se zabývat tím, jak vypadá nulová a alternativní hypotéza tohoto testu. Než tak učiníme, poznamenejme, že ANOVA má stejně jako i jiné statistické testy předpoklady svého použití. V případě ANOVA se předpokládá, že každý z k náhodných výběrů, s nimiž pracujeme, pochází z populace řídící se normálním rozdělením, že tato normální rozdělení mají stejný rozptyl a výběry jsou nezávislé. 6 ANALÝZA ROZPTYLU - 88 Pokud jde o předpoklad normality, lze jej testovat různými způsoby: např. testem chí-kvadrát, který jsme popsali v kapitole věnované statistickým testům, ale i jinými způsoby: Andersonovým-Darlingovým testem, testem Kolmogorova a Smirnova, testem založeným na šikmosti rozdělení, testem Shapirový-Wilkovým, apod. Pokud jde o předpoklad konstantního rozptylu, uváděli jsme F-test pro případ srovnávání rozptylů dvou normálních rozdělení. V analýze rozptylu obvykle pracujeme s více než dvěma populacemi, resp. výběry z nich, a pro takový případ má F-test své zobecnění v podobě Bartlettova testu. V praxi obvykle předpokládáme, že zmíněné dva předpoklady jsou splněny a při konkrétní aplikaci ANOVA tyto předpoklady již neověřujeme. Vraťme se nyní k podobě testu ANOVA. Předpokládáme-li, že faktor X má k úrovní, vychází se z toho, že populační průměr i znaku Y odpovídající i-té úrovni znaku X splňuje vztah: 6-5 i i    , i = 1, 2,..., k. Symbol i se nazývá efekt a je to právě tento efekt, který má matematicky vyjadřovat odlišnost středních hodnot znaku Y s tím, že tato odlišnost je způsobena odlišnými úrovněmi znaku X. Můžeme si nyní klást otázku, zda všech k výběrů pochází ze stejné základní populace (základního souboru), což vzhledem k předpokladům učiněným pro ANOVA znamená, že si klademe otázku, zda střední hodnoty i jsou stejné, respektive zda efekty i jsou nulové. Tato otázka je naší nulovou hypotézou, kterou lze vzhledem k právě uvedenému formulovat ve vícero podobách: 6-6 H0: 1 2 ... k     . nebo 6-7 H0: 1 2 ... 0k      . Alternativní hypotéza pak je negací 6-6 nebo 6-7. V prvním případě je H1: existují indexy i a j tak, že i j  . Pro ověření nulové hypotézy H0 použijeme testové kritérium 6-8 , , / ( 1) / ( ) y m y v S k T S N k    , která má při platnosti nulové hypotézy Fisherovo rozdělení pravděpodobnosti s k-1 a N-k stupni volnosti. Kritická hodnota 1, ( )k N kF   na hladině významnosti alfa je tabelována, případně ji lze získat v Excelu funkcí FINV( , k-1, N-k). Postup testování hypotézy H0 je tedy charakterizován následujícími kroky: Krok 1. Zvolte hladinu významnosti , (která představuje pravděpodobnost chyby 1. druhu, tj. pravděpodobnost zamítnuti správné hypotézy). Praktické hodnoty hladiny významnosti  jsou obvykle: 0,1, 0,05, 0,01, nebo-li v procentech: 10%, 5%, 1%. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 89 Krok 2. Vypočtěte hodnotu testového kritéria T podle vzorce 6-8, přičemž pro hodnoty meziskupinového součtu čtverců ,y mS a pro výpočet vnitroskupinového součtu čtverců ,y vS použijte vzorce 6-2 a 6-3. Výpočetně výhodnější, např. pro výpočet na kalkulačce, jsou také následující vzorce: 6-9 2 2 1 1 1 1 1i in nk k y ij ij i j i j S y y N              , 6-10 2 2 , 1 1 1 1 ink k y m i i ij i i j S n y y N             , 6-11 , ,y v y y mS S S  . Krok 3. Porovnejte hodnotu kritéria T z Kroku 2 s kritickou hodnotou 11 , ( )k N kF   . Výsledek tohoto porovnání může být dvojí. Platí-li F < 11 , ( )k N kF   , potom se nulová hypotéza H0 přijímá (nezamítá) a tudíž konstatujeme, že úrovně faktoru X nemají na hodnoty znaku Y statisticky významný vliv. Jinak řečeno, faktor X je neúčinný. Je-li 11 , ( )k N kF F   , potom nulovou hypotézu H0 zamítáme, přijímáme hypotézu alternativní H1, a tudíž konstatujeme, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv. Podaří-li se výše uvedeným testem prokázat, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv, můžeme se dále zajímat, které skupiny se významně odlišují od průměru, eventuálně jak skupinové průměry seřadit, případně zařadit do společných celků. V krajním případě by se totiž mohlo stát, že významnost rozdílnosti k skupin způsobuje výlučně skupina jediná a ostatní skupiny se navzájem neliší. Touto problematikou se zabývají metody Scheffého nebo Tukeyho. PŘÍKLAD 1 Následující tabulka reprezentuje údaje získané nezávislými náhodnými výběry. Sledovaným faktorem je v tomto případě oktanové číslo pohonné směsi užívané v automobilech (90, 91, 95, 98). Máme tedy čtyři úrovně faktoru. Pro každou tuto úroveň byly náhodným výběrem pěti řidičů zjištěny spotřeby automobilů (tabulka 32). V tomto případě pracujeme s tzv. vyváženým tříděním – každý výběr má stejný rozsah, víme však, že to není nutné a výběry mohou být různě velké. Zajímá nás otázka, zda oktanové číslo ovlivňuje (statisticky významně) úroveň spotřeby. K nalezení odpovědi na tuto otázku aplikujeme popsanou analýzu rozptylu – jednoduché třídění. Tabulka 32: spotřeba pro různá oktanová čísla Faktor 90 91 95 98 8,1 7,7 7,6 7,5 8 7,8 7,6 7,8 Výběry 7,9 7,9 7,5 7,6 7,8 7,6 7,6 7,5 6 ANALÝZA ROZPTYLU - 90 - 8,2 7,8 7,6 7,5 Hladinu významnosti stanovíme na 5%. Pokud jde o meziskupinovou variabilitu, potřebujeme vypočítat pro každou skupinu (každý sloupec) dílčí průměr. Dílčí průměry jsou po řadě 8, 7,76, 7,58 a 7,58. Celkový průměr ze všech hodnot je 7,73. Dosazením do vzorce 6-3, kde 5in  pro všechna i, obdržíme , 0,594.y mS  Pokud jde o vnitroskupinovou variabilitu, máme podle 6-2 2 2 2 2 2 , (8,1 8) (8 8) ... (8,2 8) (7,7 7,76) ... (7,5 7,58) 0,228.y vS              Počet všech hodnot N = 20, počet úrovní faktoru k = 4. Pro testové kritérium T tedy platí , , / ( 1) 0,594 / 3 13,895. / ( ) 0,228/16 y m y v S k T S N k      Kritická hodnota testu K = FINV(0,05,3,16) = 3,2389. Testové kritérium je vyšší než kritická hodnota, proto zamítáme hypotézu o tom, že oktanové číslo pohonné směsi nemá žádný vliv na spotřebu vozu. Jinak řečeno, tento faktor, zdá se, ovlivňuje spotřebu statisticky významně. Excel: Stejný test lze provést v Excelu pomocí modulu Analýza dat. V dialogovém okně, které tento modul nabídne, si uživatel vybere analýzu rozptylu jeden faktor (obrázek 9) Obrázek 9: dialogové okno Analýza dat v Excelu a v dalším dialogovém okně (obrázek 10) pak vyznačí oblast dat v Excelu, které obsahují výsledky náhodných výběrů: Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 91 Obrázek 10: vyplnění údajů pro analýzu rozptylu v Excelu Je třeba rovněž dát pozor na to, aby v dialogovém okně bylo správně vyznačeno, zda jsou tyto výběry sdruženy do sloupců či řádku. V našem případě platí: co sloupec, to náhodný výběr. Po zvolení vhodné hladiny významnosti alfa a určení, kde v Excelu se má umístit výsledek výpočtů, pak Excel vrátí údaje v tabulce 33. Tabulka 33: výsledek analýzy rozptylu provedené Excelem ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 0,594 3 0,198 13,89474 0,0001015 3,238872 Všechny výběry 0,228 16 0,01425 Celkem 0,822 19 V této tabulce značí „Mezi výběry“ meziskupinovou variabilitu, „Všechny výběry“ vnitroskupinovou variabilitu a „Celkem“ celkovou variabilitu. Údaj „F“ reprezentuje hodnotu testového kritéria, údaj „F krit“ kritickou hodnotu testu. Jak je vidět, náš výpočet byl správný. 6.1.2 MÍRA TĚSNOSTI ZÁVISLOSTI Variabilita podmíněných (skupinových) průměrů iy kolem celkového průměru y je způsobena závislostí znaku Y na znaku X. Tuto variabilitu jsme vyjádřili meziskupinovým součtem čtverců ,y mS . Variabilita znaku Y uvnitř jednotlivých skupin – vyjádřena vnitroskupinovým (reziduálním) součtem čtverců ,y vS , je způsobena jinými, neuvažovanými činiteli. Čím větší je ,y mS , tím větší je těsnost závislosti znaků X a Y. Tato míra závislosti se měří s využitím vztahu 6-4. Zavádíme míru těsnosti závislosti znaku Y na znaku X poměrem determinace P2 , a to takto: 6-12 ,2 y m y S P S  . 6 ANALÝZA ROZPTYLU - 92 Odmocninu z poměru determinace P nazýváme korelační poměr. Poměr determinace nabývá hodnot z intervalu [0,1]. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k jedné, tím více se také meziskupinový součet čtverců blíží k celkovému součtu čtverců, přičemž vnitroskupinový součet čtverců se blíží k nule. Naopak, čím více se poměr determinace blíží k 0, tím menší část z celkového součtu čtverců připadá na meziskupinový součet čtverců, a tím menší je závislost znaku Y na X. SHRNUTÍ Statistickou významnost rozdílů mezi populačními průměry dvou náhodných veličin umožňují ověřit statistické testy, např. t-testy. Analýza rozptylu – ANOVA umožňuje ověřit významnost rozdílu i mezi větším počtem populačních průměrů, a umožňuje tak také posoudit vliv různých úrovní faktoru nebo faktorů na proces charakterizovaný kvantitativním statistickým znakem. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového „rozptylu“ na dílčí „rozptyly“ příslušející jednotlivým vlivům, podle nichž jsou data roztříděna. Jednou složkou celkového rozptylu je tzv. reziduální rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. V této kapitole jsme se věnovali prvnímu z těchto typů ANOVA. Metoda jednofaktorové analýzy rozptylu spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Předpokládáme, že faktor X má k úrovní s efektem na znak Y a formulujeme nulovou hypotézu, že všechny výběry pocházejí ze stejné základní populace. Pro ověření nulové hypotézy použijeme statistiku 6-8, která má při platnosti nulové hypotézy Fisherovo rozdělení. Kritické hodnoty Fisherova rozdělení jsou tabelovány pro různé hodnoty hladiny významnosti  a různé hodnoty stupňů volnosti. Nulovou hypotézu buď přijímáme (nezamítáme) a tudíž konstatujeme, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv, anebo nulovou hypotézu zamítáme, přijímáme hypotézu alternativní a tudíž konstatujeme, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv. Míru těsnosti závislosti vyjadřujeme jako podíl meziskupinového a celkového součtu čtverců, a zavádíme proto jako míru těsnosti závislosti znaku Y na znaku X poměr determinace P2 , který nabývá hodnot z intervalu [0, 1]. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k jedné. Číslo P nazýváme korelační poměr. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 93 KONTROLNÍ TEST 6 6.1 Jednofaktorová ANOVA slouží k (označte správnou odpověď, může jich být i více): a. výpočtu rozdělení četnosti jednotlivých znaků b. testování vlivu faktoru na kvantitativní znak c. zjištění typu rozdělení pravděpodobnosti d. zjištění zkorelovanosti statistických znaků 6.2 Při testu hypotézy se v ANOVA: a. testuje nulová hypotéza, že střední hodnoty znaků jsou stejné, b. testuje nulová hypotéza, že dva statistické znaky jsou vzájemně závislé, c. testuje nulová hypotéza, že hodnota znaku se liší od zadané hodnoty d. testuje nulová hypotéza, že dva statistické znaky jsou vzájemně nezávislé. 6.3 Při ANOVA se využívá kritické hodnoty: a. Studentova rozdělení pravděpodobnosti, b. Pearsonova Chi-kvadrát rozdělení pravděpodobnosti, c. Fisherova F-rozdělení pravděpodobnosti, d. Gaussova normálního rozdělení pravděpodobnosti, 6.4 Určete, zda následující výroky jsou správné (vepište A) nebo nesprávné (vepište N): a. K testu neúčinnosti faktorů se v analýze rozptylu používá F-test rovnosti rozptylů. b. Determinační poměr nabývá hodnot z intervalu [0;1]. c. Závislost mezi znaky X a Y je tím větší, čím menší je meziskupinová variabilita. d. Obor přijetí je při analýze rozptylu oboustranný. e. Rozptyl skupinových průměrů odráží vnitroskupinovou variabilitu znaku Y. 6.5 Doplňte správný výraz: a. Leží-li hodnota testového kritéria F v kritickém oboru, lze na dané hladině významnosti považovat znak Y za __________ na znaku X. b. Analýza rozptylu, kdy celkový počet pozorování je m a faktor má l kategorií, předpokládá nalezení příslušného kvantilu F rozdělení o stupních volnosti __________a __________. c. Hodnota testového kritéria F nabývá vždy __________ hodnot. d. Jednofaktorová ANOVA zkoumá závislost znaku Y na __________znaku X. 6 ANALÝZA ROZPTYLU - 94 - 6.6 Doplňte správné sousloví: a. Odmocnina z determinačního poměru se nazývá __________ __________. b. Padne-li hodnota testového kritéria F do __________ __________ pak nulovou hypotézu zamítáme. c. K výpočtu kritického oboru jednofaktorové ANOVA potřebujeme znát ____________________a __________. ŘEŠENÍ KONTROLNÍHO TESTU 6 6.1 b. 6.2 a. 6.3 c. 6.4 N, A, N, N, N 6.5 a. závislý, b. l-1 a m-l, c. kladných, d. kategoriích 6.6 a. korelační poměr, b. kritického oboru, c. stupně volnosti rozdělení F a hladinu významnosti Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 95 - 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ A LATINSKÉ ČTVERCE V předešlé kapitole jsme se seznámili s jednofaktorovou analýzou rozptylu. V této kapitole probereme vícefaktorové analýzy rozptylu. Jde o situaci, kdy se zkoumá, zda kvantitativní znak Y je ovlivňován dvěma nebo třemi faktory, opět ne nutně kvantitativními znaky. Vícefaktorová analýza rozptylu má svůj experimentální plán. O experimentálních plánech budeme podrobněji hovořit v návazných kapitolách. Tento plán může být navržen efektivně tak, aby výsledky analýzy rozptylu byly přesvědčivé a přitom nebylo třeba mít k dispozici příliš mnoho údajů. Uvědomme si, že s tím jak přibývá faktorů, které slouží ke klasifikaci sledovaného znaku Y, zvyšuje se tím rychle i požadavek na objem dat. Sleduje-li se vliv dvou faktorů, které mohou ovlivnit hodnotu sledovaného (kvantitativního) znaku Y, hovoříme o dvojném třídění. Obdobně jako v případě jednoduchého třídění je možné pro různé kombinace těchto dvou faktorů provést náhodné výběry a na jejich základě pak testovat individuální vliv obou faktorů. Kromě uvedených dvou faktorů je možno uvažovat jako samostatný faktor také jejich interakci. Podle toho se pak rozlišuje analýza rozptylu dvojné třídění s interakcemi nebo bez interakcí. My v našem výkladu interakce uvažovat nebudeme. Analogická tvrzení platí také pro případ, kdy pracujeme se třemi „hlavními“ faktory – v tomto případě mluvíme o analýze rozptylu trojné třídění – a opět můžeme zkoumat také jako speciální faktory všechny možné dvoučlenné interakce tří hlavních faktorů a také trojčlennou interakci tvořenou všemi třemi hlavními faktory. Vzhledem k časté náročnosti požadavku na objem dat v případě vícefaktorové analýzy rozptylu se omezujeme na případ, kdy pro danou kombinaci faktorů obsahuje příslušný náhodný výběr pouze jedno pozorování. Hovoříme pak o analýze rozptylu s jedním pozorováním v každé podskupině. Tento případ také patří mezi případy vyváženého třídění zmíněného již u jednoduché analýzy rozptylu. Zatímco ovšem u jednofaktorové ANOVA vyvážené třídění není až tak zásadní požadavek, v případech vícefaktorové ANOVA hraje podstatně důležitější roli a doporučujeme jej v praxi dodržovat. Splnění tohoto požadavku obvykle v praxi ani nečiní žádné zvláštní problémy. Pokud tento požadavek splněn není, potom záleží na tom, jak jsou vícefaktorové ANOVA prováděny (mohou být totiž prováděny vícero způsoby) a každý z těchto postupů může dát obecně jiný závěr a mít jinou intepretaci. V případě vyváženého třídění toto úskalí nenastává. Následující kapitola je proložena řešenými příklady, které si pečlivě prostudujte tak, abyste byli schopni odpovědět na kontrolní otázky v závěru kapitoly. 7.1 DVOJNÉ TŘÍDĚNÍ Je-li sledovaný znak ovlivňován dvěma faktory, hovoříme o dvojném třídění. I v tomto případě dochází ke vhodnému rozkladu celkové variability znaku na dílčí zdroje variability. Rozklad celkového součtu čtverců S se provede analogicky jako v případě jednoduchého třídění s tím rozdílem, že přibyde v rozkladu nový činitel odrážející vliv druhého faktoru. 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ a LATINSKÉ ČTVERCE - 96 Rozklad celkového součtu čtverců S má nyní tvar 7-1 A B RS S S S   , kde 7-2 2 1 1 ( ) k n ij j i S y y     , 7-3   2 1 n A i i S k y y    , 7-4   2 1 k B j j S n y y    7-5 .R A BS S S S   Zde n značí počet uvažovaných úrovní faktoru A, k počet uvažovaných úrovní faktoru B, celkem je k dispozici nk pozorování při jednom pozorování v každé podskupině. Symbol iy vyjadřuje dílčí průměr: průměrnou hodnotu pozorování v situaci, kdy je faktor A na své i-té úrovni, zatímco jy reprezentuje průměrnou hodnotu pozorování v situaci, kdy je faktor B na své j-té úrovni. Symbol y zastupuje jako obvykle průměr spočtený ze všech pozorování. Tento experiment schematicky vyjadřuje tabulka 34. Tabulka 34: údaje pro analýzu rozptylu dvojné třídění schematicky Faktor B: úrovně B1 B2 … Bk A1 A2 Faktor A: úrovně . . An jy ijy je v i-tém řádku, j-tém sloupci iy Symbol iy lze chápat jako „řádkový průměr“ v naší tabulkové reprezentaci, symbol jy lze pojímat jako „sloupcový průměr“. Součet AS odráží vliv faktoru A, součet BS odráží vliv faktoru B, součet RS odráží zbytkový vliv ostatních faktorů. Celková variabilita pozorování je měřena výrazem S . Jelikož v této analýze vystupují dva faktory, představuje analýza rozptylu dvojné třídění dva testy. Každý z těchto testu zkoumá statistickou významnost vlivu jednoho z faktorů. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 97 - 7.1.1 VLIV FAKTORU A Testujeme statistickou hypotézu H0: Faktor A nemá vliv na sledovaný znak Y. Alternativní hypotéza tvrdí opak: H1: Faktor A má vliv na sledovaný znak Y. Testové kritérium T má tvar 7-6 / ( 1) / ( 1) A R S n T S nk n k      . Kritická hodnota testu K = 1, 1( )n nk n kF     na hladině významnosti alfa, tj. týká se Fisherova rozdělení s uvedenými stupni volnosti. Pokud T K , zamítáme nulovou hypotézu. Můžeme tedy v takovém případě říci, že faktor A statisticky významně ovlivňuje sledovaný znak Y. Je-li naopak T K , přijímáme nulovou hypotézu, jinými slovy, faktor A statisticky významně neovlivňuje sledovaný znak Y. 7.1.2 VLIV FAKTORU B Testujeme statistickou hypotézu H0: Faktor B nemá vliv na sledovaný znak Y. Alternativní hypotéza tvrdí opak: H1: Faktor B má vliv na sledovaný znak Y. Testové kritérium T má v tomto druhém případě tvar 7-7 / ( 1) / ( 1) B R S k T S nk n k      . Kritická hodnota testu K = 1, 1( )k nk n kF     na hladině významnosti alfa. Pokud T K , zamítáme nulovou hypotézu. Můžeme v takovém případě říci, že faktor B statisticky významně ovlivňuje sledovaný znak Y. Je-li naopak T K , přijímáme nulovou hypotézu, tj. faktor B statisticky významně neovlivňuje sledovaný znak Y. PŘÍKLAD 1 Uvažujme dva faktory A, B, z nichž první je sledován na třech úrovních a druhý na čtyřech úrovních. Pro každou kombinaci úrovní (kategorií) těchto faktorů máme k dispozici jedno pozorování. Předpokládáme, že tato pozorování vznikla nezávisle na sobě a pocházejí z normálních rozdělení se stejnými rozptyly. Testujeme možný vliv každého faktoru zvlášť, a to na pětiprocentní hladině významnosti. Potřebné údaje jsou v tabulce 35. Tabulka 35: vstupní údaje pro Anova dvojné třídění B B1 B2 B3 B4 A1 24 25 25 23 A A2 22 21 22 25 A3 21 22 21 21 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ a LATINSKÉ ČTVERCE - 98 Tabulka 36 obsahuje proti zadání navíc řádkové a sloupcové průměry a dále také celkový průměr vypočítaný ze všech pozorování; n = 3, k = 4. S využitím vzorců 7-2 až 7-5 dostáváme Tabulka 36: ANOVA a průměry B B1 B2 B3 B4 průměry A1 24 25 25 23 24,25 A A2 22 21 22 25 22,5 A3 21 22 21 21 21,25 průměry 22,33333 22,66667 22,66667 23 22,66667 celkový průměr 2 1 1 ( ) 30,66, k n ij j i S y y        2 1 18,166, n A i i S k y y       2 1 0,66, k B j j S n y y     11,833.R A BS S S S    Pro testová kritéria tedy platí: Testu vlivu A: / ( 1) 18,166 / 2 4,6. / ( 1) 11,833/ 6 A R S n T S nk n k        Testu vlivu B: / ( 1) 0,66 / 3 0,1126. / ( 1) 11,833/ 6 B R S k T S nk n k        Kritické hodnoty mají tvar: Test vlivu faktoru A: K = FINV(0,05,3-1,12-3-4+1) = 5,143. Test vlivu faktoru B: K = FINV(0,05,4-1,12-3-4+1) = 4,757. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 99 Jak je vidět z těchto údajů, žádný z faktorů se nezdá být statisticky významný na pětiprocentní hladině významnosti. Excel: Stejný příklad lze také řešit pomocí Excelovského modulu Analýza dat, ve kterém analytik vybírá položku Anova: dva faktory bez opakování (obrázek 11). Obrázek 11: dialogové okno Excelovského modulu Analýza dat V nabídnutém dialogovém okně pak vyznačí počítačovou myší oblast údajů (naše tabulka se zadáním), zvolí hladinu významnosti a potvrdí. Výstupem jsou pak tyto údaje tabulky 37 (v případě našeho příkladu). Tabulka 37: výsledek Anova dvojné třídění poskytnutý Excelem ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Řádky 18,16666667 2 9,083333 4,605634 0,06137 5,143253 Sloupce 0,666666667 3 0,222222 0,112676 0,949497 4,757063 Chyba 11,83333333 6 1,972222 Celkem 30,66666667 11 Jejich interpretace je podobná jako v případě analýzy rozptylu jednoduché třídění. Druhý sloupec obsahuje sčítance z rozkladu 7-1, symbol F představuje hodnoty testových kritérií pro jednotlivé faktory a F krit příslušné kritické hodnoty testů. 7.2 TROJNÉ TŘÍDĚNÍ (LATINSKÉ ČTVERCE) Do analýzy rozptylu patří také speciální případ trojného třídění, o němž pojednáme v samotném závěru kapitoly o analýze rozptylu. Jde o tzv. latinské čtverce. Latinské čtverce patří mezi klasické metody plánování experimentů (analýza rozptylu rovněž spadá do plánování experimentů). Historicky pochází tento pojem z 18. století, kdy L. Euler (1707 – 1783) předložil petrohradské akademii úlohu o 36 důstojnících: Sestavte 36 důstojníků 6 různých hodností ze 6 různých pluků do čtverce tak, aby v každé řadě a v každém sloupci byli důstojníci všech hodností a všech pluků. Obecněji se tento problém dá zformulovat takto: 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ a LATINSKÉ ČTVERCE - 100 Uvažujme objekty, které mají dvě vlastnosti: A a B (např. A = hodnost, B = pluk). Každá vlastnost nabývá n různých hodnot, resp. kategorií (n = 6, 6 různých hodností: podporučík, poručík, nadporučík, kapitán, major, plukovník; 6 různých pluků: pluk 1, pluk 2, ..., pluk 6). Úkolem je sestavit n2 objektů do čtverce tak, aby v každé vodorovné řadě i v každé svislé řadě tohoto čtverce byly vždy objekty všech kategorií vlastnosti A a zároveň všech kategorií vlastnosti B (např. v první řadě stojí podporučík z pluku 6, poručík z pluku 5,..., plukovník z pluku 1). Takovéto schéma objektů se nazývá latinský čtverec řádu n. Známý výsledek, který pochází od samotného Eulera, říká, že pro každé přirozené číslo n existuje alespoň jeden latinský čtverec řádu n v uvedeném slova smyslu. V této subkapitole se budeme zabývat latinskými čtverci, které rovněž slouží k vyhodnocování experimentů. Představme si, že sledujeme vliv tří faktorů na znak Y. Vzhledem k tomu, že jde o tři faktory, dosti obtížně se nám podaří reprezentovat takový experiment dvojrozměrnou tabulkou. Zásadní problém je však v tom, že tři faktory už je dosti velké číslo vyžadující velký počet pozorování. Je ale možné uvažovat tak, že pro každou kombinaci úrovní sledovaných tří faktorů budeme realizovat jediné pozorování a takový experiment budeme reprezentovat dvojrozměrnou tabulkou, jejíž záhlaví bude obsahovat různé úrovně dvou faktorů a vnitřek tabulky bude obsahovat záznam úrovní třetího faktoru. Tyto úrovně třetího faktoru budou přitom vepsány do tabulky tak, aby vznikl latinský čtverec. Uvažujeme-li faktory A, B, C a hovoříme o latinském čtverci řádu n = 3, můžeme náš experiment zapsat například v podobě tabulky 38 Tabulka 38: Anova trojné třídění schematicky a b c b c a c a b Jedna strana tohoto čtverce představuje tři úrovně faktoru A. Druhá strana tabulky - sloupce reprezentují tři úrovně faktoru B. Vnitřek tabulky obsahuje tři úrovně třetího faktoru C. Návrh takového experimentu čteme tak, že když je faktor A na první úrovni, faktor B je na první a faktor C je rovněž na první úrovni (to je prvek [1,1] tabulky), pak právě pro takovou kombinaci tří faktorů realizujeme jedno pozorování. Obdobně postupujeme i v případě dalších kombinací, až projdeme celkou tabulku. Tento experiment má své výhody a jednou z nich je ta, že v konečném výsledku pracujeme s devíti údaji místo 27, které bychom potřebovali, pokud bychom chtěli zohlednit všechny možné kombinace uvedených tří faktorů. Přitom je tento návrh zvolen tak, aby výsledná analýza dávala věrohodné výsledky. Celkový rozklad variability, z něhož se vychází při testování vlivu jednotlivých faktorů, má tvar 7-8 A B C RS S S S S    , kde 7-9 2 1 ( ) n A i i S n y y    Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 101 odráží vliv faktoru A a iy  je průměr znaku Y, je-li faktor A na své i-té úrovni, 7-10 2 1 ( ) n B j j S n y y     odráží vliv faktoru B a jy  je průměr znaku Y, je-li faktor B na své j-té úrovni, 7-11 2 1 ( ) n C k k S n y y    odráží vliv faktoru C a ky  je průměr znaku Y, je-li faktor C na své k-té úrovni, 7-12 2 ( )ijk i j k S y y  je celkový součet čtverců – vystupují v něm realizovaná pozorování znaku Y - ijky pro realizované úrovně všech tří faktorů – a konečně 7-13 R A B CS S S S S    . je reziduální součet čtverců. U analýzy rozptylu trojné třídění provádíme tři testy. Každý z nich se týká vlivu jednoho ze tří faktorů. U všech tří testů má testovaná hypotéza H0 tvar: daný faktor není významný. Alternativní hypotéza H1 tvrdí opak. Testová kritéria pro testování vlivu faktorů A, B, C jsou shrnuta v tabulce 39: Tabulka 39: Anova trojné třídění Zdroj variability Součet čtverců Stupně volnosti Odhad rozptylu F testové kritérium Faktor A SA dfA=n-1 MSA=SA / dfA FA=MSA / MSR Faktor B SB dfB=n-1 MSB=SB / dfB FB=MSB / MSR Faktor C SC dfC=n-1 MSC=SC / dfC FC=MSC / MSR Rezidua SR dfR=(n-1)(n-2) MSR=SR / dfR Celek S dfT=n2 -1 Je-li FA ≥ 1,( 1)( 2) ( )n n nF    , zamítáme nulovou hypotézu na hladině významnosti  a tvrdíme, že faktor A je vlivný. Při opačné nerovnosti vlivný není. Je-li FB ≥ 1,( 1)( 2) ( )n n nF    , zamítáme nulovou hypotézu na hladině významnosti  a tvrdíme, že faktor B je vlivný. Při opačné nerovnosti vlivný není. Je-li FC ≥ 1,( 1)( 2) ( )n n nF    , zamítáme nulovou hypotézu na hladině významnosti  a tvrdíme, že faktor C je vlivný. Při opačné nerovnosti vlivný není. 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ a LATINSKÉ ČTVERCE - 102 PŘÍKLAD 2 Uvažujme případ, kdy sledujeme množství emisí výfukových plynů Y v závislosti na těchto třech faktorech: Faktor 1 = typ přísady do benzinu (A, B, C, D), Faktor 2 = řidič vozidla (I, II, III, IV), Faktor 3 = použité vozidlo (1, 2, 3, 4). Výsledky experimentu jsou uvedeny v tabulce 40 Tabulka 40: vstupní údaje pro Anova trojné třídění Řidič\vozidlo: Y 1 2 3 4 I A : 21 B : 26 D : 20 C : 25 II D : 23 C : 26 A : 20 B : 27 III B : 15 D : 13 C : 16 A : 16 IV C : 17 A : 15 B : 20 D : 20 Testujeme potenciální vliv jednotlivých faktorů na Y na pětiprocentní hladině významnosti. Je Užitím vzorců 7-9 až 7-13 dostáváme 2 1 1 ( ) 40. n i i S n y y     2 2 1 ( ) 216. n j j S n y y      2 3 1 ( ) 24. n k k S n y y     2 ( ) 296.ijk i j k S y y   16.R A B CS S S S S     Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 103 Testová kritéria vypadají proto takto: Pro Faktor 1: (40 / 3) 5. (16 / 6) T   Pro Faktor 2: (216 / 3) 27. (16 / 6) T   Pro Faktor 3: (24 / 3) 3. (16 / 6) T   Kritická hodnota je ve všech třech případech stejná: K = FINV(0,05,3,6) = 4,757. Závěr testů je takový, že faktory 1 a 2 jsou statisticky významné, pokud jde o jejich vliv na znak Y, třetí faktor, tj. typ použitého vozidla, neovlivně znak Y. SHRNUTÍ V této kapitole jsme se seznámili s vícefaktorovou analýzou rozptylu – konkrétně s třífaktorovou, a to speciálně navrženou v podobě tzv. latinských čtverců, a s analýzou rozptylu v podobě dvojného třídění bez interakcí s jedním pozorováním v každé podskupině. Vysvětlili jsme hlavní účel těchto metod a techniku jejich matematického provedení. Poznali jsme pojmy jako: dvojné třídění, trojné třídění, latinské čtverce, rozklad součtu čtverců, ANOVA tabulka, faktor. V řešených příkladech, které následují, si zopakujte analýzu rozptylu včetně té v podobě jednoduchého třídění. KONTROLNÍ TEST 7 1) Na hladině významnosti 0,05 testujte, zda výnosy petržele závisí na použitém druhu hnojiva. Vstupní údaje jsou v tabulce 41 Tabulka 41: vstupní údaje pro ANOVA Hnojivo Výnosy (1kg/10m2 ) A 40 42 45 40 44 47 B 76 75 82 68 C 60 58 62 64 70 2) Pomocí determinačního poměru zjistěte těsnost závislost výnosů petržele na použitém druhu hnojiva z předchozího příkladu. 3) Bylo vybráno 6 řidičů, z nichž každý absolvoval s každým typem benzínu jednu jízdu. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na tom, který řidič s vozem jel. Vstupní údaje jsou v tabulce 42. 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ a LATINSKÉ ČTVERCE - 104 Tabulka 42: vstupní údaje pro ANOVA Řidiči Typ benzínu A B C D E F Průměry Aral 7,5 6,9 7,9 7,3 6,9 7,8 7,38 Shell 7,6 7,2 7,5 8 7,3 8,2 7,63 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 7,57 Slovnaft 7 7,3 7,2 7,5 8,2 7,7 7,48 Průměry 7,33 7,38 7,6 7,6 7,55 7,65 7,5 ŘEŠENÍ KONTROLNÍHO TESTU 7 1) Faktor typ hnojiva má 3 skupiny, tzn. k = 3, s následujícími četnostmi ve skupinách 1 2 36, 4 5n n n   . Celkový počet měření N = 15. Testujeme nulovou hypotézu 0 1 2 3H :     , tj. že výnosy petržele nezávisí na typu hnojiva. Před vypočtením testového kritéria musíme zjistit hodnoty následujících veličin:  Podmíněné průměry 1 in ij j i i y y n    , pro 1,2...,i k , kde: ijy jsou zjištěné hodnoty.  Celkový průměr 1 1 1 1 1ink k ij i i i j i y y n y n n      , kde: n je celkový rozsah souboru.  Meziskupinový součet čtverců   2 , 1 k y m i i i S n y y    , kde: in je počet měření v i-té skupině, iy je výběrový průměr v i-té skupině.  Vnitroskupinový součet čtverců   2 , 1 1 ink y v ij i i j S y y     .  Celkový součet čtverců , ,y y m y vS S S  . Hodnoty výše uvedených veličin jsou: 1 2 3 40 42 ... 47 43, 6 76 75 ... 68 75,25, 4 62,8, y y y            43 6 75,25 4 62,8 5 58,2. 15 y                2 2 2 2 , 1 6 43 58,2 4 75,25 58,2 5 62,8 58,2 2654,85. k y m i i i S n y y           Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 105                     2 2 2 2 , 1 1 2 2 2 2 2 2 40 43 42 43 ... 47 43 76 75,25 75 75,25 ... 68 75,25 60 62,8 58 62,8 ... 70 62,8 223,55. ink y v ij i i j S y y                              Údaje shrneme do tabulky 43: Tabulka 43: výstup ANOVA Zdroj variability Součty čtverců odchylek Počty stupňů volnosti Průměrné čtverce Testové kritérium F Faktor x (meziskupinová variabilita) 2654,85 k – 1 = 2 1327,42 71,25 Reziduální (vnitroskupinová variabilita) 223,55 N – k = 12 18,63 Celkový 2878,4 N – 1 = 14 Hodnota testového kritéria 71,25T  , kritická hodnota 2,12 (0,05) 3,89F  , kritický obor je [3,89; )C   . Hodnota T leží v kritickém oboru, proto zamítáme na hladině významnosti 5% nulovou hypotézu. Výnosy petržele závisí na zvoleném typu hnojiva. 2) Na otázku „Jak silná je vazba mezi nezávislou proměnnou (typ hnojiva) a proměnnou číselnou (výnosy petržele)? odpovídá hodnota korelačního poměru: ,y m y S P S  , kde myS , je meziskupinový součet čtverců, yS je celkový součet čtverců. Dosadíme-li do vztahu, dostaneme 2654,85 0,922 0,96 2878,4 P    . Pokud hodnotu korelačního poměru umocníme, dostáváme poměr determinace 2 0,922P  . Hodnoty determinačního poměru blízké 1 svědčí o vysoké závislosti výnosů petržele na použitém typu hnojiva. 3) Zkoumáme tedy závislost průměrné spotřeby (znak Y) na typu použitého benzínu (znak X1) a na řidiči (znak X2). V tabulce jsou již doplněny podmíněné průměry a celkový průměr vyjádřený kurzívou. Znak X1 má 4k úrovně, znak X2 má 6r úrovní. Pro 7 ANALÝZA ROZPTYLU – DVOJNÉ TŘÍDĚNÍ a LATINSKÉ ČTVERCE - 106 faktor X1 formulujeme hypotézu: 0H faktor X1 je neúčinný, 1H faktor X1 je účinný, tj. průměrná spotřeba závisí na použitém druhu benzínu. Pro faktor X2 formulujeme hypotézu: 0H faktor X2 neúčinkuje, 1H faktor X2 účinkuje, tj. průměrná spotřeba závisí na řidiči vozu. Výpočet jednotlivých součtů:      1 4 2 2 2 . 1 6 7,38 7,5 ... 7,48 7,5 0,21.X i i S r y y                  2 6 2 2 2 . 1 4 7,33 7,5 ... 7,65 7,5 0,358.X j j S k y y             Potřebujeme znát i hodnotu součtu RS , z praktického hlediska je však výhodnější vypočítat hodnotu celkového součtu S . Součet RS pak dopočteme ze vztahu 1 2R X XS S S S   .           24 6 2 2 2 2 1 1 7,5 7,5 6,9 7,5 ... 8,2 7,5 7,7 7,5 3,79.ij i j S y y               Je tedy 3,22.RS  Testové kritérium pro 1. hypotézu:    1 0,21 1 3 0,33. 3,22 151 1 X R S kF S k r      V tabulce kritických hodnot F-rozdělení najdeme 3,15(0,05) 3,29F  . Protože 0,33 < 3,29, nelze zamítnout 0H , což znamená, že použitý typ benzínu nemá na průměrnou spotřebu statisticky významný vliv. Testové kritérium pro 2. hypotézu:    2 0,36 51 0,33. 3,22 151 1 X R S rT S k r      V tabulce kritických hodnot F-rozdělení najdeme 5,15(0,05) 2,9F  . Protože 0,34 < 2,9, nelze zamítnout 0H , což znamená, že volba řidiče nemá na průměrnou spotřebu vliv. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 107 - 8 ÚPLNÉ FAKTOROVÉ PLÁNY V této kapitole se budeme podrobněji věnovat plánování experimentů, což je doména typická pro průmyslová odvětví. Pod pojmem experimentovat si přitom představujeme změnu obvyklých pracovních podmínek s cílem nalézt nejlepší pracovní postupy a současně získat hlubší poznatky o vlastnostech výrobku a výrobního procesu, které s těmito pracovními postupy souvisejí. Formulaci „nejlepší pracovní postupy“ lze interpretovat takto: Označíme-li sledovaný ukazatel kvality Y jistého výrobku (resp.ukazatele kvality 1 2 , ,..., k Y Y Y ) a faktory , , ,...A B C , které jej ovlivňují, se mohou pohybovat na různých úrovních - 1 2 3 , , ,...A A A pro faktor A; 1 2 3 , , ,...B B B pro faktor B atd., potom cílem plánování experimentů je rozhodnout, které z faktorů , , ,...A B C významně ovlivňují tyto ukazatele kvality, a cílem je také určit optimální úrovně významných faktorů. Je tedy cílem optimalizovat vstupy tak, aby byl optimalizován výstup. Právě odpověďmi na tyto otázky se budeme nyní zabývat. 8.1 ZÁKLADY EXPERIMENTOVÁNÍ A OBLASTI POUŽITÍ Experimentování představuje zkoumání kombinací různých hodnot (úrovní) faktorů, o nichž si myslíme, že mají vliv na jistou odezvu (charakteristiku jakosti). Odezva je veličina, pomocí které vyjadřujeme výsledky experimentu. Cíle, které jsme si vytýčili v předchozím odstavci, lze dosáhnout různými způsoby a některými z nich jsme se i zabývali. Například jsme prováděli analýzu rozptylu pro zjišťování vlivných faktorů. Pro určení vhodné úrovně vlivných faktorů bychom mohli také použít regresní analýzu, pokud bychom našli rozumnou matematickou křivku, která by vyjadřovala vztah mezi odezvou a vlivnými faktory. Avšak tyto metody často požadují velké množství dat (platí to i pro ANOVA, byť v jejím případě jsme se zabývali speciálními případy, které nejsou náročné na objem dat, a také jsme poznamenali, že ANOVA patří do plánování experimentů). Tyto metody také požadují, aby se vyšlo z jistých postulátů, které lze jen ztěží ověřit – např. v případě regrese vycházíme z toho, že známe obecný tvar regresní křivky, s níž pracujeme, ale platit to ve skutečnosti nemusí. Z těchto důvodů vnikla disciplína s názvem Plánování experimentů, která se zabývá vhodným návrhem experimentu, resp. sběru dat, tak aby uvedené problémy byly v rozumné míře řešeny. Než si vysvětlíme základní principy práce v této oblasti, uveďme některé důležité pojmy, s nimiž budeme dále pracovat. Faktor neboli parametr je nezávislá volená proměnná ovlivňující charakteristiku jakosti, která nás zajímá. Jak již bylo naznačeno v úvodu, symbolicky označujeme faktory velkými tiskacími písmeny, tj. , ,A B C atd. a jejich úrovně pro experiment označujeme jako 1 A (faktor A na první úrovni), 2 A (faktor A na druhé úrovni), atd. Rozlišujeme dva základní druhy faktorů: a) regulovaný faktor – je volená proměnná, o které si myslíme, že ovlivňuje odezvu a je přitom začleněna do experimentu. Hodnotu proměnné můžeme a zároveň chceme nastavit a udržovat. b) šumový faktor – je faktor, který negativně ovlivňuje odezvu. Takový faktor nemůžeme nebo nechceme při vlastní aplikaci nastavit a udržovat na požadované hodnotě, ale můžeme to provádět během experimentu. 8 ÚPLNÉ FAKTOROVÉ PLÁNY - 108 Pod pojmem interakce faktorů si představujeme kombinovaný účinek dvou faktorů, tzn. účinek jednoho faktoru je závislý na hodnotě nastavení druhého faktoru. Interakci dvou faktorů A a B zapisujeme symbolicky jako AB. Uveďme oblasti, ve kterých se experimentování používá. Jsou to tyto zejména oblasti: analytická simulace, návrh a vývoj výrobku, návrh a vývoj procesu, zlepšování procesu, testování a validace, řešení problémů s jakostí ve výrobě, analýza a zlepšování systému měření. 8.2 EXPERIMENTÁLNÍ PROCEDURA Kroky, které je třeba realizovat, pro zjištění vlivných faktorů a jejich optimálních úrovní utvářejí experimentální proceduru. Tyto kroky jsou čtyři: plánování experimentu (např. pomocí techniky brainstorming), návrh experimentu, provedení experimentu a analýza experimentu. Věnujme se jednotlivým částem této experimentální procedury. Prvním krokem při plánování experimentů je ustanovení experimentálního týmu. Do týmu by měli být zahrnuti zástupci všech oddělení, která ovlivňují produkt nebo proces. Velikost týmu by však neměla přesahovat rozumnou míru a měla by se pohybovat v rozmezí 2 – 15 lidí. Brainstormingová sezení jsou věnována velkému množství otázek a na každou z nich musí experimentální tým nalézt správnou odpověď. Jde o určení cíle experimentu, definování charakteristiky jakosti a výběr faktorů a jejich úrovní pro realizaci experimentu. Výsledkem plánování experimentů je definovaný cíl, kterého chceme dosáhnout, a charakteristika jakosti, která je měřítkem pro posouzení, zda cíle bylo dosaženo. Kromě toho známe potenciální faktory, které nepravděpodobněji ovlivňují danou charakteristiku jakosti, a jejich úrovně. Tyto informace se následně využijí k návrhu experimentu. Výsledkem tohoto návrhu je experimentální plán, který představuje tabulkou vyjádřený rozpis jednotlivých experimentů – např. rozpis toho, na jaké úrovni budou nastaveny při tomto experimentu uvažované faktory. Každý řádek v tomto plánu reprezentuje konkrétní experimentální pokus, který bude realizován. Vlastní postup při návrhu experimentů budeme později demonstrovat na konkrétním příkladu Pružina. Experimenty můžeme provádět buďto v laboratorních nebo přímo v provozních podmínkách. Při experimentování ve výrobě můžeme narazit na „střety zájmů“ mezi potřebným množstvím produkce na jedné straně a mezi potřebným časem na experimenty, který snižuje vlastní produktivní čas výroby, na straně druhé. V praxi je obvyklé řešit tento problém tak, že se experimenty provádějí mimo pracovní dobu, např. na zvláštních nočních směnách, o sobotách a nedělích, apod. Kdykoli je to možné, měli bychom také experimenty provádět v náhodném pořadí. Analýza výsledků experimentů spočívá především v nalezení kombinace faktorů, která dává nejlepší výsledek z hlediska sledovaného znaku jakosti a dále v určení relativního podílu jednotlivých faktorů na jakosti výstupu. Na závěr provádíme verifikaci výsledků ověřovacími experimenty. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 109 PŘÍKLAD 1 V následujícím příkladu Pružina, který je proložen výkladem, se seznámíme se sestavením tabulky faktorů, s tzv. úplným faktorovým plánem a s pojmem kódovaná proměnná. Obojí tvoří základ plánování experimentů. Sleduje se, kolik stlačení (znak Y) vydrží pružina až do svého zničení v závislosti na těchto faktorech: L = délka pružiny, G = tloušťka drátu pružiny, T = typ materiálu pružiny. Má se zjistit, které faktory jsou rozhodující pro životnost pružiny. ŘEŠENÍ Sestavme tabulku faktorů s jejich uvažovaných úrovněmi: pro každý faktor uvažujeme právě dvě úrovně, a proto se také v této souvislosti hovoří o dvouúrovňových plánech (existují také tříúrovňové plány, ale jsou méně typické): Tabulka 44: seznam faktorů a jejich úrovně faktor označení dolní úroveň horní úroveň - + délka pružiny L 10 cm 15 cm tloušťka drátu G 5 mm 7 mm materiál T A B Existuje více způsobů jak sestavit plán, podle kterého se budou provádět jednotlivé pokusy. Mezi nejpoužívanější plány patří tzv. úplný faktorový plán, který v daném případě vypadá takto: Tabulka 45: úplný faktorový plán pokus L G T Y 1 10 5 A 2 15 5 A 3 10 7 A 4 15 7 A 5 10 5 B 6 15 5 B 7 10 7 B 8 15 7 B O úplném plánu se hovoří z toho důvodu, že v tabulce jsou obsaženy všechny možné kombinace úrovní všech uvažovaných faktorů. Symbol Y představuje výsledek pokusu, tj. odezvu na konkrétní zvolenou kombinaci faktorů, která je obsažena v daném řádku tabulky. 8 ÚPLNÉ FAKTOROVÉ PLÁNY - 110 Uvedený plán experimentu je je nicméně výhodnější psát pomocí následující symboliky: Je-li každý z faktorů uvažován na dvou úrovních, je jeho dolní úroveň značena -1 (nebo jen „-„ ) a horní úroveň +1 (resp. „+“). Tabulka 45 potom má tvar tabulky 46. Tabulka 46: úplný plán s kódováním pokus L G T Y 1 -1 -1 -1 2 +1 -1 -1 3 -1 +1 -1 4 +1 +1 -1 5 -1 -1 +1 6 +1 -1 +1 7 -1 +1 +1 8 +1 +1 +1 Přepočet původních proměnných na tzv. kódované proměnné se může provést nejen pro krajní hodnoty maxx (= +1) a minx (= – 1) takto: 8-1 max min 0 max min 2 2 c x x x x x x     , kde 0 x je proměnná v původních jednotkách, cx je kódovaná proměnná, maxx horní úroveň x, minx dolní úroveň x. Například přepočet L pro dolní hodnotu 10 je 15 10 10 2 1 15 10 2 cL       nebo pro horní úroveň G = 7 bude kódovaná hodnota 7 5 7 2 1 7 5 2 cG       . Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 111 Počet pokusů, ze kterých je sestaven úplný experiment, se vypočítá při k faktorech pomocí vztahu 2k n  , takže zde při k = 3 faktorech je počet pokusů 3 2 8.n   Proto má tabulka osm řádků. Jestliže je plánem experimentu stanoveno, za jakých podmínek se provádí jednotlivé pokusy, je možné provést celý experiment a zaznamenat hodnoty sledovaného ukazatele Y. V našem případě byl každý pokus opakován právě dvakrát. Výsledky jsou v tabulce 47: Tabulka 47: úplný plán s výsledky měření pokus faktor faktor faktor výsledek výsledek průměr L G T 1Y 2Y Y 1 - - - 77 81 79 2 + - - 98 96 97 3 - + - 76 74 75 4 + + - 90 94 92 5 - - + 63 65 64 6 + - + 82 86 84 7 - + + 72 74 73 8 + + + 92 88 90 Sestavením celé tabulky 47 skončily přípravné a experimentální práce. Dále následují výpočty, jejichž cílem bude stanovit, které z faktorů ovlivňují významným způsobem životnost pružiny Y. Vzhledem k tomu, že pro určení optimální úrovně faktorů a pro sestavení modelu je důležité také vědět, které dvojice faktorů mají vzájemně významnou interakci, počítá se rovněž i vliv interakcí na Y. Může jít přitom nejen o dvoučlenné interakce, ale v případě celkem tří faktorů také o trojčlennou interakci: LG, LT, GT, LGT. Takové interakce se doplňují do tabulky, tj. původní tabulka se rozšíří o nové sloupce, a znaménka v těchto nových sloupcích se získají jako součin znamének ze stejného řádku a ze sloupců, z „jejichž záhlaví je interakce sestavena“: tj. např. pro interakci LG si všímáme znamének ve sloupcích se záhlavím L a G. Výsledek takového postupu je obsažen v tabulce 48. Tabulka 48: úplný plán zahrnující interakce pokus L G T LG LT GT LGT 1 - - - + + + - 2 + - - - - + + 3 - + - - + - + 4 + + - + - - - 5 - - + + - - + 6 + - + - + - - 7 - + + - - + - 8 + + + + + + + 8 ÚPLNÉ FAKTOROVÉ PLÁNY - 112 - 8.3 EFEKT (VLIV) FAKTORU A JEHO VÝZNAMNOST Efektem faktoru se rozumí změna ukazatele kvality Y, kterou způsobí přechod tohoto faktoru z dolní úrovně (-) na horní úroveň (+). Princip znaménkové metody, kterou budeme používat při výpočtu efektu faktoru, spočívá v tom, že se sečtou hodnoty ve sloupci Y, avšak každá původní hodnota v tomto sloupci je před součtem „obohacena“ o znaménko, odpovídající znaménku u příslušného faktoru v odpovídajícím řádku. Takový součet se pak vydělí číslem n/2, kde n je celkový počet experimentálních pokusů. Například pro faktor L v našem příkladě Pružina bude hodnota efektu faktoru L rovna číslu     1 79 97 75 92 64 84 73 90 18 4 efekt L           . Hodnota efektu faktoru T bude     1 79 97 75 92 64 84 73 90 8 4 efekt T            . Podobně se postupuje u interakcí. Například pro interakci LG dá znaménková metoda velikost efektu     1 79 97 75 92 64 84 73 90 1. 4 efekt LG           Dále vypočtěme efekty zbývajících faktorů a jejich interakcí a doplňme je do tabulky 49. Tabulka 49: efekty faktorů v úplném plánu číslo L G T LG LT GT LGT Y 1 - - - + + + - 79 2 + - - - - + + 97 3 - + - - + - + 75 4 + + - + - - - 92 5 - - + + - - + 64 6 + - + - + - - 84 7 - + + - - + - 73 8 + + + + + + + 90 efekt 18 1,5 -1 -8 0,5 6 -0,5 Abychom zjistili, zda faktory, resp. interakce faktorů jsou statistiky významné, potřebujeme ještě vypočítat rozptyl efektu faktoru, přesněji jeho odhad. Rozptyl efektu faktoru 2 e , který je stejný pro všechny faktory, má tvar: 8-2 2 2 4 e N    , kde N je celkový počet pokusů (včetně opakování, pokud se pokusy opakují), tzn. v našem případě 16N , neboť tabulka má osm řádků – osm pokusů a pro každý z těchto pokusů jsou obdržena dvě měření. V případě opakovaných pokusů se 2  odhadne pomocí veličiny 2 s , která se vypočítá dle vztah Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 113 - 8-3 2 2 2 1 1 1 ... ... k k k s s s          , kde 1i in   , in je počet opakování (měření) při i -tém pokusu a 2 is je rozptyl měření Y z itého pokusu. Obdržíme tak odhad rozptylu 8-4 2 2 4 e s s N  . 8.3.1 STATISTICKÝ TEST VÝZNAMNOSTI EFEKTU FAKTORU Odhad rozptylu efektu se použije k testování významnosti efektu faktoru. Celý test vypadá takto: 1. Nulová hypotéza Ho: Efekt faktoru je nevýznamný vs. alternativní hypotéza H1: Efekt faktoru je významný. 2. Testové kriterium má tvar e efekt t s  . 3. Kritická hodnota K =  1 2 ... kn n n nt     , kde 1,..., kn n jsou počty opakování pokusů; v našem příkladě s pružinou je 2in pro všechna i, n je počet pokusů bez opakování (počet řádků experimentálního plánu). Jak je vidět, kritická hodnota se týká t-rozdělení. 4. Závěr testu: pro  1 2 ... kn n n nt t     se zamítá nulová hypotéza, což znamená, že efekt a tedy příslušný faktor je významný. V opačném případě je nevýznamný. PŘÍKLAD 2 Vraťme se opět k příkladu Pružina a vypočtěme potřebné hodnoty pro realizaci testu:    1 2 ... 16 8 0,05 2,306kn n n nt t      . Hodnotu veličiny 2 s vypočteme ze vztahu 8-3: 5 8 828282282   s a výsledek dosadíme do vztahu 8-4. Dostáváme: 2 2 4 4 5 1,25 16 e s s N     , tj. 1,12es  . 8 ÚPLNÉ FAKTOROVÉ PLÁNY - 114 Můžeme nyní vypočítat testová kritéria a otestovat vliv všech faktorů včetně interakcí. Testová kritéria t jsou uvedena v tabulce 50. Tabulka 50: test významnosti efektů faktorů pokus Y1 Y2 efekt t 1 77 81 8 2 98 96 2 L = 18 16,07 3 76 74 2 G = 1,5 1,34 4 90 94 8 LG = -1,0 -0,89 5 63 65 2 T = -8,0 -7,14 6 82 86 8 LT = 0,5 0,45 7 72 74 2 GT = 6,0 5,36 8 92 88 8 LGT =-0,5 -0,45 Kritickou hodnotu K = TINV(0,05,8) = 2,306 převyšuje v absolutní hodnotě testové kriterium faktorů L, T a interakce GT. To jsou tedy významné faktory a interakce, ostatní faktory vliv na životnost pružiny nemají. 8.3.2 GRAFICKÉ HODNOCENÍ VÝZNAMNOSTI EFEKTU Pokud se neprovádí opakování jednotlivých měření, nelze použít výše uvedenou metodu testování významnosti efektu faktoru. V takovém případě se užívá grafická metoda k určování významných faktorů. V grafu se na vodorovnou osu vynášejí efekty a na svislou osu hodnoty 8-5  100 0,5 i i P m   , kde i = 1,2, ..., m , m je počet faktorů včetně interakcí. Přesněji řečeno, do grafu se vynášejí body [efekt(i), Pi], kde efekt(i) je i-tý nejmenší efekt ze všech spočtených efektů. Za významné se následně považují ty faktory, které se nacházejí výrazně mimo hlavní přímku vedenou prostředními body grafu. Pokud graf vykazuje esovitý tvar, bude obsahovat body, které se od této přímky odklánějí. Právě takové body naznačují, které faktory jsou vlivné. Při použití grafické metody je užitečné údaje sestavit do pomocné tabulky 51, ve které jsou efekty ve druhém řádku uspořádány vzestupně. Tabulka 51: pomocné údaje pro grafické hodnocení významnosti faktorů Číslo 1 2 3 4 5 6 7 Efekt -8,0 -1,0 -0,5 0,5 1,5 6,0 18 Faktor T LG LGT LT G GT L iP 7,14 21,42 35,71 50 64,29 78,57 92,86 Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 115 Graf, sestrojený z údajů ve druhém řádku (vodorovná osa) a čtvrtého řádku (svislá osa) vypadá následovně: Obrázek 12: graf bodů pro vyhodnocení významnosti efektů faktorů V grafu je vidět, že mimo hlavní linii jsou ty faktory, u nichž testovací kritérium překročilo kritickou hodnotu. Jsou to faktory L (nejvýrazněji), T a interakce GT. 8.3.3 GRAFY INTERAKCÍ Pro významné interakce se sestrojují grafy umožňující diskuzi o optimální úrovni jednotlivých faktorů, jež v této interakci vystupují. Tak například pro významnou interakci GT můžeme sestrojit graf vlivu G na ukazatel kvality Y v závislosti na úrovni faktoru T. Z tabulky úplného plánu vybereme údaje, které odpovídají příslušným úrovním faktorů G a T. Hodnoty zaznamenáme do nové tabulky 52 doplněné o průměrné hodnoty odezvy Y. Tabulka 52: odezvy na různé kombinace interakcí G T Odezva 1 Odezva 2 Průměr Y - - 79 97 88 + - 75 92 83,5 G T Odezva 1 Odezva 2 Průměr Y - + 64 84 74 + + 73 90 81,5 Spojením bodů    5, 88 , 7, 83,5 dostaneme průměrnou odezvu Y na změnu úrovně faktoru G, je-li úroveň faktoru T fixována na své dolní hladině. Spojením bodů    5, 74 , 7, 81,5 dostaneme průměrnou odezvu Y na změnu úrovně faktoru G, je-li úroveň faktoru T fixována na své horní hladině (viz obrázek 13). 8 ÚPLNÉ FAKTOROVÉ PLÁNY - 116 Obrázek 13: graf interakcí Z obrázku 13 je vidět, že např. pro maximalizaci Y je nejlepší T na dolní úrovni (– T). Je také vidět, že interakce má jistý vliv na Y, jelikož průběh vlivu G se mění se změnou úrovně T. 8.4 MODEL EXPERIMENTU 23 Jakmile je stanoven efekt faktorů a jejich interakcí, je možné sestavit regresní model experimentu vyjadřující závislost sledovaného znaku Y na faktorech a jejich interakcích. Neúplný kvadratický model experimentu 3 2 s faktory A, B, C má tvar 8-6 0 1 2 3 12 13 23 123 ˆy b b A b B b C b AB b AC b BC b ABC        . Jde o regresi, v níž vystypují jako vysvětlující proměnné všechny hlavní faktory a všechny jejich interakce, avšak nikoliv druhé mocniny hlavních faktorů. Koeficienty 1 2 123, ,...,b b b se vypočítají jako polovina efektu příslušného faktoru, u něhož se nacházejí. Absolutní člen .0 Yb  Tyto odhady odpovídají metodě nejmenších čtverců aplikované na speciální matici regresorů X. Do modelu experimentu jsou zařazeny jen vlivné faktory a interakce, jelikož nevlivné faktory mohou zhoršit statistické vlastnosti nalezené regrese. V našem příkladě s pružinou dostáváme například regresní vztah ˆy = 81,75 + 9L – 4T + 3GT. Model experimentu má mnohostranné použití. Mezi nejvýznamnější patří: 1. určení lokálně optimálních hodnot faktorů, 2. stanovení směru tzv. dynamického plánování experimentů, 3. lokální predikce ukazatele kvality ˆy . SHRNUTÍ Tato kapitola nás seznámila s plánováním experimentů. Lze sestavit úplný faktorový plán nebo, pokud jsme okolnostmi omezeni, částečný faktorový plán, o němž blíže pohovoříme v kapitole následující. Každý faktor nějakým způsobem ovlivňuje ukazatele kvality Y – jde o efekt faktoru, který je způsoben přechodem tohoto faktoru z dolní úrovně (-) Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 117 na horní úroveň (+). Lze testovat statistickou významnost tohoto efektu, jak bylo uvedeno na konkrétním příkladu, a to statistickým testem nebo grafickou metodou. Plánované experimenty se řídí plánem experimentu. Plán experimentu stanovuje počet pokusů, ze kterých se experiment skládá, podmínky, za kterých se jednotlivé pokusy uskuteční i pořadí pokusů. Z uvedeného je zřejmé, že se zde rozlišuje význam pojmů pokus = zjištění hodnoty ukazatele kvality za určitých předem daných podmínek výroby a experiment = systém všech pokusů. Cílem plánování experimentů je rozhodnout, které z faktorů (A, B, C, D, ...) významným způsobem ovlivňují ukazatel kvality Y a určit optimální úrovně významných faktorů s ohledem na optimalizaci a stabilitu Y. Stabilitou v bodě se rozumí, že Y je optimální i při různých vnějších podmínkách (prostředí, zacházení s výrobkem apod.). Hovoří se o tzv. robustnosti výrobku. Poznali jsme pojmy jako: plán experimentu, pokus, experiment, faktorový plán, efekt faktorů, test významnosti efektu, grafické hodnocení efektu faktorů, regresní model experimentu. Následují některé další řešené příklady. PŘÍKLAD 3 Pro faktory A, B byl sestaven úplný plán. Každý pokus se opakoval dvakrát. Výsledky jsou uvedeny v tabulce 53 Tabulka 53: výsledek experimentu se dvěma faktory A B 1Y 2Y - - 5 6 + - 5 5 - + 7 6 + + 5 4 Vypočtěte: a. efekty faktorů A, B a efekt interakce faktorů AB, b. napište rovnici neúplného kvadratického modelu experimentu, c. rozptyl odhadu efektu faktorů, d. testujte, zda jsou faktory A, B, AB statisticky významné (alfa = 5%). ŘEŠENÍ a. Pro výpočet efektu faktorů A, B a efekt interakce faktorů AB doplníme tabulku 53 o průměrné hodnoty znaku Y v jednotlivých pokusech: 8 ÚPLNÉ FAKTOROVÉ PLÁNY - 118 Tabulka 54: průměrná odezva na různé kombinace faktorů A B 1Y 2Y Y - - 5 6 5,5 + - 5 5 5 - + 7 6 6,5 + + 5 4 4,5 Pro efekty faktorů A, B a efekt interakce AB dostáváme:   1 5,5 5 6,5 4,5 1,25 2 Ae        ,   1 5,5 5 6,5 4,5 0,25 2 Be       ,   1 5,5 5 6,5 4,5 0,75 2 ABe       . b. Rovnice modelu experimentu je 1,25 0,25 0,75 ˆ 5,375 2 2 2 y A B AB    . c. Rozptyl odhadu efektu faktoru: 2 2 4 e s s N  , kde 2 0,25 0 0,25 0,25 0,1875. 4 s      2 4 0,1875 0,094. 8 es    Směrodatná odchylka efektu faktoru je 0,31es  . d. Testujeme nulovou hypotézu: :0H efekt faktoru (interakce) není statisticky významný, proti alternativní hypotéze: :1H efekt faktoru (interakce) je statisticky významný. Testové kritérium e efekt t s  . Pro jednotlivé faktory dostáváme: 4,03At   , 0,8Bt  , 2,41ABt   . Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 119 Hodnoty porovnáváme s kritickou hodnotou Studentova rozdělení    8 40,05 0,05 2,776N nt t   . N označuje počet provedených pokusů včetně opakování, n počet pokusů bez opakování. Protože 4,03 2,776, 0,8 2,776, 2,41 2,776     , je statisticky významný jen faktor A. PŘÍKLAD 4 Pomocí grafické metody zjistěte, které z faktorů jsou významné, jestliže jsou dostupné následující hodnoty uvedené v tabulce 55. Tabulka 55: vstupní údaj pro grafické hodnocení faktorů i 1 2 3 4 5 6 7 Efekt -8 -1 -0,5 0,5 1,5 6 18 Faktor C AB ABC AC B BC A iP ŘEŠENÍ Dopočteme poslední řádek v tabulce 55 podle vztahu:  100 0,5 i i P m   , mi ,...,2,1 , m je počet faktorů a interakcí, zde m = 7: Tabulka 56: vstupní údaj pro grafické hodnocení faktorů včetně ukazatele iP i 1 2 3 4 5 6 7 Efekt -8 -1 -0,5 0,5 1,5 6 18 Faktor C AB ABC AC B BC A iP 7,14 21,42 35,71 50 64,29 78,57 92,86 Zkonstruujeme graf z bodů [seřazený efekt, jeho Pi]: Obrázek 14: grafické hodnocení faktorů 8 ÚPLNÉ FAKTOROVÉ PLÁNY - 120 Na hlavní přímce procházející středem grafu neleží hodnoty: 92,86; 7,14; 78,57. To signalizuje, že vlivnými faktory jsou faktory A, C, BC. KONTROLNÍ TEST 8 8.1 Plán experimentu stanovuje jen pořadí pokusů. 8.2 Úplný experiment, který má 4 faktory, je sestaven z 8 pokusů. 8.3 Efekt faktoru nabývá jen kladných hodnot. 8.4 Při testování významnosti efektu faktorů se porovnává testové kritérium s kritickou hodnotou Fischerova rozdělení. 8.5 Při grafické metodě určování významnosti faktorů se za významné považují ty faktory, které se nacházejí významně mimo hlavní linii grafu. 8.6 Experiment je systém všech __________ 8.7 Počet pokusů, ze kterých je sestaven úplný experiment (při 3 faktorech), je roven __________ 8.8 Nulová hypotéza při testování významnosti efektu faktorů zní: Efekt faktoru je __________ 8.9 Grafická metoda určování významných faktorů bývá používána tehdy, pokud se neprovádí __________ __________ __________ 8.10 Při grafické metodě určování významných faktorů se v grafu na vodorovnou osu vynáší efekt faktoru a na svislou osu pravděpodobnost, která je dána vztahem __________ 8.11 Doplňte do tabulky kódované hodnoty pro úplný plán: Pokus A B 1 2 3 4 8.12 Pro faktory A, B byl sestaven úplný plán. Každý pokus se opakoval dvakrát. Výsledky jsou v tabulce. A B 1Y 2Y - - 2,3 2,6 + - 3,1 2,9 - + 3 3,5 + + 1,9 2,2 Vypočtěte: a. efekt faktoru A, B a AB, b. model experimentu, c. odhad rozptylu efektů faktorů 8.13 Testujte na hladině významnosti 0,05, zda jsou efekty faktorů A, B a efekt interakce AB Z příkladu 8.12 statisticky významné. 8.14 Nakreslete graf interakce faktorů A a B z příkladu 8.12. Znázorněte vliv faktoru A na Y v závislosti na B. Pro jaké B se maximalizuje Y? Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 121 ŘEŠENÍ KONTROLNÍHO TESTU 8 8.1 ne 8.2 ne 8.3 ne 8.4 ne 8.5 ano 8.6 pokusů 8.7 823  8.8 bezvýznamný 8.9 opakování jednotlivých pokusů 8.10.  100 0,5 ,i i P m   kde mi ,...,2,1 a m je počet faktorů a interakcí. 8.11. Pokus A B 1 - - 2 + - 3 - + 4 + + 8.12. a. efekt(A) = – 0,325; efekt(B) = – 0,075; efekt(AB)= – 0,875. b. 2,69 0,1625 0,0375 0,4375Y A B AB    . c. 2 s = 0,029; es = 0,12. 8.13. Statisticky významný je pouze efekt interakce AB, protože 7,29 2,776  . 8.14. Z grafu je vidět, že pro maximální hodnotu Y je nejlepší B na horní úrovni a interakce má vliv na Y, protože úsečky se kříží. 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI - 122 - 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI V předcházející kapitole jsme se seznámili s úplnými faktorovými plány. Ne vždy je ale možné sestavit úplný faktorový plán, ať už z důvodů finančních, časových nebo jiných. V takových případech se přistupuje k částečnému plánování. V této kapitole se dovíte, že podle stupně snížení se částečné faktorové plány dělí na plány s nejnižším snížením, nejvyšším snížením a na středové plány. V této kapitole se budeme zabývat zejména problematikou tzv. polovičních plánů. V úplném faktorovém experimentu se sestavuje plán experimentu pro každý faktor. U částečného faktorového experimentu se plán sestaví jen pro několik faktorů (pro tzv. hlavní faktory) a ostatní faktory (vedlejší faktory) se vyjádří jako kombinace hlavních faktorů. Tím se dosáhne snížení počtu experimentálních pokusů. Je-li 2k označení pro úplný experiment, kde 2 = počet úrovní faktorů a k = počet faktorů, pak pk 2 je označení pro částečný faktorový experiment, přičemž p označuje stupeň snížení. Chceme-li například v plánu 27 , který představuje n = 128 pokusů, snížit počet pokusů na polovinu, tj. na 17 7 2 2 2   , dostáváme částečný faktorový experiment, který představuje 642 17   n pokusů, tedy polovinu. Je to nejmenší možné snížení počtu pokusů. Plány se snížením počtu pokusů na polovinu se nazývají poloviční plány. Stupeň snížení p může být i vyšší než 1, například 47 2  , kde bude jen n = 8 pokusů. To je pro k = 7 faktorů největší možné snížení. Největší možné snížení vychází z pravidla, podle kterého počet pokusů nesmí být menší než počet faktorů. Musí tedy platit n k . V uvedeném případě k = 7 a 7 4 2 8n    . Například pro k = 15 faktorů je nejvyšší možné snížení 1115 2  , neboť je potom n = 16 a k = 15. Pokud bychom provedli ještě vyšší snížení, např. 1215 2  , potom k = 15, ale n = 8, takže n < k. Mezi plány s nejmenším (polovičním) a největším snížením počtu pokusů může být ještě řada možností snížení. Takové plány se nazývají středové. Například mezi 27-1 a 27-4 jsou plány 27-2 , 27-3 . Částečné faktorové plány lze tedy rozdělit na a. plány s nejnižším snížením, tzv.poloviční plány, b. plány s nejvyšším snížením, c. plány se snížením mezi a) a b), tzv. středové plány. Mezi nejvýznamnější patří poloviční plány, kterými se budeme zabývat v další subkapitole. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 123 - 9.1 POLOVIČNÍ PLÁNY Nejprve zavedeme pojmy, se kterými budeme dále pracovat. Tyto pojmy pak budou dokresleny konkrétním příkladem Barvivo, který je řešen v této kapitole. Označme symbolem I faktor, který ve svém sloupci tabulky představující plán experimentu obsahuje jen znaménka „+“. Takový faktor se nazývá jednotkový. Zaveďme operaci násobení faktorů: násobek dvou faktorů bude mít za výsledek faktor, jehož sloupec v tabulce plánu experimentu bude obsahovat v daném řádku „+“, pokud se v tomto řádku u obou faktorů – členů násobení vyskytují znaménka „+“ nebo znaménka „-“; při ostatních kombinacích znamének bude mít operace násobení za výsledek znaménko „-“ v daném řádku výsledného faktoru. Pokud takto definujeme násobení, platí A.A = I A.I = I.A = A (A.B).C = A.(B.C) A.B = B.A Předpokládejme, že A, B, C, D, E jsou faktory, pro které se má sestavit poloviční plán. Je třeba určit 4 hlavní faktory (například A, B, C, D), pro které se sestaví úplný plán a zbývající (vedlejší) faktor E se vyjádří jako kombinace hlavních faktorů, například E = ABCD. Tím se provede poloviční počet pokusů odpovídajících různým nastavením hlavních faktorů, kterých je nyní o jeden faktor méně. Každá kombinace faktorů tvoří slovo. Slovo se skládá z písmen (faktorů). Počet písmen ve slově je délka slova. Vztah E = ABCD se nazývá generátor plánu. V plánu pk 2 je p generátorů. Vynásobením generátoru faktorem E dostaneme rovnici E.E = E. ABCD a s využitím vlastností operací s faktory tak máme vztah I = ABCDE. Slova, která jsou rovna jednotkovému faktoru I, se nazývají definiční rovnice. Definičních rovnic může být i více. Nejkratší slovo v definičních rovnicích je tzv. řešení plánu a zapisuje se k typu plánu římským číslem jako index. Zde např. 15 2  V . Řešení plánu je V proto, že slovo v definiční rovnici má 5 písmen (faktorů). Pomocí definiční rovnice lze najít dvojice faktorů (resp. interakcí), které mají stejnou posloupnost znamének ve svém sloupci tabulky reprezentující plán experimentu. Nazývají se zaměnitelné dvojice. Je-li například generátor plánu ve tvaru E = ABCD, pak definiční rovnice bude I = ABCDE. Například zaměnitelnou interakci k interakci DE nalezneme vynásobením definiční rovnice touto interakcí I = ABCDE /. DE DE.I = DE.ABCDE. Odtud dostáváme DE = ABC. 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI - 124 Práci s polovičními plány nyní ukazuje následující příklad Barvivo. PŘÍKLAD 1 Zkoumejme množství barviva Y, které zůstane na látce po absolvování testů (ve srovnání se standardním vzorkem) v závislosti na těchto pěti faktorech: A = pH, B = teplota, C = koncentrace roztoku, D = dokončovací teplota, E = dokončovací čas. Sestavme poloviční plán experimentu a najděme nevýznamnější faktory, které ovlivňují množství barviva na látce. Potřebné údaje jsou uvedeny v tabulce 57. Tabulka 57: vstupní údaje pro poloviční plán Faktor Symbol - + pH A 4,5 5,5 teplota B C0 70 C0 80 koncentrace C 1 g/l 3 g/l d.teplota D C0 170 C0 190 d.čas E 50s. 70s. ŘEŠENÍ Sestavme tedy poloviční plán experimentu, kde A, B, C, D jsou hlavní faktory a faktor E je vedlejším faktorem. Výsledky pokusů pro jednotlivé úrovně faktorů jsou zaznamenány v tabulce 58. Tabulka 58: výsledek experimentu Pokus A B C D E =ABCD Y 1 - - - - + 6,4 2 + - - - - 9,9 3 - + - - - 8,1 4 + + - - + 6,6 5 - - + - - 9,0 6 + - + - + 5,3 7 - + + - + -5,1 8 + + + - - -1,0 9 - - - + - 10,6 10 + - - + + 12,7 11 - + - + + 12,9 12 + + - + - 11,2 13 - - + + + 2,4 14 + - + + - 9,7 15 - + + + - 4,1 16 + + + + + 4,0 Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 125 Výpočet efektu faktorů se provede stejně, jako u úplného plánu. Např. pro efekt D je   1 ( ) 6,4 9,9 ... 1 10,6 12,7 ... 4 4,8 8 efekt D            . Analogicky vypočítáme i efekty ostatních faktorů a interakcí. Avšak tím, že pracujeme s polovičním plánem, vzniknou při tvorbě interakcí zaměnitelné dvojice, tj. faktory, které mají stejné sloupce znamének v tabulce plánu experimentu. Efekt vypočítaný pro daný faktor pak náleží nejen tomuto faktoru, ale také všem zaměnitelným dvojicím. Tento fakt je vyjádřen tabulkou 59. Kdyby toto přiřazení efektu všem faktorům, které jsou vůči sobě zaměnitelné, neproběhlo, efekt by ztratil intepretaci, kterou měl dosud u úplných plánů. Tabulka 59: efekty v polovičním plánu Faktor Efekt A + BCDE 0,0 B + ACDE -4,4 C + ABDE -5,0 D + ABDE 4,8 E + ABCD -0,8 AB + CDE 0,2 AC + BDE -0,6 AD + BCE -0,6 AE + BCD 0,5 BC + ADE -4,2 BD + ACD 1,1 BE + ACD -0,2 CD + ABE 0,7 CE + ABD -0,5 DE + ABC 2,4 Tedy například hned první nulový efekt náleží společnému působení faktorů A a interakci BCDE, která je zde zaměnitelnou dvojicí pro faktor A. 9.2 GRAFICKÁ METODA HODNOCENÍ EFEKTU FAKTORU Použití grafické metody je opět podobné jako u úplných plánů. Nejprve vypočteme hodnotu pravděpodobností ze vztahu 8-5: Tabulka 60: vstupní seřazené údaje pro grafické hodnocení faktorů i 1 2 3 4 5 6 Faktor C + ABDE B + ACDE BC + ADE E + ABCD AD + BCE AC + BDE Efekt -5 -4,4 -4,2 -0,8 -0,6 -0,6 iP 3,3 10 16,6 23,3 30 36,6 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI - 126 i 7 8 9 10 11 12 Faktor CE + ABD BE + ACD A + BCDE AB + CDE AE + BCD CD + ABE Efekt -0,5 -0,2 -0,0 0,2 0,5 0,7 iP 43,3 50 56 63,3 70 76,6 i 13 14 15 Faktor BD + ACD DE + ABC D + ABCE Efekt 1,1 2,4 4,8 iP 83,3 90 96,6 Z těchto hodnot sestrojíme graf, kde na osu x nanášíme efekt a na osu y hodnotu příslušné pravděpodobnosti iP : Obrázek 15: grafické hodnocení faktorů Pokud bychom sestavili úplný plán a sestrojili graf pro vyhodnocení vlivných faktorů, dostali bychom obdobný výsledek jako u polovičního plánu, jak je patrné z obrázku 15. Porovnáme-li grafy pro úplný a poloviční plán, pak poloviční plán dává stejné hodnocení jako úplný plán. Znamená to tedy, že snížením počtu pokusů na polovinu nedošlo ke ztrátě informace a tím ke změně výsledků. Kdybychom však porovnali numerické hodnoty efektů faktorů a jejich interakcí v úplném a polovičním plánu, zjistíme, že nejsou stejné. Navíc jsou v tabulce 60 uváděny efekty pro součet, například pro A + BCDE, B + ACDE apod. Jsou-li u interakcí ABC a DE stejné posloupnosti znamének, náleží efekt oběma faktorům. Součty efektů v tabulce jsou uváděny proto, že vypočítaný efekt patří oběma interakcím. Neznamená to ale, že na každou z interakcí připadá právě polovina tohoto efektu! Kolik celkového efektu připadá na jednotlivé sčítance nelze obecně zjistit. Využívá se ale poznatek, že čím delší je „slovo“ tvořící faktor, tím menší má vliv na celkový efekt. Snahou je proto dostat do kombinací krátké slovo (sólový faktor) s co nejdelším slovem, respektive interakcí. To lze ovlivnit vhodnou volbou definičních rovnic. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 127 PŘÍKLAD 2 Mějme pět faktorů A, B, C, D, E. Faktor E je vedlejším faktorem. Faktor E je možné vyjádřit mnoha způsoby. Porovnejme tyto dva: a. E = AB, b. E = ABCD. ŘEŠENÍ Příslušné definiční rovnice jsou a. I = ABE b. I = ABCDE V případě a) máme plán 15 2  III , v případě b) plán 15 2  V . Tento druhý plán je lepší, neboť má řešení plánu V, takže při hledání zaměnitelných dvojic, například k A, máme a. A = BE b. A = BCDE V případě b) tvoří zaměnitelnou dvojici s A interakce více faktorů, která má proto menší podíl na celkovém efektu. U více delších než dvoufaktorových interakcí dokonce tak malý, že se zanedbává – v našem příkladě by se pak pracovalo pouze s faktorem A. Tím se usnadňuje diskuse k vypočítanému efektu: přestože efekt náleží dvěma faktorům, podstatná část připadá na „čistý“ faktor a prakticky zanedbatelná část na interakci, která tvoří zaměnitelnou dvojici k tomuto faktoru. SHRNUTÍ Po prostudování této kapitoly jste se dověděli, že u částečného faktorového experimentu se plán sestaví jen pro několik faktorů – to jsou hlavní faktory. Ostatní – vedlejší faktory se vyjádří jako kombinace hlavních faktorů, čímž se dosáhne snížení počtu pokusů. Seznámili jste se také s grafickou metodou pro určení vlivných faktorů v polovičním plánu a také víte, že volbou definiční rovnice lze ovlivnit podobu zaměnitelných dvojic k danému faktoru, čehož se využívá k tomu, aby byla srozumitelnější interpretace velikosti efektu připadajícího na faktor. Poznali jste pojmy jako: hlavní faktory, vedlejší faktory, poloviční plány, zaměnitelné dvojice, definiční rovnice. Následují některé další řešené příklady. PŘÍKLAD 3 Pro faktory A, B, C, D byl sestaven poloviční plán. a. Doplňte jeden chybějící údaj v tabulce, b. Pomocí grafické metody rozhodněte, který faktor je statisticky významný. 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI - 128 Vstupní hodnoty jsou v tabulce 61. Tabulka 61: hodnoty efektů a pravděpodobností faktor efekty i iP A + BCD 1 3 35,7143 B + ACD -0,5 2 21,4286 C + ABD -4 1 D + ABC 3 4 50 AB + CD 9 6 78,5714 AC + BD 6 5 64,2857 AD + BC 17 7 92,8571 ŘEŠENÍ a) Chybějící hodnotu v tabulce 61 vypočteme na základě vztahu 8-5:  100 0,5 i i P m   . Dostáváme   1 100 1 0,5 7,14 7 P    . b) Ze sestrojeného grafu 16 vyplývá, že za významné faktory lze považovat interakce AD, BC a faktor C. Obrázek 16: grafické hodnocení významnosti faktorů 0 10 20 30 40 50 60 70 80 90 100 -5 0 5 10 15 20 P(i) efekt Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 129 PŘÍKLAD 4 Pro faktory A, B, C, D byl sestaven částečný (poloviční) plán s generátorem D = ABC. Výsledky experimentu jsou v tabulce 62. a. Vypočtěte efekt jednotlivých faktorů a interakce trojic a čtveřice. b. Pomocí interakcí 3 a 4 odhadněte rozptyl efektu faktorů (novinka!). c. Napište definiční rovnici a najděte zaměnitelné dvojice. d. Proveďte grafické hodnocení efektu faktoru. Tabulka 62: výsledky experimentu v polovičním plánu A B C D = ABC Y ABC ABD BCD ACD ABCD - - - - 77 + - - + 67 - + - + 64 + + - - 51 - - + + 64 + - + - 53 - + + - 73 + + + + 67 ŘEŠENÍ a) V tabulce doplňme znaménka a vypočtěme efekty znaménkovou metodou:   1 77 67 64 51 64 53 73 67 10 4 A BCDe e            ; 1,5B ACDe e   ; 0,5C ABDe e   ; 2D ABCe e  ; 129ABCDe  . b) Pokud se pokusy neopakují, pak 2 s počítá jako průměr druhých mocnin efektu nejvyšších interakcí:       2 2 22 2 2 2 2 2 0,5 10 1,5 129 3349,5 5 4. 1674,75 40,9.e e s s s s n              c) Po vyjádření faktoru D = ABC má definiční rovnice tvar: I = ABCD. Zaměnitelné dvojice jsou AB, CD; AC, BD; AD, BC. d) Sestavíme tabulku 63 a pak na osu x naneseme efekty faktorů a na osu y pravděpodobnosti dané vztahem:  100 0,5 i i P m   , mi ,...,2,1 . 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI - 130 Tabulka 63: efekty faktorů v polovičním plánu Faktor Efekt i Pi A + BCD -20 1 7,14 B + ACD -3 2 21,42 C + ABD -1 3 35,71 D + ABC 4 6 78,57 AB + CD 1 4 50 AC + BD 3 5 64,28 AD + BC 26 7 92,85 Připomínáme, že v tabulce 63 jsou uváděny efekty pro součet. Ve sloupci „faktor“ v tabulce jsou uvedeny součty proto, že snížením počtu pokusů dochází k tomu, že některé posloupnosti znamének u interakci faktorů jsou stejné. Obrázek 17: grafické hodnocení faktorů Z grafu 17 vidíme, že mimo hlavní linii leží body zobrazující interakci dvojic AD, BC a faktor A s interakcí trojice BCD. Protože platí, že čím delší slovo, tím menší měrou se delší interakce podílí na celkovému efektu, lze konstatovat, že statisticky významný je faktor A a interakce dvojic AD, BC. KONTROLNÍ TEST 9 9.1 U částečného faktorového experimentu se plán sestaví pro každý faktor. 9.2 Pro operace s faktory neplatí pro násobení komutativní zákon. 9.3 Je-li generátor plánu ve tvaru D = BC, pak definiční rovnice bude I=BCD. 9.4 Jsou-li u interakcí ABC a DE stejné posloupnosti znamének, pak také efekt (počítaný znaménkovou metodou) náleží oběma. 9.5 Při sestavování polovičních plánů se jeden z faktorů vyjádří jako interakce všech ostatních. 9.6 Vedlejší faktory se vyjadřují jako __________ hlavních faktorů. 9.7 Částečné faktorové plány lze rozdělit na plány s __________ snížením, plány s __________ snížením a plány __________. 9.8 Pro faktor A platí: AI = IA = ___, kde I je jednotkový faktor. 9.9 Dvojice faktorů, které tvoří stejné posloupnosti znamének, se nazývají __________ 0 10 20 30 40 50 60 70 80 90 100 -30 -20 -10 0 10 20 30 P(i) efekt Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 131 - 9.10 Hodnoty efektů faktorů a jejich interakcí v úplném a v polovičním plánu __________ stejné. 9.11 Napište poloviční plán pro faktory A, B, C, D. Generátor volte B=ACD. Vypočítejte efekt faktoru C, jsou-li výsledky pokusů, které se dvakrát opakovaly, tyto: výsledky prvé série: 10,11,14,12,12,10,13,14, výsledky druhé série: 11,12,12,8,14,12,13,14. 9.12 Pro faktory A, B, C, D byl sestaven poloviční plán. a) doplňte chybějící údaje v tabulce, b) pomocí grafické metody rozhodněte, který faktor je statisticky významný. efekty i iP A + BCD 1 B + ACD -8 C + ABD -10 D + ABC 4 AB + CD 9 AC + BD 7 AD + BC 5 ŘEŠENÍ KONTROLNÍHO TESTU 9 9.1 ne 9.2 ne 9.3 ano 9.4 ano 9.5 ne nutně 9.6 kombinace 9.7 nejnižším, nejvyšším, středové 9.8 A 9.9 zaměnitelné 9.10 nejsou 9.11 1Ce  9.12 a. efekty i iP A + BCD 1 3 35,71 B + ACD -8 2 21,42 9 ČÁSTEČNÝ FAKTOROVÝ PLÁN SE DVĚMA ÚROVNĚMI - 132 C + ABD -10 1 7,14 D + ABC 4 4 50 AB + CD 9 7 92,85 AC + BD 7 6 78,57 AD + BC 5 5 64,28 b. Významné jsou faktory B, C: Obrázek 18: grafické hodnocení efektů faktorů Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 133 - 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE Taguchiho metody (autorem je dr. Genichi Taguchi) lze rozdělit na metody používané přímo ve výrobním procesu (online) a v předvýrobních etapách (offline). V kapitolách 10, 11 budeme hovořit pouze o metodách online. Jejich základním prvkem je tzv. ztrátová funkce (loss function). V této kapitole vysvětlíme smysl ztrátové funkce, její konstrukci a použití. V první části kapitoly je uvedena definice a vlastnosti ztrátové funkce, druhá část se zabývá ztrátovou funkcí pro různé typy tzv. tolerance. V závěru kapitoly jsou uvedeny řešené příklady a samozřejmě vás čekají i otázky typu ano/ne, otázky doplňovací a neřešené příklady. Vše jistě bez větších potíží zvládnete, pokud pečlivě prostudujete tuto kapitolu. Taguchiho metody založené na ztrátových funkcích se snaží měřit ztráty, které vznikají odběrateli výrobků a služeb tím, že dodavatel těchto produktů není schopen dodržovat se stoprocentní přesností požadavky odběratele. Přitom tato neschopnost nemusí nutně praměnit z toho, že by dodavatel nechtěl dosahovat maximální preciznosti. V drtivé většině případů dochází k určité nepřesnosti, ať si to dodavatel přeje či nikoliv. Je totiž z fyzikálních důvodů většinou nemožné dosáhnout absolutní přesnosti. Taguchiho ztrátové funkce, které se nepřesnosti snaží číselně popsat (přesněji s nimi spojené finanční ztráty), představovaly v době svého zavedení do praxe nový pohled na tuto problematiku. Byla totiž dlouho vžitá představa, že pokud sice absolutní přesnosti není dosaženo u dané charakteristiky požadovaného produktu, ale tato charakteristika se pohybuje v určitých přijatelných mezích, je vše v pořádku, a uživatel produktu tak finančně nic nepocítí. S takovým názorem ovšem Taguchi nesouhlasil a pomocí matematicky jednoduchých ztrátových funkcích začal měřit ztráty vzniklé i při sebemenší odchylce od ideálního stavu. Spojení kvality s náklady pomocí Tachuchiho ztrátové funkce (Taguchi loss function) bylo hlavní výhodou v jakostním inženýrství a stejně tak i při schopnosti plánovat náklady. 10.1 DEFINICE A VLASTNOSTI ZTRÁTOVÉ FUNKCE Dříve, než uvedeme definiční rovnici, graf a vlastnosti ztrátové funkce, musíme si důkladně uvědomit předpoklady, které by měly být splněny, chceme-li takovou funkci použít. Vyslovíme je v jakýchsi čtyřech výchozích postulátech a je na každém, kdo chce dále uvedené metody používat, aby se zamyslel, zda jsou v jeho podmínkách přijatelné: 1. U každého výrobku je sledována jeho určitá charakteristika (např. rozměr, váha, mechanické, chemické, estetické nebo jiné vlastnosti). Podle této charakteristiky posuzujeme kvalitu dotyčného výrobku. 2. Charakteristika z předchozího bodu má stanovenu jistou optimální hodnotu T, tzv.cílovou hodnotu (Target value). 3. Nekvalita výrobku se projevuje odchylkami sledované charakteristiky od T. 4. Jakákoliv odchylka od T představuje určitou finanční ztrátu, která se projeví u odběratele zvýšenými náklady na provoz výrobku, jeho údržbu, opravy apod. První tři předpoklady nejsou neobvyklé. Novým prvkem však je, že podle čtvrtého předpokladu nepovažuje Taguchi výrobky pohybující se v mezích tolerance za stejně kvalitní 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE - 134 a bezztrátové. Naopak, jakákoliv odchylka od T už přináší ztráty. Jejich vyčíslení je smyslem ztrátové funkce. Matematické vyjádření ztrátové funkce má tvar 10-1     2 L Y k Y T  pro ( , )Y T d T d   , = A pro ostatní Y. kde T = cílová hodnota charakteristiky kvality, Y = dosahovaná úroveň charakteristiky kvality, je to náhodná veličina L(Y) = ztráta způsobená odchylkou od T, k = konstanta. Grafem uvedené funkce je parabola podle obr.19. Hodnota parametru d představuje funkční toleranci. Obrázek 19: ukázka tvaru ztrátové funkce Je-li Y T d  nebo Y T d  , což můžeme dohromady psát ve tvaru d Y T  , potom  L Y A . Můžeme proto psát: 10-2 2 kdA  . Protože parametry d (funkční tolerance) a A (mezní ztráta = ztráta při překročení d) jsou obvykle známy, lze použít rovnici (10-2) k výpočtu neznámé konstanty k: 2 /k A d . Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 135 PŘÍKLAD 1 Napište rovnici ztrátové funkce, je-li funkční tolerance d = 5 a mezní ztráta A = 2. ŘEŠENÍ Podle (10-2) dostáváme 2 2 / 5 0,08k   a rovnice ztrátové funkce je     2 0,08L Y Y T  . Z hlediska teorie pravděpodobnosti je Y = ukazatel jakosti náhodná proměnná, která má často normální rozdělení  2 ( ),N E Y  . Více než ztráta L(Y) nás obvykle zajímá průměrná ztráta, kterou označíme E(L). Vzorec pro zjištění E(L) můžeme získat z rovnice (10-1): 10-3       2 2 2 E L E k Y T kE Y T k        , za předpokladu, že E(Y) = T, což prakticky znamená, že průměr ze skutečně dosažených hodnot sledovaného ukazatele kvality Y je roven žádané hodnotě T. Symbol 2  značí rozptyl veličiny Y. Je-li však  E Y T , potom     22 ( )E L k k E Y T   . Máme tedy několik rovnic, s nimiž se pracuje: a. definiční rovnice     2 L Y k Y T  , b. rovnice pro výpočet konstanty k: 2 A kd , c. rovnice pro určení průměrné ztráty   2 E L k nebo     22 ( )E L k k E Y T   . Ztrátovou funkci lze využít k mnohem komplexnějšímu vyčíslení nákladů na jakost tím, že uvážíme všechny ztráty související se zajišťováním jakosti. Tehdy je zahrnuta do úvah také cena za opravy, náklady na kontrolu výrobku, ztráty za zmetky, ztráty za nepřesnosti měření kvality a nepřesnosti ve výrobě. Této problematice je věnována kapitola 11. Ztrátová funkce může být při řešení uvedených problémů aplikována nejen pro případ jediného ukazatele jakosti, ale i ve složitějších situacích, kdy Y je závislé na mnoha dalších faktorech X1, X2,..., Xk a dokonce i tehdy, když ukazatel jakosti nelze měřit, např. při posuzování estetických vlastností produktu. 10.2 ZTRÁTOVÉ FUNKCE PRO RŮZNÉ TYPY TOLERANCÍ Tvar ztrátové funkce z obr.19 není jediným tvarem. Existují různé typy ztrátových funkcí podle toho, s jakým typem tolerančního intervalu se pracuje. Uveďme nyní klasifikaci ztrátových funkcí podle typu tolerance. U různých těchto typů také načrtněme příslušné grafy ztrátových funkcí. Podle toho, co je v dané situaci považováno za optimální cílovou hodnotu T, rozlišujeme tyto typy tolerance: 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE - 136 a) Symetrická N-tolerance Obrázek 20: Symetrická N-tolerance V tomto případě píšeme T  d, kde d = tolerance. Interval (T-d, T+d) se nazývá toleranční interval. Zde je tolerance symetrická v tom smyslu, že cílová hodnota se nachází ve středu tolerančního intervalu. Pokud sledovaná charakteristika nabyde hodnoty, která je menší nebo rovna dolní toleranční mezi T-d, bude ztráta rovna hodnotě A. Stejné hodnoty A dosáhne ztráta také v případě, kdy sledovaná charakteristika nabyde hodnoty, která je rovna nebo větší než horní toleranční mez T+d. b) Nesymetrická N-tolerance Ve druhém případě má ztrátová funkce tvar uvedený na obrázku 21: Obrázek 21: Nesymetrická N-tolerance Zde má toleranční interval tvar (T - d1, T + d2). Z grafu vidíme, že tolerance d1 a d2 jsou obecně různé, stejně jako maximální ztráty A1 a A2. Například dosažení požadovaného průměru kovového kola nad úrovní T+d2 lze upravit zbroušením kola, kdežto nedodržení cílové hodnoty kvůli nedosažení T-d1 nikoliv, takže ztráta A1 je větší než A2. Na subintervalu (T-d1, T) jde o parabolu s rovnicí 10-1 a s k = k1. Na intervalu (T, T+d2) jde o parabolu s rovnicí 10-1 a s k=k2. V prvním případě je k1= A1/ d1 2 . Ve druhém případě je k2= A2/ d2 2 . Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 137 c) Tolerance typu S (Small) U tolerance typu S platí: sledovaná charakteristika produktu Y je tím lepší, čím je menší. Ideálem je cílová hodnota T = 0. Graf ztrátové funkce pro tuto situaci vypadá následovně: Obrázek 22: S-tolerance Příkladem veličiny Y s tolerancí S může být například drsnost povrchu, nebo nečistota v ovzduší, kde je stanovena jen horní přípustná hranice USL = Upper Specification Limit a samozřejmě platí, že čím menší hodnoty je dosaženo, tím lépe. Od jisté hranice – od horní přípustné meze – je pak ztráta rovna hodnotě A. Zde opět platí: na intervalu (0, USL) má funkce rovnici 10-1 s k = A/USL2 . d) Tolerance typu L (Large) U tolerance typu L platí: Y je tím lepší, čím je větší. Ideálem je T . V případě L tolerance se průměrná ztráta počítá podle vzorce 10-4   2 2 E L A d s   , kde 2 2 (1/ )s E Y , tj. průměrná hodnota veličiny 2 1/Y . V případech a)-c) jsme se zabývali rovnicí pro individuální ztrátu. Chceme-li vypočítat průměrnou ztrátu, což je to, co nás zejména zajímá, počítáme střední hodnotu individuálních ztrát. Tato střední hodnota obvykle není známa, jelikož nemáme k dispozici všechny možné realizace veličiny L(Y) a pravděpodobnosti těchto realizací. V praxi proto odhadujeme tuto střední hodnotu obyčejným průměrem. Počítáme tedy aritmetický průměr z individuálních reálně naměřených ztrát (viz příklady, které následují). Totéž platí i v případě d), kdy tedy nahradíme obvykle neznámu střední hodnotu 2 (1/ )E Y jejím odhadem 1 2 n Y   . Při konstrukci ztrátové funkce jsme vycházeli ze čtyř postulátů, jejichž splnění je nutnou podmínkou pro aplikace této funkce. Připomeňme, že podle čtvrtého postulátu přináší nedodržení cílové hodnoty T odběrateli ztráty. Nyní se zaměříme na finanční vyjádření těchto 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE - 138 ztrát s použitím ztrátové funkce. Jde o její nejzákladnější použití. Další možné aplikace budou uvedeny v následujících kapitolách. PŘÍKLAD 2 Při výrobě hřídelí je jejich předepsaný rozměr 150mm a tolerance je 4mm. Nedodržení tolerance způsobí ztrátu 40 Kč. Určeme průměrnou ztrátu a porovnejme ztráty za nekvalitu u dvou výrobců: první se spokojí s dodržením tolerance, druhý usiluje o maximální přiblížení k optimální hodnotě T. Předpokládejme přitom, že v průměru je předepsaný rozměr dodržen. ŘEŠENÍ Jsou známy tyto parametry: A (ztráta při překročení d) = 40 Kč, d (funkční tolerance) = 4mm, T (cílová hodnota) = 150mm. Pro ztrátovou funkci určíme nejprve konstantu k ze vztahu (10-2): 2 2 40 2,5 4 A k d    . Do vzorce dosazujeme vše v libovolných, ale stejných jednotkách. Průměrná ztráta za nedodržení T podle (10-3) bude nyní:   2 2 2,5E L k   . Nyní je potřeba rozptyl 2  odhadnout, avšak nemáme k dispozici výsledky měření při kontrole hřídelí. V takovém případě lze uvažovat takto: usiluje-li druhý výrobce o to, aby co nejčastěji dosahoval hodnoty T =150 znamená to, že odchylky Y od této hodnoty mohou být rozděleny podle Gaussovy křivky - nejčetnější je hodnota T = 150 a čím je odchylka Y od T větší, tím je hodnota méně četná. Je-li taková úvaha správná, je možné odhadnout směrodatnou odchylku  vztahem 2 2 4 1,33 6 6 tolerance s      , neboť se předpokládá, že u normálního rozdělení je toleranční interval roven šestinásobku směrodatné odchylky (viz pravidlo „tří sigma“ u normálního rozdělení). Pokud jde o prvního výrobce, ten se pouze spokojuje s dodržením tolerance, což znamená, že v tolerančním intervalu (T - 4, T + 4) = (146, 154) může mít Y hodnotu v kterémkoliv místě se stejnou četností. Lze tedy předpokládat, že Y má rovnoměrné rozdělení na tomto intervalu. Směrodatnou odchylku (její odhad) v tomto případě určíme ze vztahu 154 146 8 2,31 12 12 s     , Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 139 Neboť u rovnoměrného rozdělení  baR , je rozptyl dán vztahem 2 2 ( ) 12 b a    . Odhady průměrných ztrát tedy budou: 1. výrobce: odhad   2 2 2,5 2,31 13,34E L ks    , 2. výrobce: odhad   2 2 2,5 1,33 4,42E L ks    . Je vidět, že filozofie „stačí dodržovat toleranci“ není správná, neboť ztráty za nekvalitu jsou dokonce třikrát větší. Poznamenejme, že výsledek je vždy vyjádřen ve sledované měně/ks produkce, tj. v našem případě v kč/ks. Z rovnice   2 2 A E L d  je zřejmé, že průměrné ztráty za nekvalitu závisejí nejen na rozptylu, ale samozřejmě také na A a d. Jestliže velikost rozptylu je dána dělníkem, pak parametry A a d stanoví konstruktér. Ten by měl navrhnou výrobek tak, aby byl robustní, tj. odolný vůči nepřesnostem výroby. Znamená to, že a. nedodržení T by mělo způsobit co nejmenší ztrátu, jinými slovy, A by mělo být co nejmenší. Je-li zde A = 40 a sníží se o 50%, bude při stejném s = 1,33 2 2 20 1,25 4 A k d    , E(L) = ks2 = 1,25∙1,332 = 2,21 Kč/ks. b. výrobek by měl být funkční v široké toleranci, tj. mělo by být dosti velké d. Je-li d = 8, pak konstanta 2 40 8 k  a při s = 1,33 bude E(L) = ks2 = 0,625∙1,332 = 1,1 Kč/ks. Lze uvažovat také o snížení rozptylu. Uvažujme například o snížení rozptylu 2 2 1,33s  o 30%, tj. na 1,332 ∙0,70, přičemž nechť toto zlepšení stojí 50 haléřů na kus. Snížení rozptylu přinese v tomto případě menší ztráty za nekvalitu. Pro k = 2,5 dostáváme: E(L) = 2,5∙1,332 ∙0,70 = 3,096 Kč/ks. K tomu je nutno připočítat náklady na snížení rozptylu, takže celkově bude E(L) = 3,096 + 0,50 = 3,596 Kč/ks. To je stále méně než při rozptylu 22 33,1s , takže lze tuto úpravu doporučit. 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE - 140 - SHRNUTÍ Po prostudování této kapitoly jste získali informace o ztrátové funkci. Víte, že u každého výrobku je sledována jeho určitá charakteristika, podle které posuzujeme jeho kvalitu. Tato charakteristika má jistou optimální hodnotu a nekvalita se projevuje odchylkami od této hodnoty. Jakákoliv odchylka od optimální hodnoty představuje určitou ztrátu, která se projeví u odběratele zvýšenými náklady na řádné užití výrobku. Podle toho, co je v dané situaci považováno za optimální cílovou hodnotu T, rozlišujeme tři typy tolerance: 1. Tolerance typu N: symetrická a nesymetrická. 2. Tolerance typu S (smaller): Y je tím lepší, čím je menší. Ideálem je T=0. 3. Tolerance typu L (larger): T je tím lepší, čím je větší. Ideálem je T . Těmto různým typům tolerance potom odpovídají různé ztrátové funkce. Ztrátová funkce vyjadřuje finanční náklady v důsledku nekvality, a to ve sledované měně na jeden výrobek. Nyní následují další řešené příklady. PŘÍKLAD 3 U vyráběných hřídelí se sleduje jejich průměr a délka, přičemž průměr má předepsaný rozměr 25mm  1mm a délka má předepsaný rozměr 100mm  2mm. Nedodržení tolerance pro průměr stojí 40 Kč, pro délku 30 Kč. K dispozici jsou výsledky kontroly deseti hřídelí. V obou případech předpokládáme, že v průměru je předepsaných rozměrů dosaženo. Výsledky kontroly pro průměr (v mm): 25,1; 25; 25; 24,9; 25,1; 25; 24,9; 25; 25,1; 24,9. Výsledky kontroly pro délku (v mm): 99,9; 99,9; 99,8; 100,2; 100; 100; 100,1; 98; 99,9; 100,2. Porovnejte kvalitu výroby při dodržování sledovaných rozměrů pomocí ztrátové funkce. ŘEŠENÍ Údaje pro průměr: T1 =25, A1 = 40, d1 = 1.       2 2 22 1 25,1 25 25 25 ... 24,9 25 0,006 10 s            . 2 40 ( ) 0,006 0,24 1 E L   Kč/ks. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 141 Údaje pro délku: T2 = 100, A2 = 30, d2 = 2.     2 22 1 99,9 100 ... 100,2 100 0,02 10 s          . 2 30 ( ) 0,02 0,15 2 E L   Kč/ks. Na základě výsledků lze konstatovat, že lepší kvalita je při výrobě délky hřídele. Celkové průměrné ztráty za nekvalitu jsou 0,24 + 0,15 = 0,39 Kč/hřídel. PŘÍKLAD 4 Při výrobě bubnů automatických praček byla předepsána tolerance 30cm-1cm, 30cm+4cm. Nedodržení dolní tolerance stojí 50 Kč (nedosažení tolerance), nedodržení horní tolerance stojí 100 Kč (překročení tolerance), neboť buben nelze vůbec namontovat.Vypočítejte ztrátu za nekvalitu způsobenou pracovníky A a B, máte-li k dispozici tyto výsledky kontroly práce uvedených dvou pracovníků: Tabulka 64: vstupní údaje Pracovník Odchylka od cílové hodnoty (!!!) A 0; 0; -1; 3; 0; 4; 2; -1; 0; 1; 2; 4 B -1; -1; 0; 0; 0; 3; 2; -1; 1; 2; 0 ŘEŠENÍ Parametry: A1 = 50, A2 = 100, d1 = 1, d2 = 4. Pracovník A:      22 2 2 2 2 2 2 1 2 2 1 50 100 ( ) 1 1 3 4 2 1 2 4 12 1 4 E L                 1 34,375E L  Kč/ks. Pracovník B:        2 2 2 2 2 2 2 2 2 2 1 50 100 ( ) 1 1 1 3 2 1 2 11 1 4 E L                 2 23,864E L  Kč/ks. Pracovník B odvádí kvalitnější práci než pracovník A. Povšimněme si logiky výpočtu v případě pracovníka A (druhý případ je analogický): odhadujeme průměrnou ztrátu, což je vyjádřeno tím, že dělíme součet jistých sčítanců jejich počtem, tj. číslem 12. Každý ze sčítanců představuje individuální ztrátu, tj. konkrétní funkční hodnotu ztrátové funkce. 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE - 142 Tato ztrátová funkce v případě asymetrické tolerance má dvě větve dvou parabol a každá z těchto větví má jinou konstantu k. Jedna z těchto konstant je 50, druhá konstanta pro druhou větev má hodnotu 100/16. PŘÍKLAD 5 Kuličky do ložisek se vyrábějí na dvou pracovištích: Pracoviště A zajišťuje průměr kuliček s předepsanou hodnotou 0,4T  . Pracoviště B zodpovídá za požadovanou tvrdost kuliček 1T  . Denně se vyrobí 50000 kuliček, cena jedné je 0,60 Kč. Při nedodržení kterékoliv tolerance se kulička zlikviduje. Při kontrole byly získány tyto odchylky od předepsaných hodnot: Výsledky kontroly pro průměr (odchylky od ideálu): -0,3; 0,1; 0,2; 0; 0; -0,2; -0,1; 0; 0,4; 0,1; -0,1; 0, 0; 0,1; -0,2. Výsledky kontroly pro tvrdost (odchylky od ideálu): 0; 0; 1; -0,8; -0,8; 0, 0,6; 0,7; 0; -0,3; -0,2; 0; 0; 1; 0,2. Posuďte úroveň kvality těchto dvou pracovišť. ŘEŠENÍ 1. Průměr kuliček – parametry jsou: A = 0,6; d = 0,4. Rozptyl při kontrole průměrů     2 22 21 0,42 0,3 0,1 ... 0,2 0,028 15 15 s            . Průměrné ztráty za nekvalitu (Kč/ks): 2 2 2 0,6 ( ) .0,028 0,105 0,4 A E L s d    Kč/ks. Denní ztráta za nekvalitu je 50 000∙0,105 = 5 250 Kč. 2. Tvrdost kuliček – parametry jsou: A = 0,6 ; d = 1. Rozptyl při kontrole tvrdosti (počítá se s odchylkami) 2 2 21 0 ... 0, 2 0, 287 15 s       . Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 143 Průměrné ztráty za nekvalitu (Kč/ks): 2 0,6 ( ) 0,287 0,172 1 E L   Kč/ks. Denní ztráty jsou 50 000∙0,172 = 8 600 Kč. PŘÍKLAD 6 Při povrchové úpravě pístů je maximální povolená drsnost povrchu 10 mm. Čím menší je drsnost povrchu, tím lépe. Při překročení tolerance je povrch znovu upraven nákladem 200 Kč. Povrch upravují dva pracovníci. Posuďte úroveň jejich práce na základě výsledků kontroly: Tabulka 65: vstupní údaje Pracovník Povrch 1 0, 1, 9, 6, 10, 2, 3, 0, 9 2 3, 2, 4, 4, 5, 2, 4, 6, 5, 3 ŘEŠENÍ Parametry jsou: A = 200, d = 10 (S-typ tolerance) 1. pracovník: 2 1 9 s  ( (0-0)2 + (1-0)2 + (9-0)2 + ... + (9-0)2 ) = 34,67. 2 2 2 200 ( ) 34,67 69,34 10 A E L s d    Kč/ks. 2. pracovník: 10 12 s (32 + 22 + 42 + ... + 52 + 32 ) = 16.   2 200 16 32 10 E L   Kč/ks. Druhý pracovník odvádí více než dvakrát kvalitnější práci. PŘÍKLAD 7 Výrobci horolezeckých lan je stanovena dolní hranice pevnosti lana na 300 kg. Ztráta při nedosažení této hranice je kvůli dodatečnému vystužení lana 50 Kč na metr. Týdně se vyrobí 100 000 m lana. Porovnejte dvě technologie výroby, máte-li k dispozici tyto údaje 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE - 144 Tabulka 66: vstupní údaje Technologie Pevnost lana 1 305, 350, 350, 410, 310, 300, 350, 400 2 305, 301, 308, 306, 300, 320, 310, 310, 320, 325 ŘEŠENÍ Parametry jsou: A = 50, d = 300. Jedná se o L - typ tolerance. 1. Technologie. Střední hodnota na základě vztahu (10-4): 2 6 1 2 2 2 1 1 1 1 ... 8,62 10 8 305 350 400 s            . Průměrná ztráta je tedy dána vztahem:   2 6 1 50 300 8,62 10E L       38,79 Kč/m. 2. technologie Rozptyl: 2 5 2 2 2 2 1 1 1 1 ... 1,03 10 10 305 301 325 s            . Průměrná ztráta:   2 5 2 50 300 1,03 10E L      46,76 Kč/m. Můžeme tedy říci, že první technologií se vyrábí lana s pevností v průměru větší E1= 346,88 kg > E2 = 310,5 kg, Zatímco pro průměr převrácených hodnot platí 2 6 1 8,62 10s    < 2 5 2 1,03 10s    . Proto také u první technologie jsou menší ztráty za nekvalitu E(L1) = 38,79 Kč/m < E(L2) = 46,76 Kč/m. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 145 KONTROLNÍ TEST 10 10.1 Matematické vyjádření ztrátové funkce má tvar     2 L Y k Y T  ? 10.2 Příkladem veličiny Y s tolerancí typu S může být pevnost lana? 10.3 U každého výrobku je dána určitá charakteristika, která má jistou optimální hodnotu a nekvalita se projevuje odchylkami od této hodnoty? 10.4 U tolerance typu N, je ideálem dosažení menší hodnoty než je cílová hodnota T? 10.5 Grafem části ztrátové funkce je parabola? 10.6 Jakákoliv odchylka od cílové hodnoty T přináší __________ . 10.7 U každého výrobku je sledována jeho určitá __________, podle které posuzujeme jeho kvalitu. 10.8 Matematické vyjádření ztrátové funkce má tvar __________. 10.9 Podle toho, co je v dané situaci považováno za optimální cílovou hodnotu T, rozlišujeme tyto typy tolerance: __________, __________, __________. 10.10 U tolerance typu S je ideálem dosažení cílové hodnoty T = __________. 10.11 U určitého výrobku se sleduje průměr a hmotnost, přičemž průměr má být T1 = 20cm  1 a hmotnost T2 = 100g  2. Nedodržení tolerance pro průměr stojí 20 Kč, pro hmotnost 30 Kč. K dispozici jsou výsledky kontroly deseti výrobků. Výsledky kontroly pro průměr: 20,1; 20; 20; 19,9; 20,1; 20; 19,9; 20, 20,1; 19,9. Výsledky kontroly pro hmotnost: 99,9; 99,9; 99,8; 100,2; 100; 100; 100,1; 9,8; 99,9; 100,2. Porovnejte kvalitu výroby při dodržování sledovaných rozměrů. 10.12 Při výrobě odlučovačích filtrů je stanoveno maximální možné procento propustnosti 10%. Kontrola filtrů u 2 výrobců přinesla tyto výsledky: Podnik % propustnosti A 3, 9, 9, 7, 1 B 8, 8, 1, 1, 2, 5 Překročení tolerance stojí u podniku A 600 Kč a u podniku B 700 Kč. Který výrobce je kvalitnější? ŘEŠENÍ KONTROLNÍHO TESTU 10 10. 1 ano 10. 2 ne 10. 3 ano 10. 4 ne 10. 5 ano 10. 6 ztráty 10 TAGUCHIHO METODY – ZTRÁTOVÉ FUNKCE - 146 - 10. 7 charakteristika 10. 8     2 L Y k Y T  10. 9 N (nominal), S (smaller), L (larger) 10. 10 0 10. 11 Průměr:   0,12E L  Kč/ks; Hmotnost:   0,15E L  Kč/ks. 10. 12 Podnik A:   265,2E L  Kč/ks; Podnik B:   185,5E L  Kč/ks. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 147 - 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY KVALITY V předcházející kapitole jsme se seznámili s Taguchiho metodami a pojmem ztrátová funkce. V této kapitole se dozvíme něco o celkových nákladech na jakost a také o regulačních diagramech. Kapitola je členěna do čtyř částí. První část je věnována monitorování nákladů na jakost, ve druhé části je uveden vztah pro výpočet celkových nákladů na jakost, jestliže se provádí 100% kontrola výrobního procesu, část třetí je věnována vztahu pro celkové náklady na jakost, jestliže se provádí kontrola procesu po n výrobcích, a v části čtvrté jsou definovány regulační diagramy. Základní vztah, z něhož se vychází při výpočtu nákladů na jakost nebyl Taguchim odvozen, ale navržen. Zachycuje autorovy zkušenosti vyjádřené matematickými prostředky. Kapitola rovněž opět obsahuje řešené i neřešené příklady. 11.1 MONITOROVÁNÍ NÁKLADŮ NA JAKOST Pojem „náklady na jakost“ může mít několik významů. Jde nicméně především o výdaje spojené přímo se zajišťováním, případně zlepšováním jakosti, např. výdaje na nákup měřící techniky, nebo také může zahrnovat neproduktivní výdaje, jakými jsou ztráty z neshodných výrobků. Z praktického hlediska je vhodné náklady na jakost rozdělit do tří skupin: - náklady na jakost u výrobce, - náklady na jakost u uživatele, - společenské náklady na jakost. V této studijní opoře se budeme věnovat nákladům na jakost u výrobce. Náklady na jakost u výrobce jsou výdaje vynaložené výrobcem a spojené s prevencí, hodnocením výroby a vadami tak, aby bylo dosaženo požadavků jakosti v průběhu vývoje, výroby, instalace a užití produktu. Monitoring těchto výdajů představuje účinný nástroj managementu jakosti, protože dává možnost odkrývat příležitosti ke zlepšování produktu. Popišme nyní způsoby tohoto monitoringu nákladů na jakost s využitím 1) tzv. PAF modelů, 2) modelu procesních nákladů, 3) Taguchiho přístupu. Ad1) PAF modely (Prevention, Appraisal, Failure) Tento model je založený na tom, že se v podniku všechny nákladové položky spojené s jakostí rozdělují do čtyř skupin: Náklady na interní vady (vznikají uvnitř firmy v důsledku vad při plnění požadavků na jakost, nedostatky jsou odhaleny ještě před odesláním produktu k zákazníkovi), Náklady na externí vady (zde patří reklamace, garanční servis, manipulační náklady, slevy z ceny, soudní spory, ztráta trhu a důvěry zákazníků), 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY KVALITY - 148 Náklady na hodnocení (jsou to zejména náklady na měření spokojenosti zákazníků, na měřící techniku, software, certifikace, náklady na provoz podnikových i externích zkušeben a laboratoří pro testování produktu apod.) Náklady na prevenci (tato skupina nákladů na jakost by měla vykazovat trvalý růst, patří sem zjišťování požadavků zákazníka, rozvoj systému jakosti, školení, kontakt s poradenskými firmami, plánování jakosti a další). Ad2) Model procesích nákladů Jde o vyšší stupeň monitoringu, který je založen na tom, že se jednotlivé skupiny nákladů nesledují podle konkrétních výrobků, ale výhradně pro určité procesy. Za proces se považuje soubor činností, které transformují hmotné resp. informační vstupy na hmotné a informační výstupy. Tyto náklady se dělí na náklady na shodu, což jsou skutečné náklady na přeměnu vstupů na výstupy, a na náklady na neshodu jako náklady na nevyužitý čas, materiál a kapacity spojené se vznikem neshod uvnitř procesu. Ad 3) Taguchiho metoda Tento přístup využívá matematických nástrojů k popisu vztahů mezi celkovými náklady na jakost a různými faktory, které se na těchto nákladech podílejí. Matematický přístup má tu výhodu, že umožňuje minimalizovat (optimalizovat) náklady spojené s jakostí a ukazuje, kterým směrem se daný podnik má ubírat, pokud chce této optimalizace dosáhnout. Taguchiho přístupem se zabývají kapitoly 11.2 a 11.3. 11.2 TAGUCHIHO PŘÍSTUP – PROVÁDÍ SE 100% KONTROLA PROCESU Provádí-li se 100 % kontrola výrobního procesu, pak celkové náklady na jakost určíme podle vzorce 11-1 2 02 s d A R Q L  , kde Q = roční náklady na 100 % kontrolu, R = roční produkce v kusech, d = funkční tolerance vymezující přípustné odchylky od jisté ideální hodnoty, ve které je výrobek ještě vyhovující, A = ztráta při překročení tolerance d,       2 2 22 0 2 1 3 2 1 1 ... 1 n ns y y y y y y n            . Aplikaci vztahu (11-1) ukážeme na jednoduchém příkladě. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 149 PŘÍKLAD 1 Náklady na stoprocentní automatickou kontrolu jsou 25 000 Kč za rok. Roční produkce je čtyři milióny jednotek daného výrobku, tolerance je 9 a její překročení stojí 5 Kč. Určete celkové náklady na jakost, jestliže z výsledků kontroly vyplynulo, že 12 0 s . ŘEŠENÍ Pomocí výše zavedeného označení máme: Q = 25 000 Kč R = 4 000 000 ks, d = 9, A = 5 Kč, 12 0 s . Dosadíme do vztahu (11-1) a dostáváme: 2 25000 5 1 0,068 4000000 9 L     Kč/ks. Roční náklady na jakost jsou 4 000 000∙0,068 = 272 000 Kč. 11.3 KONTROLA PROCESU SE PROVÁDÍ PO N JEDNOTKÁCH Pokud se neprovádí 100% kontrola a mezi dvěma kontrolami se vyrobí n výrobků, určíme celkové náklady na jakost pomocí vzorce 11-2 2 2 2 2 2 2 2 1 3 ms d A z n u D d AD d A u C n B L          , kde A = ztráta při překročení tolerance d, B = cena kontroly výrobků, C = cena opravy stroje (výrobní linky), n = kontrolní interval, u = průměrný počet výrobků mezi opravami (poruchami), d = funkční tolerance, vymezující přípustné odchylky od jisté ideální hodnoty, ve které je výrobek ještě vyhovující, D = výrobní tolerance, která je obvykle podnikovým zpřísněním funkční tolerance, z = počet výrobků zhotovených během kontroly výroby, n B = cena kontroly na kus, u C = cena opravy na kus, 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY KVALITY - 150 - 3 2 2 D d A = ztráty způsobené nepřesností výroby,         z n u D d A 2 12 2 = ztráty za zmetky, 2 2 ms d A = ztráty způsobené nepřesností měření. Je třeba říci, že základní vzorec (11-2) nebyl Taguchim odvozen, ale navržen. Můžeme říci, že vzorec je matematickým vyjádřením dlouholetých zkušeností G. Taguchiho, představuje autorovy zkušenosti, vyjádřené matematickými prostředky. Umožňuje také po derivaci podle určité proměnné a jejím položením nule najít optimální hodnoty některých parametrů. Jeho jednotlivé části však mají matematické jádro: tři z pěti sčítanců vycházejí ze ztrátové funkce. Dále uváděné vzorce (11-3) – (11-5) jsou již matematicky odvozené z výchozího vztahu a diskuse k jejich tvaru je samozřejmě bezpředmětná. V případě, že se neprovádí 100% kontrola, vyvstávají otázky: Jak často provádět kontrolu tak, aby celkové náklady na jakost byly minimální? S jakou přesností kontrolovat tak, aby celkové náklady na jakost byly minimální? Odpovědi dávají vztahy (11-3) a (11-4), které obdržíme parciálním derivováním funkce (11- 2) podle n, resp. D. Derivujeme-li takto a příslušnou derivaci položíme rovnu nule, dostaneme optimální kontrolní interval 11-3 * 2uB d n A D  . a optimální provozní toleranci 11-4 2 2 * 4 3CD d D Au  . 11.4 REGULAČNÍ DIAGRAMY Hlavním nástrojem statistické regulace výrobního procesu jsou tzv. regulační diagramy (RD) zavedené Walterem Shewhartem ve 20.letech 20.století. Jejich posláním je nepřetržitě monitorovat sledované ukazatele jistého procesu a včas upozornit na zhoršující se stav tohoto procesu. To umožní předcházet defektům ve výrobě. Body (hodnoty sledovaného ukazatele) vynášené do diagramu by měly vykazovat jistý průběh a pokud tomu tak není (vybočí z mezí, které se konstruují pro tyto diagramy, nebo vykazují jistý vzor vývoje), potom je vysoce pravděpodobné, že proces podléhá jistému systematickému zásahu, který s původním procesem nemá nic společného. Takovým umělým zásahem může být např. systematická chyba obsluhy výrobního zařízení. I když sledovaným ukazatelem může být podle povahy procesu téměř cokoliv, jsou jisté požadavky, které by měl ukazatel splňovat. Základním požadavkem je (alespoň pro zde uváděné typy diagramů), že má normální rozdělení. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 151 U sledovaného technologického procesu se hodnotí: a. schopnost ukazatele udržet předepsanou (cílovou) hodnotu, b. míra kolísání ukazatele (variabilita) kolem cílové hodnoty. Proto se vždy konstruují dva regulační diagramy, každý pro jeden z uvedených atributů. Nejběžnější jsou RD pro dvojice (průměr x , rozpětí R), označovaný dále RD Rx, , a (průměr x , směrodatná odchylka s), tj. RD sx, . V tomto textu uvádíme regulační diagram pro dvojici (průměr x , rozpětí R). Při konstrukci RD Rx, se postupuje v těchto krocích: a. Shromažďují se data (vzorky) v časech t = 1,2, …, m (první sloupec tab.67). b. Z každého vzorku se vypočítají potřebné charakteristiky, např. u RD Rx, to bude průměr x a rozpětí minmax xxR  , a to pro každou časovou jednotku t. c. Vypočítají se a v grafu znázorní tři údaje: hodnota, která je považována za optimální pro daný ukazatel a také meze, které by ukazatel neměl překročit. d. V grafu se znázorňují průměry ukazatele (svislá osa) odpovídající jednotlivým časům (vodorovná osa). Tím je sestrojen RD  x . Podobně se sestrojí RD(R), do kterého se na svislou osu vynášejí pro každý časový okamžik dílčí rozpětí. Na základě sestaveného diagramu se sleduje vývoj parametru procesu a podle zásad o vyhodnocování RD se přijímají potřebná opatření. Jejich podstatu lze charakterizovat takto: parametr by měl vykazovat náhodné kolísání kolem předepsané hodnoty ve vymezených mezích. Jak se počítají tyto meze a předepsaná hodnota, je uvedeno dále. Tabulka 67: Vzorky a charakteristiky pro konstrukci RD( x , R) Data Osa x Osa y i = čas Průměr ix Rozpětí Ri nxxx 11211 ,...,, 1 1x R1 nxxx 22221 ,...,, 2 2x R2 nxxx 33231 ,...,, 3 3x R3 : : : : mnmm xxx ,...,, 21 m mx Rm 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY KVALITY - 152 Obrázek 23 zachycuje základní meze RD(R): Obrázek 67: Základní čáry pro RD(R) Zde je UCL = horní regulační mez (upper control limit), LCL = dolní regulační mez (lower control limit), CL = střední přímka (central line). Pro regulační diagram RD( x ) platí: 2LCL x A R  , 2UCL x A R  , CL x , kde 1 1 m i i x x m    je průměr z dílčích průměrů vzorků. Dílčí průměr se vztahuje k danému časovému okamžiku. Dále je 1 1 m i i R R m    , což je průměr z dílčích rozpětí vzorků, opět spočtených pro konkrétní časové okamžiky. Pro regulační diagram RD(R) platí: 4UCL D R , 3LCL D R , CL R . Konstanty A2, D3, D4 jsou v tabulce 68 (chybí-li údaj, bere se jako nula). Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 153 Tabulka 68: Konstanty pro výpočet LCL a UCL regulačního diagramu PŘÍKLAD 2 Vypočítejte UCL, LCL a CL meze pro RD( x ) a RD(R), je-li dáno: Tabulka 69: Vzorky dat pro konstrukci RD Rx, 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY KVALITY - 154 - ŘEŠENÍ Regulační diagram RD( x ): 1 1 9,994 m i i x x m    . 1 1 1,271 m i i R R m    . Dolní regulační mez: 2 9,994 0,720 1,271 0,915LCL x A R      . Horní regulační mez: 2 9,994 0,720 1,271 10,909UCL x A R      . Střední přímka: 9,994CL x  . Regulační diagram RD(R): Horní regulační mez: 4 2,282 1,271 2,9UCL D R    . Dolní regulační mez: 3 0 1,271 0LCL D R    . Střední přímka: 1,271CL R  . Následně by se do grafu vynášely dílčí průměry (do diagramu RD( x )), respektive dílčí rozpětí do diagramu RD(R). Oba grafy by se pak vyhodnotily: základním pravidlem je, aby žádná z hodnot vynášených do grafu nevybočila z mezí LCL a UCL, tj. nebyla menší než LCL nebo větší než UCL. Pokud taková situace nastane, je třeba zkontrolovat, co se přesně s procesem dělo v časovém okamžiku, kdy hodnota z mezí vybočila. Je totiž vysoce pravděpodobné, že do procesu zasáhlo něco „nepřirozeného“. Existují také další pravidla založená na počtu hodnot, které po sobě rostou, klesají apod. Takový „vzor“ vývoje grafu je natolik nepravděpodobný, že zřejmě není dílem náhody, ale systematického zásahu do procesu. SHRNUTÍ Tato kapitola nás provedla problematikou týkající se celkových nákladů na jakost a byly zde také uvedeny základní informace týkající se regulačních diagramů. Základní vzorec pro celkové náklady na jakost při 100% kontrole procesu nebyl Taguchim odvozen, ale navržen. V tomto vztahu jsou zachyceny autorovy zkušenosti, které vyjádřil matematickými prostředky. V případě, že se neprovádí 100% kontrola procesu, pak je třeba zjistit, jak často se má kontrola provádět a s jakou přesností, aby byly náklady na jakost co nejmenší. Regulační diagramy jsou hlavním nástrojem statistické regulace výrobního procesu. Jejich hlavním úkolem je sledovat dané ukazatele a včas upozornit na případné problémy či zhoršující se stav výrobního procesu. Následuje další řešený příklad. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 155 PŘÍKLAD 3 Lis vyrábí při jednom zdvihu 8 ks výlisků najednou. Cena jednoho je 0,5 Kč. Kontrola se provádí jednou za hodinu vždy u jednoho výrobku dané série tak, že je-li jeden výrobek vadný, vyřadí se všech 8, zastaví se lis a provede se jeho seřízení nákladem 70 Kč. Funkční tolerance je 10 a počáteční výrobní tolerance 4. Za hodinu se vyrobí 480 ks, počet pracovních hodin za rok je 2000. Kontrola trvá 2 minuty a její cena je 10 Kč. Chybu měření neuvažujeme, počáteční průměrný interval mezi opravami je 4 hodiny. Vypočítejte celkové náklady na jakost, stanovte optimální kontrolní režim a jeho finanční přínos. ŘEŠENÍ Parametry jsou: A = 8∙0,5 = 4 Kč B = 10 Kč C = 70 Kč Do= 4 d = 10 no = 480 ks 162. 60 480 z uo = 4.480 = 1920 ks Dosazením uo, no a Do do vztahu (11-2) vypočítáme celkové náklady na jakost Lo pro vstupní parametry: 2 2 0 2 2 10 70 4 4 4 480 1 4 ( 16) 0,356 480 1920 10 3 10 2 1920 L         Kč/ks. Nyní určíme optimální parametry kontroly: a. Podle vztahu (11-3) je optimální kontrolní interval * 2 2 1920 10 10 244,9 240 4 4 o o u B d n A D       výrobků, tzn. kontrola přibližně každou půlhodinu. b. Podle vztahu (11-4) je optimální provozní tolerance 2 2 2 2 * 44 3 3 70 4 10 2,57 2 4 1920 o o CD d D Au         . 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY KVALITY - 156 c. Náklady na jakost při optimálních parametrech jsou dány vztahem *2 * *2 * 2 2 2 2 2 2 1 ( ) 3 2 10 70 4 2 4 240 1 2 ( 16) 0,287 / . 240 480 10 3 10 2 480 B C A D A n D L z n u d d u L Kč ks                 Finanční přínos při optimálních parametrech:  LL0 0,356 – 0,287 = 0,069 Kč na 1 výrobek, tj. za rok dostáváme úsporu 0,069∙480∙2000 = 66 240 Kč. KONTROLNÍ TEST 11 11.1 Jestliže se provádí 100% kontrola, pak celkové náklady na jakost jsou dány vztahem 2 02 Q A L s R d   ? 11.2 Základní vzorec pro výpočet celkových nákladů na jakost byl Taguchim odvozen a matematicky dokázán? 11.3 U sledovaného technologického procesu se hodnotí jeho schopnost udržet cílovou hodnotu a míra kolísání kolem cílové hodnoty? 11.4 Rozpětí daného souboru dat je dáno vztahem: maxR x x  ? 11.5 Regulační diagram RD  Rx, označuje regulační diagram pro průměr a rozpětí? 11.6 Ve vztahu pro celkové náklady na jakost 2 02 Q A L s R d   , je 2 0s __________. 11.7 V případě, že se neprovádí 100% kontroly výrobního procesu, pak se zabýváme tím, jak často __________ a s jakou __________. 11.8 Hlavním nástrojem statistické regulace výrobního procesu jsou __________ __________. 11.9 Nejběžnější regulační diagramy jsou pro dvojice: průměr a __________; a průměr a __________ __________. ŘEŠENÍ KONTROLNÍHO TESTU 11 11.1 ano 11.2 ne 11.3 ano 11.4 ne 11.5 ano 11.6       2 1 2 23 2 12 2 0 ... 1 1    nn yyyyyy n s 11.7 kontrolovat, přesností 11.8 regulační diagramy 11.9 rozpětí; směrodatná odchylka. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 157 - 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ Způsobilostí výrobního procesu (anglicky „process capability“) se rozumí jeho schopnost trvale dosahovat předem stanovená kritéria kvality. Je žádoucí vyjadřovat způsobilost kvantitativně, tedy nějakým číselným ukazatelem. Při konstrukci těchto ukazatelů máme určité představy o jejich vlastnostech. Z hlediska výpočtového mezi ně patří zejména jednoduchost, srozumitelnost, dobrá vypovídací schopnost a názornost. Dalším požadavkem je široká upotřebitelnost, což znamená co nejméně omezujících podmínek pro jejich použití, stručně řečeno, univerzálnost. Z tohoto hlediska je potřeba říci, že takový univerzální ukazatel se jen těžce hledá a i když existuje poměrně mnoho ukazatelů pro posuzování způsobilosti procesu, každý z nich je použitelný pouze tehdy, jsou-li splněny určité konkrétní předpoklady. Ukazatel způsobilosti musí být samozřejmě rovněž konstruován tak, aby hodnotil všechny stránky způsobilosti. 12.1 CÍLE HODNOCENÍ ZPŮSOBILOSTI PROCESU Při kvantitativním hodnocení způsobilosti výrobního procesu se obvykle sledují tyto dva cíle : 1. Schopnost procesu udržet cílovou hodnotu T (anglicky „target value“) ukazatele kvality. 2. Přiměřená variabilita dosahovaných hodnot ukazatele kvality kolem cílové hodnoty. V dalším textu se pokusíme demonstrovat dva nejpoužívanější ukazatele způsobilosti a zmínit jejich klady a zápory spolu s podmínkami jejich použití. 12.2 VÝBĚR VHODNÉHO UKAZATELE Prvním kritériem, podle kterého se rozhodujeme a které dělí ukazatele způsobilosti na dvě skupiny je skutečnost, zda se sleduje jeden nebo více ukazatelů kvality. U jednoho ukazatele se pak dále sleduje, je-li to atribut, tj. neměřitelná charakteristika, či měřitelná veličina. Měřitelné charakteristiky jsou reprezentovány výsledky měření výrobku nebo výrobního procesu. Tato měření, která jsou ze statistického hlediska výběrovým souborem, mají často normální rozdělení. Předpoklad normality je, jak uvidíme dále, zásadní a musí být ověřen. Podle toho, zda je či není splněn tento předpoklad, se pak volí vhodný ukazatel ze skupiny měřitelných ukazatelů. 12.3 PŘEDPOKLADY HODNOCENÍ ZPŮSOBILOSTI Každý z dále uváděných ukazatelů způsobilosti je spolehlivě použitelný pouze při splnění určitých předpokladů. Tyto předpoklady lze rozdělit na a) obecné b) specifické Obecné předpoklady jsou ty, které musí být splněny vždy, u všech používaných indexů způsobilosti. Jsou uvedeny v této kapitole. 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ - 158 Specifické předpoklady jsou ty, které jsou požadovány u jednotlivých indexů způsobilosti, vedle obecných předpokladů, navíc. Budou uvedeny současně s definicí každého ukazatele způsobilosti i se zdůvodněním, proč jsou požadovány. Splnění obecných i specifických předpokladů je nutné ověřit, nejčastěji statistickým testem. Obecné předpoklady, které musí být splněny při výpočtu jakéhokoliv indexu způsobilosti, jsou zejména tyto: a) proces je stabilizován, b) data o procesu jsou nezávislá, bez odlehlých pozorování a je jich dostatek, c) je stanovena správně tolerance. Jestliže kterákoliv z těchto podmínek není splněna, neměl by být počítán žádný z indexů způsobilosti. Při nedodržení této zásady jsou vypočítané hodnoty indexů buď velmi nespolehlivé (nadhodnocené, resp. podhodnocené - podle toho, co nebylo splněno) nebo i nesmyslné (např. extrémně velké při špatné toleranci, záporné apod.). Proces je stabilizován (je pod statistickou kontrolou) tehdy, jestliže všechny hodnoty sledovaného ukazatele kvality leží uvnitř regulačních mezí příslušného regulačního diagramu. Z uvedeného je zřejmé, že dříve, než se začne s hodnocením způsobilosti, měl by být zaveden do provozu (je-li to technicky možné) regulační diagram. Ten sleduje nepřetržitě vývoj klíčových parametrů procesu v čase. 12.4 ATRIBUTY Pro atributy se způsobilost procesu vyjadřuje procentem výrobků, které vyhovují požadovanému ukazateli kvality. Označíme-li relativní četnost špatných výrobků pocet nevyhovujicich vyrobku mezi sledovanymi V celkovy pocet sledovanych vyrobku  , pak způsobilost C bude procento vyhovujících výrobků C = 100(1–V). U tohoto ukazatele není stanovena obecně platná minimální hodnota C. Donedávna přijímaná úroveň byla 98- 99%, dnes začíná převažovat přísný požadavek 3ppm (3 špatné výrobky na milion kusů). 12.5 MĚŘENÉ CHARAKTERISTIKY KVALITY V současné době se prakticky výhradně používá při posuzování způsobilosti procesů třída ukazatelů nazývaných indexy způsobilosti (capability index nebo indices v plurálu). O třídě hovoříme proto, že existuje mnoho typů indexů způsobilosti, které se liší způsobem výpočtu, vlastnostmi i podmínkami své použitelnosti. Princip jejich konstrukce je však stejný: vždy jde o poměr předepsané přesnosti a skutečně dosahované přesnosti výroby. Předepsaná přesnost je dána tolerancí a cílovou hodnotou. Označme: USL = horní toleranční hranice (Upper Specification Limit pro sledovaný ukazatel kvality), LSL = dolní toleranční hranice (Lower Specification Limit), T = cílová hodnota (Target Value). Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 159 Pak toleranční interval bude (LSL, USL), jeho délka je USL - LSL a střed intervalu MSL je: 1/ 2( )MSL USL LSL  . Specifikace výrobního procesu je určena trojicí (LSL, T, USL). Skutečně dosahovaná přesnost je vyjádřena rozptylem. Je známo, že má-li soubor normální rozdělení 2( , )N   , pak podle pravidla tří sigma leží v intervalu ( 3 , 3 )     99,73 % hodnot, tj. téměř všechny. Délka tohoto intervalu je 6 . Na obr.68 jsou znázorněny dva případy normálního rozdělení s různými rozptyly. Pro jeden jsou všechny hodnoty v toleranci, kdežto pro druhý je část mimo. Porovnáním délky tolerančního intervalu (LSL, USL) a intervalu 6 získáme představu o poměru předepsané a skutečně dosahované přesnosti. Na tomto principu jsou také konstruovány indexy způsobilosti: Obrázek 68: Tolerance a dva různé rozptyly 12.6 INDEX CP Nejstarší index způsobilosti je označován Cp a je definován vztahem 12-1 . 6 USL LSL Cp     Vzhledem k tomu, že směrodatná odchylka základního souboru většinou není známa, je nahrazena výběrovou směrodatnou odchylkou s. Tím místo Cp podle (12-1) máme jeho odhad 12-2 . 6 USL LSL Cp s    Připomeňme, že pravidlo , na kterém je vzorec (12-1) založen, platí pouze pro normální rozdělení. To je závažný poznatek, který prakticky znamená, že pokud měření nemají normální rozdělení, nelze hodnotit způsobilost podle (12-1). Je proto důležité rozhodnout pokud možno spolehlivě, má-li soubor normální rozdělení či nikoliv. K tomu je nutné - mít dostatečně velký soubor, - použít spolehlivý test na normalitu, 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ - 160 - odstranit ze souboru odlehlé hodnoty. Není-li normalita potvrzena, přirozeně se nabízí otázka, jak postupovat dále a zda existují vůbec nějaké vhodné nástroje. Zde pouze konstatujeme, že nelze použít klasické prostředky, avšak existují speciální metody pro tuto situaci. V případě, že je normalita potvrzena, je možné Cp počítat. Vážným nedostatkem indexu Cp je, že vůbec nehodnotí, jak je proces centrován, tedy jaký je vztah předepsané hodnoty T a průměrné hodnoty . Velmi názorně je to vidět na obr.69, kde je pět různých výrobců: První výrobce je nejlepší, neboť nejčastěji vyrábí předepsanou hodnotu T a nepřekračuje toleranci. Druhý, resp. třetí výrobce sice nikdy nedosahuje hodnotu T (vychyluje se vlevo, resp. vpravo), ale alespoň nepřekračuje toleranci. Čtvrtý a pátý výrobce nejenže nedosahují nikdy T, ale navíc překračují toleranci (vlevo, resp. vpravo). Je tedy každý výrobce jiný a přesto, vypočítáme-li index Cp, bude ve všech případech stejný, neboť délka tolerančního intervalu USL-LSL je stejná pro všechny a směrodatná odchylka ve jmenovateli vzorce (12-1) bude také stejná, protože zákonem rozdělení je ve všech případech tatáž Gaussova křivka, jen s jinou polohou vrcholu. Můžeme tedy konstatovat, že Cp posuzuje pouze jeden ze dvou cílů hodnocení způsobilosti a to míru využití tolerance. Obrázek 69: Pět různých výrobců a stejné Cp ! Shrneme-li dosud uvedené poznatky, dostáváme tyto specifické podmínky pro použití Cp: a) měření má rozdělení 2( , )N   , b) T  (proces je centrován). 12.7 INDEX CPK Snaha o zavedení obecnější charakteristiky způsobilosti než Cp vedla ke konstrukci indexů 12-3 3 ,pU USL C      Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 161 - 12-4 3 .pL LSL C      12-5 min{ , }pK pU pLC C C . Tento index má jen jednu specifickou podmínku použití a to normální rozdělení sledovaného ukazatele kvality. PŘÍKLAD 1 Ověřme, že vzdaluje-li se od T, zhoršuje se CpK, nemění-li rozptyl. Parametry procesu jsou: LSL = 10, USL = 18, T = 14 (symetrická tolerance; píšeme také T = MSL), = 2/3. ŘEŠENÍ a) 14T   : 18 14 2. 23 3 3 pU USL C        Také 14 10 2. 23 3 3 pL LSL C        Je tedy pro T : CpU = CpL = CpK = 2. b) 15:  18 15 1,5. 3 3(2 / 3) pU USL C        15 10 2,5. 3 3(2 / 3) pL LSL C        Zde, protože T  , je pUpL CC  , a CpK = min{1,5; 2,5} = 1,5. c) 16:  18 16 1. 3 3(2 / 3) pU USL C        12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ - 162 - 16 10 3. 3 3(2 / 3) pL LSL C        Tedy CpK = 1. d) 17, 0,25   (snížení směrodatné odchylky): 18 17 1,33 !!! 3 3 0,25 pU USL C         Pokud by CpU, resp. CpL vycházelo záporné, pokládá se CpK = 0. To nastane v případě, že průměrná hodnota je mimo toleranční interval. PŘÍKLAD 2 Ověřte si, že je-li  mimo toleranci, vychází CpU (resp. CpL) záporné. Parametry procesu jsou: LSL = 10, USL = 18, T = 14, 20  , 2/3  . ŘEŠENÍ Zde , tedy mimo horní toleranci, takže CpU < 0. Skutečně 18 20 1. 23 3 3 pU USL C         Proto se pokládá CpK = 0, i když 20 10 5. 2 3 3 pLC    SHRNUTÍ V této kapitole jste studovali problematiku způsobilosti výrobního procesu (process capability). Tou se rozumí jeho schopnost trvale dosahovat předem stanovená kritéria kvality. Naučili jste se vyjadřovat způsobilost kvantitativně, tedy příslušným číselným ukazatelem. Při konstrukci těchto ukazatelů jsme měli určité představy o jejich vlastnostech. Z hlediska výpočtového mezi ně patří zejména jednoduchost, dále srozumitelnost, dobrá vypovídací schopnost, názornost. Dalším požadavkem je široká upotřebitelnost, což znamená co nejméně omezujících podmínek pro jejich použití, stručně řečeno, univerzálnost. Ukazatele způsobilosti jsou samozřejmě konstruovány tak, aby hodnotily všechny stránky způsobilosti výrobního procesu. Následují další řešené příklady. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 163 PŘÍKLAD 3 Ověřte si, že vzdaluje li se  od T (nabývá hodnot 50; 57,5; resp. 61) a současně se zmenšuje  (nabývá hodnot 5; 2,5; resp. 1,33), zůstává CpK nezměněno. Specifikace procesu je: USL = 65, LSL = 35, T = 50. ŘEŠENÍ a) 5,50   65 50 1 3 5pUC     , 50 35 1 3 5pLC     ; CpK = 1. b) 57,5, 2,5   65 57,5 1 3 2,5 pUC     , 57,5 35 3 3 2,5 pLC     ; CpK = 1. c) 61, 4/3   65 61 1 3 1,33 pUC     , 61 35 6,5 3 1,33 pLC     ; CpK = 1. PŘÍKLAD 4 Vypočítejte index Cpm, který je definován vztahem 6. pm USL LSL C    , kde 2 2 2( )T     . Parametry procesu jsou: 14,3/2  T , USL = 18, LSL = 10. ŘEŠENÍ 18 10 2 6 (2 / 3)pmC     . Poznámka: Odhad 2ˆ je možné počítat i přímo z dat podle vztahu 1 12 2ˆ ( ) .n i x Tin    PŘÍKLAD 5 Je dána specifikace procesu : LSL = 10, USL = 18, T = 14. Směrodatná odchylka je 2/3.  Vypočítejte Cpm pro T a T ( 15  ) a porovnejte jej v obou případech s Cp. 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ - 164 - ŘEŠENÍ a) T14 2 2 2 2 18 10 2. 6. ( ) 6 (2 / 3) (14 14) pm USL LSL C T           18 10 2. 6 6(2 / 3) p USL LSL C       Pro T je tedy Cp = Cpm. b) 15 T   2 2 2 2 18 10 1,11. 6 ( ) 6 (2 / 3) (15 14) pm USL LSL C T           Cp = 2 (beze změny). Pro T  je tedy ppm CC  . PŘÍKLAD 6 vypočítejte Cpm a CpK opět pro zhoršující se a zlepšující se ( 5,50   , 57,5, 2,5   , 61, 4/3   ). Porovnejte Cpm a CpK. Specifikace procesu: USL = 65, LSL = 35, T = 50. ŘEŠENÍ a) 5,50   : 2 2 2 2 65 35 1. 6 ( ) 6 5 (50 50) pm USL LSL C T           b) 57,5, 2,5   : 65 35 0,632. 2 2 2 26 ( ) 6 2,5 (57,5 50) pm USL LSL T C            c) 61, 4/3   : 2 2 2 2 65 35 0,448. 6 ( ) 6 (4 / 3) (61 50) pm USL LSL T C            Z předchozích příkladů je vidět, že zatímco CpK se při zhoršujícím se  nemění „díky“ zmenšování směrodatné odchylky, index Cpm zhoršení průměru  zaznamenal. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 165 PŘÍKLAD 7 Pro dané výsledky měření vypočítejte indexy Cp, CpK, Cpm: 143, 200, 160, 181, 148, 178, 162, 215, 161, 141. Specifikace procesu: USL = 240, LSL = 100 a T = 170. ŘEŠENÍ μ = 168,9, σ = 24,49, τ = 24,51, Cp = 0,953, CpK = 0,938, Cpm = 0,952. KONTROLNÍ TEST 12 1. Jaká hodnota indexu způsobilosti je vždy nevyhovující? 2. Jaké dva atributy procesu hodnotí index způsobilosti? 3. Jaká je společná podmínka pro použití indexů Cp a CpK? 4. Co je to způsobilost procesu? 5. Vyjmenujte dva typy podmínek pro hodnocení způsobilosti. 6. Vyjmenujte obecné podmínky hodnocení způsobilosti. 7. Jak se hodnotí způsobilost u atributů? 8. Čím je určena specifikace výrobního procesu? 9. Co je pravidlo 3 sigma? 10. Napište vzorec pro výpočet indexů Cp, CpK a Cpm. 11. Kdy se index Cpm rovná indexu Cp? 12. Nakreslete situaci, kdy je proces vycentrován, ale má příliš velkou variabilitu. 13. Nakreslete situaci, kdy má proces vyhovující variabilitu, ale není vycentrován. 14. Nakreslete situaci, kdy je proces nevyhovující z důvodu variability i centrování. ŘEŠENÍ KONTROLNÍHO TESTU 12 (OTÁZKY 1-9 a 11) 1. Menší než 1. 2. Centrování a variabilitu procesu. 3. Normalita sledovaného znaku kvality. 4. Schopnost procesu trvale dosahovat předepsané ukazatele kvality. 5. Obecné a specifické. 6. Proces je stabilní, data jsou nezávislá, bez odlehlých pozorování a v dostatečném rozsahu, tolerance je stanovena správně. 7. Podíl vyhovujících výrobků ku všem výrobkům. 8. Specifikace výrobního procesu je určena trojicí LSL, T, USL. 9. Podle „pravidla 3 sigma“ leží v intervalu ( 3 , 3 )     99,73 % hodnot náhodné veličiny, která má normální rozdělení. 11. Je-li τ =μ. 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ - 166 - ZÁVĚR Tento učební text byl věnován vybraným, avšak hojně používaným statistickým metodám, které zahrnovaly i postupy upatňované v průmyslové praxi. Logika celého textu byla postavena na skutečnosti, že průmyslové postupy využívají statistické pojmy a procedury, a tudíž je třeba tyto partie matematiky čtenáři prezentovat a vysvětlit před tím, než začnou být aplikovány v průmyslu, případně i jiných sektorech národního hospodářství. Dnes již klasické statistické metody zahrnují regresní a korelační analýzu, testování statistických hypotéz, analýzu časových řad, analýzu rozptylu a principy deskriptivní statistiky. Těmito disciplínami jsme se zabývali v kapitolách 1-8. Zbývající kapitoly pak byly věnovány plánování experimentů, která velmi úzce souvisí s regresní analýzou, Taguchiho ztrátovým funkcím, regulačním diagramům a hodnocení způsobilosti. Struktura textu ctila běžné schema, podle kterého je vysvětlovaná problematika doplňována řešenými ukázkovými příklady a závěry kapitol obsahují otázky a příklady k samostatnému vypracování. Poznamenejme, že tato učebnice slouží zejména jako přehled hlavních statistických metod, v němž jsou vyobrazeny hlavní myšlenky a principy těchto metod. Náplň a rozsah publikace odpovídá hloubce, v jaké je na Obchodně-podnikatelské fakultě Slezské univerzity vyučován předmět Statistické metody pro ekonomy. Pro každou z uvedených kapitol lze nalézt i specializované učebnice zameřené čistě na vybranou oblast. Pokud si čtenář po přečtení tohoto učebního textu zformuloval otázky, na které zde nenalezl odpověď, je možné nahlédnout na tuto problematiku případně i z jiných úhlů popsaných v literatuře, která je uvedena na konci této učebnice. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 167 SEZNAM POUŽITÉ LITERATURY [1] BISSELL, B.: Statistical methods for SPC and TQM. 1.vyd. London: Chapman and Hall, 1994, ISBN 9780412394409. [2] HÁTLE, J., LIKEŠ, J.: Základy počtu pravděpodobnosti a matematické statistiky. 2.vyd. Praha: SNTL, 1974. [3] HINDLS, R., HRONOVÁ, S., SEGER, J.: Statistika pro ekonomy. 1.vyd. Praha: Professional Publishing, 2002, ISBN 80-86419-26-6. [4] KAŇKA, M. Vybrané partie z matematiky pro ekonomy. 1.vyd. Praha:VŠE, 1998, ISBN 80-7079-537-9. [5] RAMÍK, J., ČEMERKOVÁ, Š.: Statistika B. 2.vyd. Karviná: SU OPF, 2000, ISBN 80- 7248-099-5. [6] RAMÍK, J., ČEMERKOVÁ, Š.: Kvantitativní metody B: statistika:distanční studijní opora. 1.vyd. Karviná: SU OPF, 2003, ISBN 80-7248-198-3. [7] SEGER, J., HINDLS, R.: Statistické metody v ekonomii. 1.vyd. Jinočany: H&H, 1993, ISBN 80-85787-26-1. [8] SEGER, J., HINDLS, R., HRONOVÁ, S.: Statistika v hospodářství. 1.vyd. Praha: ETC Publishing, 1998, ISBN 80-86006-56-5. [9] TOŠENOVSKÝ, J., NOSKIEVIČOVÁ, D.: Statistické metody pro zlepšování jakosti. 1.vyd. Ostrava: Montanex, a.s., 2001, ISBN 80-7225-040-X. [10] TOŠENOVSKÝ, J., DUDEK, M.: Základy statistického zpracování dat.1.vyd. Ostrava: VŠB, 2001, ISBN 80-248-0006-3. 0 příloha č.1 - tabulky durbin-watsonova testu - 168 PŘÍLOHA Č.1 - TABULKY DURBIN-WATSONOVA TESTU Tabulky pro Durbin – Watsonův test: alfa = 1%, dL = dolní mez, dU = horní mez, n = rozsah výběru, k = počet regresorů v modelu bez absolutního členu. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 169 - 0 příloha č.1 - tabulky durbin-watsonova testu - 170 Tabulka pro Durbin – Watsonův test: alfa = 5%, dL = dolní mez, dU = horní mez, n = rozsah výběru, k = počet regresorů v modelu bez absolutního členu. Filip Tošenovský; STATISTICKÉ METODY PRO EKONOMY - 171 -