Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné STATISTICKÉ METODY PRO EKONOMY distanční studijní opora Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský Karviná 2005 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 2 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 3 OBSAH MODULU STATISTICKÉ METODY PRO EKONOMY 1 ZÁKLADNÍ POJMY A METODY ZE STATISTIKY...................................................................................7 1.1 Statistický soubor s jedním znakem - argumentem...................................................................8 1.1.1 Charakteristiky polohy .........................................................................................................................10 1.1.2 Charakteristiky variability....................................................................................................................11 1.1.3 Šikmost (skewness, z angl. vyslov: skjúnis).........................................................................................12 1.1.4 Špičatost (kurtosis, z angl. vyslov: kərtosis) ........................................................................................13 1.2 Statistický soubor se dvěma znaky............................................................................................14 1.3 Testy statických hypotéz.............................................................................................................16 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU...............................................................................................27 2.1 Marketingová případová studie.................................................................................................28 2.2 Co přináší testování statistických hypotéz v marketingu?......................................................28 2.3 Jednovýběrový t-test: řešení příkladu 2-1 pomocí MS Excelu ...............................................30 2.4 Dvouvýběrový t-test – nepárový a párový: řešení příkladů ze Studie ...................................31 2.5 Mediánový t-test (pro 1 výběr) ..................................................................................................34 2.6 Chi-kvadrát test pro 1 výběr......................................................................................................35 2.7 Dvouvýběrové testy.....................................................................................................................38 2.8 Chi-kvadrát test pro 2 výběry....................................................................................................38 3 REGRESNÍ ANALÝZA ..................................................................................................................................45 3.1 Podstata regresní analýzy...........................................................................................................45 3.2 Odhad regresních koeficientů....................................................................................................48 3.3 Test významnosti regresních koeficientů..................................................................................52 3.4 Intervaly spolehlivosti regresních koeficientů..........................................................................53 3.5 Test vhodnosti regresního modelu.............................................................................................54 4 KORELAČNÍ ANALÝZA...............................................................................................................................63 4.1 Koeficient korelace......................................................................................................................64 4.2 Index korelace .............................................................................................................................66 4.3 Spearmanův koeficient (pořadové) korelace ............................................................................67 4.4 Vícenásobná lineární závislost – vztahy pro dvě vysvětlující proměnné...............................68 5 METODY PROGNÓZOVÁNÍ TRŽEB .........................................................................................................75 5.1 Časové řady – prognózování tržeb ............................................................................................76 5.2 Analýza trendové složky.............................................................................................................77 5.3 Analýza sezónní složky ...............................................................................................................80 5.3.1 Model konstantní sezónnosti ................................................................................................................81 5.4 Analýza náhodné složky .............................................................................................................83 5.5 Testování vlastností náhodné složky .........................................................................................84 5.6 Prognózování v ČŘ .....................................................................................................................86 5.7 Kauzální prognostické metody ..................................................................................................89 6 ANALÝZA ROZPTYLU .................................................................................................................................92 6.1 Jednofaktorová ANOVA ............................................................................................................93 6.2 Postup při analýze rozptylu s jedním faktorem .......................................................................95 6.3 Míra těsnosti závislosti................................................................................................................98 7 ANALÝZA ROZPTYLU (ANOVA): DVOJNÉ TŘÍDĚNÍ A LATINSKÉ ČTVERCE ..........................104 7.1 Dvojné třídění............................................................................................................................105 7.2 Trojné třídění (Latinské čtverce).............................................................................................109 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 4 8 ÚPLNÉ FAKTOROVÉ PLÁNY...................................................................................................................119 8.1 Základy experimentování a oblasti použití.............................................................................119 8.2 Experimentální procedura .......................................................................................................120 8.3 Efekt (vliv) faktoru, významnost efektu .................................................................................124 8.3.1 Efekt (vliv) faktoru.............................................................................................................................124 8.3.2 Test významnosti efektu.....................................................................................................................126 8.4 Grafické hodnocení efektu faktoru, grafy interakcí..............................................................127 8.4.1 Grafické hodnocení efektu faktorů.....................................................................................................127 8.4.2 Grafy interakcí....................................................................................................................................128 8.5 Model experimentu 23...............................................................................................................129 9 ČÁSTEČNÝ FAKTOROVÝ EXPERIMENT SE DVĚMA ÚROVNĚMI................................................136 9.1 Poloviční plány ..........................................................................................................................137 9.2 Grafická metoda........................................................................................................................140 10 TAGUCHIHO METODY: ZTRÁTOVÁ FUNKCE .................................................................................150 10.1 Definice a vlastnosti ztrátové funkce.....................................................................................151 10.2 Ztrátová funkce pro různé typy tolerance............................................................................153 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY NA JAKOST.........................................................163 11.1 Monitorování nákladů na jakost ...........................................................................................164 11.2 Provádí se 100% kontrola procesu........................................................................................165 11.3 Kontrola procesu se provádí po n jednotkách......................................................................166 11.4 Regulační diagramy ................................................................................................................168 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ ..................................................................177 12.1 Co je způsobilost procesu .......................................................................................................178 12.2 Jaké jsou cíle hodnocení způsobilosti....................................................................................178 12.3 Jak se provádí výběr vhodného ukazatele ............................................................................178 12.4 Předpoklady hodnocení způsobilosti.....................................................................................179 12.5 Atributy....................................................................................................................................179 12.6 Měřitelné charakteristiky kvality..........................................................................................180 12.7 Index Cp....................................................................................................................................181 12.8 Index CpK .................................................................................................................................182 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 5 ÚVODEM MODULU STATISTICKÉ METODY PRO EKONOMY Tento text představuje studijní oporu pro kombinované a distanční studium všech akreditovaných studijních programů v bakalářském a magisterském studiu na Slezské univerzitě, Obchodně podnikatelské fakultě v Karviné. Předmět Statistické metody pro ekonomy, který navazuje na předmět Kvantitativní metody B obsahující základní statistické metody, klade důraz na uplatnění statistických metod v aplikovaných ekonomických disciplínách, jako jsou marketing, management, plánování výroby a řízení jakosti. Samotný učební text, nebo jak se říká v terminologii distančního studia: studijní opora - umožňující distančnímu studentovi plnohodnotné a zároveň samostatné studium – je rozčleněn do 12 tématických bloků. Jednotlivé bloky odpovídají obvyklým 12 výukovým týdnům jednoho semestru a jsou přibližně stejně obsahově rozsáhlé a obtížné. Takový rozsah učiva odpovídá klasické dvouhodinové přednášce v prezenčním studiu na vysoké škole ekonomického zaměření. V prezenčním studiu je ovšem přednáška doplněna seminářem – cvičením, kde se probraná látka aplikuje na konkrétní číselné příklady, které se řeší až k požadovanému výsledku často pomocí počítače. Distanční vysokoškolské studium je specifická forma, která v případě předmětu Statistické metody pro ekonomy vyžaduje enormní úsilí studenta zaměřené na pravidelnost a vytrvalost v samostudiu, schopnost koncentrace na předmět, aktivní přístup spočívající samostatném řešení příkladů. V tom všem by vám tato studijní opora měla pomoci nahradit kvalitní prezenční výuku i úlohu učebnic a skript. Distanční opora je k tomu účelu vybavena určitými nástroji, specifickými právě pro distanční formu, o jejichž funkcích byste měli vědět a mohli je tudíž účelně využívat ve svůj prospěch. Pro lepší zvládnutí látky jsou vám v příslušných adresářích k dispozici ještě doplňkové elektronické opory. Dalšími podpůrnými zdroji ke studiu mohou být učebnice a skripta z prezenčního studia a další doporučená literatura. Zajisté jste si již povšimli, že text je opatřen širšími okraji, obsahujícími marginálie: hesla a ikony. Volné místo slouží k tomu, abyste jej zaplnili svými poznámkami a značkami k lepšímu pochopení studované látky (samozřejmě u opory v tištěné podobě). Význam ikon používaných v textu naleznete na konci modulu v seznamu použitých značek, symbolů a zkratek. Předpokladem pro úspěšné zvládnutí tohoto kurzu Statistické metody pro ekonomy je zvládnutí kurzu Kvantitativní metody B. Ne všechno, co jste se v kurzu Kvantitativní metody B naučili, zde využijete, řada věcí tam prezentovaných měla jiný účel. Rozhodně se vám však vyplatí nabytá schopnost přesného a logického uvažování, nezbytností je též zvládnutí matematické symboliky a základních partií teorie pravděpodobnosti a základů inferenční statistiky. Nyní něco k obsahu předmětu Statistické metody pro ekonomy. Přesnější název předmětu by zněl: Vybrané statistické metody pro ekonomy, nebo ještě přesněji: Vybrané statistické metody a jejich použití v marketingu, managementu a kontrole jakosti. To jsou totiž tři významné oblasti uplatnění statistických metod, s nimiž se absolventi Obchodně podnikatelské fakulty SU často v praxi setkávají. Uplatnění statistických metod v marketingu a managementu je obsahem kapitol 2 až 6, přičemž kapitola 1 je věnována zopakování základních statistických pojmů a metod. Kapitoly 7 až 12 jsou věnovány aplikacím statistických metod při plánování výroby a kontrole jakosti. Během studia budete využívat k řešení úloh známého programu Excel, s nímž jste pracovali již v předmětu Kvantitativní metody B. Jak již bylo řečeno na začátku, text je rozdělen do 12 kapitol. Průměrně by vám samostatné studium každé kapitoly mělo zabrat 4 až 6 hodin. Odměna, která vás na konci studia našeho předmětu očekává, však stojí za to: je to pocit, že jste překonali něco významného, že jste se přenesli Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 6 přes překážku, za níž se nachází svět profesionálů, kteří rozumějí odborným metodám a postupům, jež jsou obyčejným smrtelníkům nepřístupné. Získaný nadhled vám umožní snadněji pochopit a osvojit si praktické zásady analýzy informací, jimiž jsme všichni dnes zahlceni. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 7 1 ZÁKLADNÍ POJMY A METODY ZE STATISTIKY RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY ZÁKLADNÍ POJMY A METODY ZE STATISTIKY Tato kapitola je koncipována jako opakování a malé rozšíření základních pojmů a metod ze základního kurzu statistiky (Kvantitativní metody B). Rychlý náhled CÍLE KAPITOLY ZÁKLADNÍ POJMY A METODY ZE STATISTIKY Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  objasnit pojmy kumulativní a relativní četnost  popsat statistický soubor pomocí číselných charakteristik  popsat statistický soubor se dvěma znaky Budete umět Získáte:  zopakujete si a pochopíte význam pojmů základní statistický soubor, výběrový soubor, náhodný výběr  připomenete si pojmy: střední hodnota, rozptyl, kovariance Získáte Budete schopni:  formulovat nulovou a alternativní hypotézu a rozhodnout, zda nulovou hypotézu lze či nelze zamítnout. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je 4 hodiny. PRŮVODCE STUDIEM 1 Cílem statistiky je odhalit zákonitosti a analyzovat informace, které jsou obsaženy v datech. V této kapitole se nejprve seznámíme se statistickým souborem s jedním znakem a najdete zde také již známé pojmy, jako je variační řada, rozsah souboru , četnosti atd. Statistický soubor lze popsat dvěmi způsoby: pomocí grafických metod a pomocí číselných charakteristik. V druhé části se budeme zabývat statistickým souborem se dvěma znaky. V tomto případě se dá zjistit také např. vzájemná závislost daných znaků. V této úvodní kapitole si také připomeneme, co je testování statistických hypotéz. S některými testy hypotéz jste se již seznámili v kurzech Kvantitativní metody B, Statistika A nebo Statistika B. Aplikací testování hypotéz v marketingu – parametrickými i neparametrickými testy – se zabývají také další kapitoly 2 a 3. V závěru této kapitoly jsou uvedeny řešené příklady, které si samostatně projděte a pak se pusťte do příkladů k procvičení, které najdete na konci kapitoly. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 8 DEFINICE 1-1 Veličina, která je předmětem statistického sledování, se nazývá sledovaný statistický znak. Hodnoty, které může znak nabývat, tvoří základní statistický soubor (ZS), někdy se mu říká také populační soubor, či populace. Každá část ZS je tzv. výběrový soubor (VS), nebo též výběr, či vzorek. Ten může být získán různými způsoby, nejčastěji tzv. náhodným výběrem, tj. výběrem, kdy každý prvek ZS má stejnou pravděpodobnost, že bude vybrán do vzorku. Náhodný výběr o rozsahu n interpretujeme jako náhodný vektor  nXX ,...,1 . Statistické metody a postupy, které umožňují činit z údajů získaných ve výběrovém souboru závěry o základním souboru, nazýváme statistickou indukcí. Statistický znak Statistický soubor – základní / výběrový 1.1 Statistický soubor s jedním znakem - argumentem Jestliže x1 je vybraná hodnota, např. x1 = 7, říkáme, že náhodná proměnná 1X nabyla hodnotu x1. Hodnota xi se může vyskytovat i vícekrát, obecně fi krát. Číslo fi nazýváme četností hodnoty ix . Seřadíme-li hodnoty xi podle velikosti do tabulky i s příslušnými četnostmi, budeme je značit x(i). Vznikne variační řada daná následující tabulkou: x(i) x(1) )1( 1fx …            1 1 1 k i if x fi f1 f2 … fk Celkem je v souboru k různých hodnot, přičemž k  n, neboť některé hodnoty se mohou opakovat. Všimněte si, že v prvním řádku výše uvedené tabulky se vyskytují uspořádané (rostoucí) vzájemně různé hodnoty. x(i) jsou tzv. pořádkové statistiky, pro které platí: x(1)  x(2)  …  x(n). Rozlišujeme tedy hodnoty xi, kde index i určuje pořadí měření, např. x1 bylo získáno jako první údaj, x5 jako pátý údaj a hodnoty x(i), kde index i udává pořadí této hodnoty podle velikosti. Pak x(1) je nejmenší hodnota, tj. x(1) = xmin, x(5) je v pořadí pátá nejmenší hodnota, x(n) je největší hodnota z uvažovaných n hodnot, tj. x(n)= xmax. Součet nf k i i 1 je rozsah souboru. Dále značíme xmax - xmin = x(n) - x(1) = R. Přitom R nazýváme variační rozpětí. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 9 ŘEŠENÝ PŘÍKLAD 1-1 Měřením byly získány tyto údaje: x1 x2 x3 x4 x5 15 10 5 20 20 x6 x7 x8 x9 x10 10 5 20 20 10 Sestavte variační řadu a určete rozsah souboru. Variační řada Řešení příkladu Uspořádáním xi podle velikosti dostáváme: x(1) x (2) x(3) x(4) x(5) 5 5 10 10 10 x(6) x(7) x(8) x(9) x(10) 15 20 20 20 20 Příslušná variační řada bude dána touto tabulkou x(i) 5 10 15 20 fi 2 3 1 4 Rozsah souboru: fi = 2 + 3 + 1 + 4 = 10 = n. Kromě četnosti fi se dále používají tyto pojmy: a. kumulativní četnost: Fi = f1+ f2+...+ fi, b. relativní četnost: fi / n, c. relativní kumulativní četnost: Fi/n. Pokračování příkladu: Vypočtěte kumulativní četnost, relativní četnost a relativní kumulativní četnost. xi fi Fi fi/n Fi/n 5 2 2 0,2 0,2 10 3 5 0,3 0,5 15 1 6 0,1 0,6 20 4 10 0,4 1,0 četnost kumulativní četnost relativní četnost relativní kumulativní četnost Četnosti Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 10 Každý statistický soubor lze popsat v zásadě dvěma způsoby: a. pomocí grafických metod b. pomocí číselných charakteristik Grafické metody představují nejrůznější typy grafů: bodové, čárové, sloupcové, koláčové a jiné. Připomeňte si je v Excelu: menu Vložit Graf... * K ZAPAMATOVÁNÍ 1 Číselné charakteristiky jsou numerickým vyjádřením nejzákladnějších vlastností statistického souboru. Podle toho, které vlastnosti popisují, je lze rozdělit na charakteristiky: 1. polohy 2. variability 3. šikmosti 4. špičatosti. Charakte- ristiky 1.1.1 Charakteristiky polohy Aritmetický průměr obdržíme jako součet jednotlivých výsledků měření nebo zjišťování vydělený celkovým počtem výsledků. Rozlišujeme přitom průměr z celého souboru údajů, nebo jen z určitého vzorku - výběru. Ten první nazýváme populačním průměrem a označujeme jej řeckým písmenem  (mí), pro ten druhý používáme označení x s horním pruhem a nazýváme jej výběrovým průměrem. Zda se jedná o výběrový nebo populační průměr, závisí na konkrétní situaci. Vybereme-li z daného souboru všechny prvky, pak je výběrový a populační průměr totožný. Matematické vyjádření je následující: populační průměr   N i ix N 1 1  , výběrový průměr   n i ix n x 1 1 . Pomocí vah wi – kladných čísel dostáváme vážený aritmetický průměr      n i iin i i w xw w x 1 1 1 . Přitom N představuje počet údajů celého souboru, n představuje počet údajů z příslušného výbě- ru. Jsou-li k dispozici různé hodnoty xi a k ním příslušné četnosti fi (tj. počty opakování), pak populační, resp. výběrový průměr obdržíte také takto i N i i fx N   1 1  , resp. i n i i fx n x   1 1 Modus xˆ představuje nejčetnější hodnotu, tedy takovou hodnotu, která se v souboru vyskytuje nejčastěji. Je zcela nezávislý na ostatních hodnotách, které se mohou libovolně měnit, aniž se Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 11 modus změní. Modus tedy neříká nic o krajnostech, neprozrazuje, ve kterém směru a jak jsou veliké. Naproti tomu medián ~x představuje prostřední hodnotu v souboru hodnot, to je takovou hodnotu, kdy existuje stejný počet menších (nebo stejných) a stejný počet větších (nebo stejných) hodnot. Při sudém počtu hodnot neexistuje pochopitelně žádná prostřední hodnota. Medián se pak definuje jako aritmetický průměr z nejvyšší hodnoty dolní poloviny a nejnižší hodnoty horní poloviny hodnot uspořádaných podle velikosti. Takto funguje např. statistická funkce Median v Excelu. Lze se setkat též s definicí mediánu coby 50% kvantilu. V tom případě je medián největší hodnotou v dolní polovině uspořádaných hodnot. 1.1.2 Charakteristiky variability Rozptyl je aritmetickým průměrem kvadrátů odchylek od aritmetického průměru. Podle toho, zda se jedná o rozptyl z celého souboru - celé populace, nebo jen rozptyl z jistého vzorku - výběru - z této populace, rozlišujeme populační rozptyl, kterému říkáme jednoduše rozptyl, označujeme jej 2  ("sigma na druhou"), a výběrový rozptyl, označujeme jej 2 s ("es na druhou"). Vzorce vypadají následovně: 2 1 2 1 22 1 )( 1     N i i N i i x N x N , 1 )( 1 1 2 1 2 1 22          n xnx xx n s n i in i i . Číslo n-1 nazýváme počet stupňů volnosti. Ve vzorcích uvádíme vždy dva tvary, první vyplývá přímo z definice, druhý dostaneme z prvního algebraickou úpravou a tento tvar je vhodnější pro výpočet. Jsou-li k dispozici různé hodnoty xi a k ním příslušné četnosti fi (tj. počty opakování stejné hodnoty), pak populační, resp. výběrový rozptyl obdržíte také takto 2 1 2 1 22 1 )( 1     K i ii K i ii fx N fx N , resp. 1 )( 1 1 2 1 2 1 22          n xnfx fxx n s k i iik i ii . Přitom K, resp. k značí počet různých hodnot v populačním, resp. výběrovém souboru. Směrodatná odchylka je odmocninou z rozptylu. Ve shodě s předchozí terminologií rozlišujeme populační směrodatnou odchylku, označujeme ji , které říkáme prostě směrodatná odchylka, a výběrovou směrodatnou odchylku, která je odmocninou z výběrového rozptylu, označujeme s. Je zřejmé, že průměry, zejména často používaný aritmetický průměr, potřebují k správnému zhodnocení svého významu a vypovídací schopnosti ještě alespoň jeden rozměr. Takovým nejjednodušším doplněním je, že se uvede, jak jsou extrémy od sebe vzdáleny. K tomu slouží variační rozpětí R: R = xmax - xmin. Variační koeficient poskytuje nástroj, který je nezávislý na měrných jednotkách a umožňuje srovnávání. Používá se často jako míra rizika, např. cenných papírů při investování. Definujeme jej jako podíl průměru a směrodatné odchylky a vyjadřujeme jej často v procentech:   V , resp. x s v  , Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 12 podle toho, jedná-li se o populační, resp. výběrový variační koeficient. Pro vyjádření variačního koeficientu v procentech (z průměru) násobíme V, resp. v číslem 100. ŘEŠENÝ PŘÍKLAD 1-2 Vypočítejte průměr, rozptyl a variační koeficient z výběrového souboru 10 hodnot xi uvedených v následujících tabulce: i xi 1 2 2 4 3 4 4 6 5 4 6 8 7 4 8 2 9 4 10 8 Řešení příkladu x = 0,1( 2 + 4 + … + 8) = 4,60 2 s = 0,1( 22 + 42 + … + 82 ) – 4,62 = 4,04 437,0 60,4 04,4  x s v Průměrná hodnota daného souboru dat je 4,6 rozptyl je 4,04 a variační koeficient nabývá hodnoty 0,437. Je-li v > 0,5 , považuje se rozptyl za velký. * 1.1.3 Šikmost (skewness, z angl. vyslov: skjúnis) 3 1 3 3 1 3 1 )( 1 )( 1 s fxx n s xx n Skg k i ii n i i       je charakteristikou, popisující symetrii pravděpodobnostního rozdělení (četností fi ) vzhledem k aritmetickému průměru. Přitom druhou část vzorce použijete výhodně tehdy, jsou-li k dispozici různé hodnoty xi a k ním příslušné četnosti fi (tj. počty opakování stejné hodnoty). Šikmost Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 13 1.1.4 Špičatost (kurtosis, z angl. vyslov: kərtosis) 4 1 4 4 1 4 2 )( 1 )( 1 s fxx n s xx n Kug k i ii n i i       . Druhou část vzorce je výhodné použít tehdy, jsou-li k dispozici různé hodnoty xi a k ním příslušné četnosti fi. Při výpočtu číselných charakteristik je možné zjednodušit výpočty pomocí transformace dat. Jednoduchou transformaci ukážeme na příkladě výpočtu šikmosti a špičatosti g1 a g2. Špičatost ŘEŠENÝ PŘÍKLAD 1-3 Ze souboru hodnot xi uvedených v následujících tabulce (sloupec 1 a 2), vypočtěte šikmost a špičatost. 1 2 3 4 5 6 7 xi fi ui fi ui fi ui 2 fi ui 3 fi ui 4 9,52 2 -4 -8 32 -128 512 9,72 1 -3 -3 9 -27 81 9,92 4 -2 -8 16 -32 64 10,12 4 -1 -4 4 -4 4 10,32 9 0 0 0 0 0 10,52 3 1 3 3 3 3 10,72 5 2 10 20 40 80 10,92 4 3 12 36 108 324 11,12 2 4 8 32 128 512 11,32 0 5 0 0 0 0 11,52 1 6 6 36 216 1296 Sumy 35 S1=16 S2 =188 S3 = 304 S4 = 2876 Řešení příkladu Transformace dat, kdy přecházíme od proměnné x k proměnné u, se provede takto h xx u oi i   , kde 0x je jedna z hodnot. Volíme 0x = 10,32 , přitom h je vzdálenost sousedních znaků (předpokládá se, že je stejná). Zde je h = 0,2 a n = 35. Součty ve sloupcích 4 až 7, označené S1 až S4 (index odpovídá mocnině u) se použijí k výpočtu tzv. obecných momentů M1 – M4. Z nich se pak vypočítají potřebné charakte- ristiky Mi = Si/n, i = 1,2,3,4, Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 14 konkrétně M1 = 16/35 = 0,457 M2 = 188/35 = 5,371 M3 = 304/35 = 8,686 M4 = 2876/35 = 82,171 Nyní platí: a. průměr nové proměnné u: 457,01  Mu b. rozptyl u: 162,512 22  MMsu c. šikmost u: 096,0728,11/513,1/)122.133( 33 1  sMMMMg u d. špičatost u:  443 2 /)131.261.344( sMMMMMMg u 735,2646,26/890,72  Na závěr je nutné provést zpětnou transformaci (vrátit se k původní proměnné) x : a. průměr x: 411,1032,102,0.457,0.  oxhux b. rozptyl x: 206,02,0.1622,5. 2222  hss ux c. šikmost x = šikmost u. d. špičatost x = špičatost u. Zpětná transformace u šikmosti a špičatosti není zapotřebí. * 1.2 Statistický soubor se dvěma znaky DEFINICE 1-2 Máme-li statistický soubor o rozsahu n takový, že každému prvku tohoto souboru jsou přiřazeny hodnoty dvou znaků (xi ,yj), hovoříme o statistickém souboru se dvěma znaky (též argumenty). Počet stejných dvojic (xi, yj) se nazývá četností těchto dvojic a značí se fij. Veličina fij/n je relativní četnost dvojice (xi, yj). Rozsah souboru n = ji ijf , . Tabulka rozdělení četností má tvar y x y1 y2 ... yn x1 f11 f12 ... f1n f1· x2 f21 f22 ... f2n f2· ... ... ... ... ... ... xm fm1 fm2 ... fmn fm· f·1 f·2 f·n n Hovoříme o tabulce se dvěma vstupy nebo též kontingenční tabulce. V posledním řádku a po- Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 15 sledním sloupci jsou tzv. marginální četnosti f1·, f2·, . . ., fm·, f·1, f·2, . . ., f·n. Pro rozsah souboru platí : ji ijf , = f·j = fi· = n. Při zpracování dvourozměrného souboru v tabulce postupujete prakticky stejně jako u jednorozměrného souboru: nejprve zjistíte četnosti jednotlivých hodnot xi (resp. yi) bez ohledu na druhou proměnnou (marginální četnosti). V tabulce jsou označeny f·i , resp. gi· . Potom už postupujete pro každou proměnnou stejně jako u jednorozměrného souboru. Přehled vzorců pro statistický soubor se dvěma znaky: 1. Střední hodnoty  j i iji fx n x 1  i j ijj fy n y 1 2. Rozptyly   j i iji j i ijix xfx n fxx n s 2222 1 )( 1   i j ijj i j ijjy yfy n fyy n s 2222 1 )( 1 3. Kovariance yxfyx n fyyxx n c i j ijji i j ijjixy   1 ))(( 1 Důležité vztahy ŘEŠENÝ PŘÍKLAD 1-4 Pro ilustraci si ukážeme 3 příklady Kovariance Řešení příkladu a. xi 1 2 3 4 5 yj 3 4 5 6 7 Data jsou volena tak, aby s rostoucími hodnotami znaku x rostly lineárně také hodnoty znaku y: x = 3, y = 5, cxy = (1/5).0,85 – 3.5 = 2 b. xi 1 2 3 4 5 yj 5 4 3 2 1 Zde s rostoucím x klesá y: x = 3, y = 5, cxy = (1/5).35 – 3.3 = -2 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 16 c. xi 1 2 3 4 5 yj 2 2 2 2 2 Při rostoucím x zůstává y konstantní: x = 3, y = 5, cxy = (1/5).30 – 3.2 = 0 Můžeme učinit následující závěry, které platí i obecně, platí totiž: cxy  0  přímá (lineární) závislost mezi znaky x a y, cxy  0  nepřímá (lineární) závislost mezi znaky x a y, cxy = 0  nezávislost znaků x a y. Z hodnoty cxy však nelze stanovit velikost závislosti x a y. Proto se častěji používá koeficient korelace rxy, což je normovaná kovariance yx xy xy ss c r  , viz též kapitola 5. U statistického souboru se dvěma argumenty jsou některé charakteristiky, které nebyly potřebné u jednoho argumentu: zde se sleduje navíc vzájemná závislost znaků x a y. Pod pojmem závislost se dále bude rozumět a. tvar závislosti: jak se na základě změny x mění y. Hledáním tvaru závislosti se zabývá regresní analýza (viz kapitola 4) b. míra závislosti, kde se kvantifikuje stupeň závislosti x a y pomocí různých charakteristik. Tímto problémem se zabývá korelační analýza (viz kapitola 5). Míra závislosti * 1.3 Testy statických hypotéz PRŮVODCE STUDIEM 2 Testováním statistických hypotéz jste se zabývali v základním kurzu statistiky. Protože jde o jednu z nejčastěji používaných statistických metod jak v oblasti marketingového výzkumu, tak i v jiných aplikačních oblastech ekonomie, zopakujeme si zde základní pojmy, metody a postupy. Statistické hypotézy tvoří jen část vědeckých (nebo alespoň odborných) hypotéz. Týkají se náhodných veličin a rozdělujeme je do dvou velkých tříd na parametrické hypotézy a neparametrické hypotézy. Parametrické hypotézy se vztahují na jeden nebo několik parametrů daného pravděpodobnostního rozdělení náhodné veličiny (neboli znaku populace). Neparametrické hypotézy se netýkají parametrů rozdělení náhodné veličiny, nýbrž jiných statistických vlastností, např. tvaru rozdělení (například binomické rozdělení nebo normální rozdělení). Zopakujme si, že v každém testu hypotézy vystupují proti sobě dvě hypotézy: testovaná hypotéza, kterou nazýváme nulová hypotéza a značíme H0 a alternativní hypotéza, značí se H1. Obecně H1 nemusí být negací (nebo doplňkem) H0. Při testování parametrické hypotézy máme k dispozici výsledky náhodného výběru – vzorku – např. data z marketingového výzkumu a na jejich základě rozhodujeme testovanou hypotézu buď přijmout, nebo zamítnout. Za tím účelem rozdělíme výběrový prostor na dvě části: kritický Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 17 obor C a obor přijetí A. Padne-li hodnota testového kritéria T pro získaný vzorek do kritického oboru, potom ji zamítáme. Naopak, padne-li hodnota kritéria pro získaný vzorek do oboru přijetí, pak nulovou hypotézu nezamítáme (neboli přijímáme). Kritický obor odděluje od oboru přijetí obvykle kritická hodnota K. Pozor, testem statistické hypotézy nemůžeme dokázat její platnost nebo neplatnost, čí správnost nebo nesprávnost! Testování hypotéz nemusí vždy vést ke správným rozhodnutím, což je přirozené, neboť jde o náhodný proces využívající omezené informace náhodného výběru. Při praktickém testování hypotéz navrhneme 4 kroky, které povedou k rozhodnutí o zamítnutí, resp. přijetí nulové hypotézy. Princip testování hypotézy Sestrojí se testovací kritérium T, (též testové kritérium) které je z hlediska teorie pravděpodobnosti náhodná veličina. Kritérium T se sestrojí tak, aby mělo některé ze známých tabelovaných rozdělení a to právě tehdy, když platí H0. Vypočítanou hodnotu T chápeme jako realizaci této náhodné veličiny. Ta se porovná s kritickou hodnotou, neboli zjistí se, zda hodnota kritéria padne do kritického oboru. Princip testování hypotézy K ZAPAMATOVÁNÍ 2 Obecný postup testování 1. Formulace nulové hypotézy H0 a alternativní hypotézy H1, 2. výpočet testovacího kritéria T, 3. nalezení kritické hodnoty K, 4. porovnání K a T, přijetí nebo zamítnutí H0. Postup testování Jak jsme již řekli, kritická hodnota K rozděluje obor hodnot náhodné veličiny T na dvě části: - kritický obor C, - obor přijetí A. Je-li T  K, neboli T  C, H0 se zamítá. Je-li T  K, neboli T  A, H0 se přijímá - nezamítá. Protože rozhodnutí přijmout nebo zamítnout hypotézu závisí na omezené informaci ze vzorku, můžete se při testování dopustit těchto chyb: a. Zamítnete hypotézu, která platí, to je chyba prvního druhu. Pravděpodobnost chyby prvního druhu se značí  (=hladina významnosti) nebo p (někdy též pvalue /v Excelu/ = p-hodnota, též Sig. = signifikance /v SPSS/) a její smysl vyjadřuje vztah  0HCTP  . b. Přijmete hypotézu, která neplatí, to je chyba druhého druhu. Pravděpodobnost chyby druhého druhu se značí  a její smysl vyjadřuje vztah  1HATP  . Pravděpodobnost 1 -  se nazývá síla testu. Je to pravděpodobnost, že test povede k oprávněnému zamítnutí testované hypotézy H0. V posledním odstavci této úvodní kapitoly naleznete vybrané základní parametrické testy oboustranných hypotéz, s nimiž jste se seznámili v základním kurzu statistiky: (A) Jednovýběrový t – test. (B) Dvouvýběrový t – test s rovností rozptylů. Základní parametrické testy obou- stranných hypotéz Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 18 (C) Dvouvýběrový t – test s nerovností rozptylů. (D) Dvouvýběrový párový t-test. (E) Dvouvýběrový F – test pro rozptyly. Každý test je uveden ve čtyřkrokovém postupu jeho použití a lze pro něj též využít program MS Excel, kde v menu NástrojeAnalýza dat... zvolíte příslušné analytické nástroje. (A) Test předpokladu o střední hodnotě základního souboru (Jednovýběrový t – test střední hodnoty) Nechť X = (X1,...,Xn) je náhodný výběr z rozdělení N(, 2 ), přitom 2 není známo. 1. Testuje se nulová hypotéza H0:  = 0 proti alternativě H1:   0. 2. Testovací kritérium je Jednový- běrový t-test n S X T    0 (1-1) kde X = výběrový průměr, S = výběrová směrodatná odchylka, 0 = předpoklad o , n = rozsah výběru. 3. Kritická hodnota K = tn-1(/2) se určí z tabulek Studentova rozdělení pro n-1 stupně volnosti a hladinu významnosti . Pro oboustranný test se použije /2, neboť obor přijetí A je symetrický interval A = [-K, K] a kritický obor C je jeho doplňkem, C = (-, -K)(K, +). K výpočtu kritické hodnoty pomocí Excelu použijte funkci TINV(/2;n-1) v menu: Vložit  Funkce  Statistické  TINV... 4. Je-li T  tn-1(/2), zamítá se H0 a přijímá H1, jinak se přijímá H0. Výpočet kritické hodnoty v Excelu (B) Test významnosti rozdílu mezi dvěma výběrovými průměry (Dvouvýběrový t-test s rovností rozptylů) Jsou dány dva náhodné výběry o rozsahu n1 a n2 z rozdělení N(1, 2 1 ) a N(2, 2 2 ) a výběrové průměry 21, XX . Rozptyly 2 1 a 2 2 jsou neznámé, předpokládá se, že 2 1 = 2 2 (tj. rovnost rozptylů). 1. Testuje se nulová hypotéza H0: 1 = 2 proti alternativě H1: 1  2. 2. Použije se testovací kritérium T: Dvouvýběrový t-test s rovností rozptylů       21 2121 2 22 2 11 21 2 11 nn nnnn SnSn XX T       , (1-2) Kde 2,1 XX jsou výběrové průměry, 2 2 2 1 ,SS výběrové rozptyly, n1, n2 rozsahy 1. a 2. výběru. 3. Kritická hodnota K = )2/(221 nnt se určí z tabulek Studentova rozdělení pro n1+n2-2 stupně Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 19 volnosti a hladinu významnosti . K výpočtu kritické hodnoty K = )2/(221 nnt pomocí Excelu použijte funkci TINV(/2; n1+n2-2). 4. Je-li T  K zamítá se H0 a přijímá H1, jinak se přijímá H0. (C) Test významnosti rozdílu mezi dvěma výběrovými průměry (Dvouvýběrový t-test s nerovností rozptylů) Dány dva náhodné výběry o rozsahu n1 a n2 z rozdělení N(1, 2 1 ) a N(2, 2 2 ) a výběrové průměry 21, XX . Rozptyly 2 1 a 2 2 nejsou známy, předpokládá se, že 2 1  2 2 (tj. nerovnost rozptylů). 1. Testuje se hypotéza H0: 1 = 2 proti alternativě H1: 1  2. 2. Použije se testovací kritérium: Dvouvýběrový t-test s nerov- ností rozptylů 21 21 VV XX T    , (1-3) kde 1 2   i i i n S V , i = 1,2. 3. Kritická hodnota K se stanoví podle vzorce: 21 1211 )2/()2/( 21 VV tVtV K nn      , (1-4) kde    2/,2/ 11 21   nn tt se určí z tabulek Studentova rozdělení pro n1-1 a n2-2 stupně volnosti a hladinu významnosti . K výpočtu kritické hodnoty K podle (1-4) pomocí Excelu použijte funkce TINV(/2; n1-1) a TINV(/2; n2-1). 4. Je-li T  K, zamítáme H0 a přijímáme H1, jinak přijímáme H0. K ZAPAMATOVÁNÍ 3 Všimněte si, že tento test se redukuje na test (A) v tom případě, kdy druhý výběr má stejný rozsah jako první, tj. nnn  21 , a dále všechny hodnoty ve výběru jsou stejné tj. 0. Potom je totiž rozptyl souboru složeného jen ze stejných hodnot roven nule a platí: 02 2 2  VS . Dále je zřejmé, že 02 X a jak vztah pro testové kritérium tak kritickou hodnotu se redukují na analogické vztahy uvedené v testu (A). Tohoto faktu lze využít při použití Excelu k řešení testu (A) pomocí testu (C). Test (A) totiž není v Analytických nástrojích Excelu k dispozici, na rozdíl od testu (C), který k dispozici je. Využití Excelu (D) Dvouvýběrový párový t-test Jsou dány dva spárované náhodné výběry X a Y o rozsahu n z rozdělení N(1, 2 1 ) a N(2, 2 2 ) s výběrovými průměry YX, . Přitom spárování znamená, že všechny dvojice náhodných veličin Párový t-test Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 20 Xi a Yi spolu souvisejí. 1. Testuje se nulová hypotéza H0: 1 = 2 proti alternativě H1: 1  2. 2. Použije se testovací kritérium: n S D T D  , (1-5) kde iii YXD  , i = 1,2...,n, YXD  a     n i iD DD n S 1 2 )( 1 1 (1-6) 3. Kritická hodnota K = )2/(1 nt se určí z tabulek Studentova rozdělení pro n-1 stupňů volnosti a hladinu významnosti . K výpočtu kritické hodnoty K = )2/(1 nt pomocí Excelu použijte funkci TINV(/2; n-1). 4. Je-li T  K, zamítá se H0 a přijímá H1, jinak se přijímá H0. (E) Dvouvýběrový F – test pro rozptyly Jsou dány dva náhodné výběry z rozdělení N(1, 2 1 ) a N(2, 2 2 ) o rozsahu n1 a n2 a výběrové rozptyly 2 1S a 2 2S . 1. Testuje se hypotéza, že rozptyly obou rozdělení jsou stejné, tj. H0: 2 1 = 2 2 proti alternativní hypotéze H1: 2 1  2 2 2. Testovací kritérium F-test 2 2 2 1 S S T  (1-7) se sestaví tak, aby větší z rozptylů 2 1S a 2 2S byl v čitateli. 3. Kritická hodnota K = )2/(1,1 21  nnF se určí z tabulek Fischerova rozdělení pro n1-1 a n2-1 stupně volnosti a hladinu významnosti . K výpočtu kritické hodnoty K = )2/(1,1 21  nnF pomocí Excelu použijte funkci FINV(/2; n1-1; n2-1). 4. Je-li T  K, zamítá se H0 a přijímá H1. ŘEŠENÝ PŘÍKLAD 1-5 Každé ze dvou polí bylo rozděleno na 10 lánů a zaseta pšenice. Přitom na lánech prvého pole bylo použito fosfátové hnojivo. Výnosy z lánu prvního a druhého pole měly průměry 7,5,6 21  xx a rozptyly 024,0,064,0 2 2 2 1  ss . Zjistěte na 5% hladině významnosti, zda hnojení mělo průkazný vliv na výnosy. Výnosy pšenice Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 21 Řešení příkladu Nejprve pomocí F – testu ověříte, zda 2 1 = 2 2 , abyste mohli vybrat správnou variantu dvouvýběrového t – testu. Testovací kriterium bude T = 0,064 / 0,024 = 2,67. Kritická hodnota je K =     03,4025,02/ 9,91,1 21  FF nn  . Protože je T  K, přijímáte H0, tedy 2 1 = 2 2 . Při provádění požadovaného t – testu volíte tedy variantu (B). Pomocí tohoto dvouvýběrového t – testu porovnáte výběrové průměry 7,5,6 21  xx , jeli 024,0,064,0 2 2 2 1  ss , n1 = n2 = 10. Použijete testovací kritérium   2,3 1010 210101010 024,09064,09 7,56       T . Kritická hodnota K = t10+10-2(0,05) = 2,101. Protože T  K, zamítá se H0 a přijme H1. Konstatujete tedy, že mezi výběrovými průměry je významný rozdíl, tedy průměr výnosů z hnojeného pole je průkazně vyšší než výnos nehnojeného. To znamená, že hnojení má průkazný vliv na výnosy. * SHRNUTÍ KAPITOLY ZÁKLADNÍ POJMY A METODY ZE STATISTIKY V této první kapitole jste si spíše jen zopakovali základní pojmy statistiky. Věnovali jste se souboru s jedním a se dvěma znaky. Poznali jste pojmy jako: základní statistický soubor, výběrový soubor, charakteristiky polohy, charakteristiky variability, šikmost, špičatost, kovariance, princip testování hypotéz, kritický obor, obor přijetí, testové kritérium, hladina významnosti a chyby, které mohou při testování vzniknout. V poslední části kapitoly byl uveden obecný 4-krokový postup testování hypotéz pro 5 základních parametrických testů. Shrnutí kapitoly Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 22 ŘEŠENÝ PŘÍKLAD 1-6 V následující tabulce jsou uvedeny údaje o 40 panelech plynových hořáků, na nichž byla nalezena alespoň jedna vada. Vypočtěte relativní a kumulativní relativní četnosti. Místo výskytu vady Absolutní četnost Plynový přívod 14 Povrchová úprava 10 Ovladače 8 Termoizolace 6 Elektrické zapalování 2 Plynové hořáky Řešení příkladu Tabulku doplňte o požadované dva sloupce. Relativní četnosti vypočítáte jako podíl absolutních četností k celkovému počtu údajů, kumulativní četnosti pak postupně načítáte. Místo výskytu vady Absolutní četnost Relativní četnost Kumulativní četnost Plynový přívod 14 0,35 0,35 Povrchová úprava 10 0,25 0,60 Ovladače 8 0,20 0,80 Termoizolace 6 0,15 0,95 Elektrické zapalování 2 0,05 1,00 Z výsledků kumulativní četnosti lze usoudit, že například tři nejčastěji se vyskytující vady (plynový přívod, povrchová úprava a závada některého ovladače) tvoří 80% všech nalezených vad. * ŘEŠENÝ PŘÍKLAD 1-7 Máte k dispozici údaje o počtech výrobků vyrobených za směnu v souboru 15 dělníků: 8, 5, 9, 8, 6, 6, 10, 8, 7, 6, 9, 7, 8, 6, 8. Určete modus, medián a průměrný počet výrobků vyrobených za směnu. Výrobky Řešení příkladu Nejčetnější hodnota – modus: 8ˆ x . Tato hodnota je v souboru vyskytuje 5krát. Prostřední hodnota – medián: 8~ x . Jestliže seřadíme údaje vzestupně, pak na 8. místě se nachází hodnota 8. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 23 Průměrný počet výrobků: 4,7 15 111 x . * ŘEŠENÝ PŘÍKLAD 1-8 Tabulka zachycuje výsledky studentů v předmětech Statistika B a Statistické metody pro ekonomy. (a) Vypočítejte průměrné výsledky v obou předmětech a porovnejte variabilitu výsledků. (b) Jsou výsledky v některém předmětu statisticky významně lepší? Hodnocení Statistika B Statistické metody pro ekonomy Výborně (1) 24 58 Velmi dobře (2) 51 45 Dobře (3) 68 35 Neprospěl (4) 21 2 Výsledky studentů Řešení příkladu (a) Nejprve vypočtěte průměr a rozptyl v souboru výsledků předmětu Statistika B: 52,2 164 414 164 21.468.351.224.1 1   x ,          22222 1 52,242152,236852,225152,2124 164 1 s 0,79. Analogicky pro hodnocení předmětu Statistické metody pro ekonomy dostanete následující výsledky: 86,1 140 261 140 2.435.345.258.1 2   x ,          .71,086,14286,133586,124586,1158 140 1 22222 2 s Lze tedy konstatovat, že studenti mají lepší průměrné výsledky v kurzu Statistické metody pro ekonomy. V tomto kurzu byla také zjištěna menší variabilita souboru výsledků. Jsou však tyto hodnoty průkazné, tj. statisticky významné? To zjistíte pomocí dvouvýběrového t-testu. Abyste mohli vybrat ten správný: (B) nebo (C), musíte předtím testovat, zda rozdíly rozptylů jsou statisticky významné, tedy použít k tomu test (E). Pro uvedené testy použijte obvyklou hladinu významnosti  = 0,05. (b) Máme dva náhodné výběry z rozdělení N(1, 2 1 ) a N(2, 2 2 ) o rozsahu n1 a n2 a výběrové rozptyly 2 1s a 2 2s . 1. Testujete hypotézu H0: 2 1 = 2 2 proti alternativní hypotéze H1: 2 1  2 2 . Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 24 2. Testovací kritérium 113,1 71,0 79,0 2 2 2 1  s s T . 3. Kritická hodnota je K =  )05,0()( 139,1631,1 21 FF nn  1,311. Hodnotu naleznete např. v Excelu pomocí statistické funkce FINV. 4. Protože T < K, přijímá se H0: 2 1 = 2 2 . Proto k testování rovnosti středních hodnot použijeme testu (B). 1. Testujeme hypotézu H0: 1 = 2 proti alternativě H1: 1  2. 2. Použijeme testovací kritérium T: 531,7 304 302140164 71,0.13979,0.163 86,152,2      T , kde 86,1,52,2 21  xx jsou výběrové průměry, 71,0,79,0 2 2 2 1  ss jsou výběrové rozptyly, n1 = 164, n2 = 140 jsou rozsahy 1. a 2. výběru. 3. Kritická hodnota K =   97,105,0302 t . 4. Protože je T  K zamítáme H0 a přijímáme H1: 1  2. Konkrétně průměrné výsledky (známky) z předmětu Statistické metody pro ekonomy jsou statisticky významně lepší. * KONTROLNÍ TEST 1 1.1 Variační rozpětí R je dáno vztahem maxmin xxR  . 1.2 Statistický soubor lze popsat pomocí grafických a výpočetních metod. 1.3 Z hodnoty kovariance lze zjistit velikost závislosti y na x. 1.4 Hledáním tvaru závislosti se zabývá regresní analýza. 1.5 Alternativní hypotéza je vždy negací nulové hypotézy. Ano či ne? 1.6 Mezi charakteristiky variability patří: __________, __________, __________, __________. 1.7 Máme-li statistický soubor se dvěma argumenty, pak součty četností v jednotlivých řádcích či v jednotlivých sloupcích nazýváme __________ __________ 1.8 Pokud kovariance 0xyc , jedná se o __________ závislost. 1.9 Pod pojmem závislost rozumíme: __________ a __________ závislosti. 1.10 Při testování hypotéz se testové kritérium porovnává s __________ hodnotou. Doplňte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 25 1.11 Směnárna v jisté bance je vybavena dvěma přepážkami pro odbavování klientů. První z nich každou hodinu smění průměrně cizí měny v protihodnotě 81 328 Kč, druhá 96 018 Kč. Celkový hodinový průměr za obě pracoviště je 87 222 Kč. Jak se která přepážka podílí v % na směnárenské činnosti? 1.12 Uvažujte soubor důchodců, jejichž průměrný měsíční důchod je 4 800 Kč a směrodatná odchylka měsíčních důchodů je 500 Kč. Při které úpravě důchodu se nezmění směrodatná odchylka a proč? a. každý důchodce dostane přidáno 150 Kč, b. důchod každého důchodce se zvýší o 5% Řešte 1.13 V tabulce jsou údaje o týdenních mzdách ve dvou dílnách. Porovnejte variabilitu v obou dílnách výpočtem rozptylu. Dílna 1 Dílna 2 2400 2613 2134 2496 2407 2736 2445 2676 2984 3093 3354 3537 3515 3622 3515 3561 3225 3385 3063 3155 2694 2788 2600 2838 1.14 Podnik vyrábějící bílé zboží si provedl průzkum výdajů domácností za tento druh průmyslového zboží u dvou typů domácností (se dvěma dětmi a se čtyřmi dětmi). Cílem tohoto průzkumu bylo zjistit, zda domácnosti s více dětmi skutečně nakupují vícekapacitní, a tedy dražší přístroje. U 12 náhodně vybraných rodin s dvěma dětmi byly zjištěny následující hodnoty ročních výdajů za bílé zboží ( v tis. Kč): 41,2 39,4 36,3 38,7 39,9 38,3 40,6 41,5 37,4 43,1 35,7 35,8. Podobně u 6 náhodně vybraných rodin se čtyřmi dětmi byly tyto údaje následující: 39,2 43,8 38,9 44,3 41,2 44,1. Formulujte příslušnou nulovou hypotézu a testujte ji dvouvýběrovým vhodným testem. ŘEŠENÍ KONTROLNÍHO TESTU 1 1.1 ne 1.2 ne 1.3 ne 1.4 ano 1.5 ne Ano či ne? Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 26 1.6 rozptyl, směrodatná odchylka, variační rozpětí, variační koeficient 1.7 marginální četnosti 1.8 přímou 1.9 tvar, míru 1.10 kritickou Doplňte 1.11 podíly %1,40401,0%,9,59599,0 21  pp 1.12 v případě a); průměr se zvýší také o 150,- Kč, odchylka hodnoty důchodu od průměru zůstane proto stejná, tedy i součet kvadrátů odchylek. 1.13 708,2073752 1 s , 694,1499712 2 s 1.14 Hodnota testového kritéria 247,0T leží v oboru přijetí, tudíž se neprokázal na hladině významnosti 5% statisticky významný rozdíl mezi rozptyly. Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 27 2 TESTOVÁNÍ HYPOTÉZ V MARKETINGU CÍLE KAPITOLY TESTOVÁNÍ HYPOTÉZ V MARKETINGU Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  co přináší testování statistických hypotéz  rozlišovat jednostranné a oboustranné testy, parametrické a neparametrické testy  Mediánový test  Chi-kvadrát test pro jeden výběr  Chi-kvadrát test pro dva výběry Budete umět Budete schopni:  aplikovat výše uvedené testy v oblasti marketingu Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je 6 hodin. PRŮVODCE STUDIEM 3 Testováním statistických hypotéz jste se částečně zabývali již v předchozí kapitole a také jste se již s ním setkali v základním kurzu statistiky. Protože jde o jednu z nejčastěji používaných statistických metod jak v oblasti marketingového výzkumu, tak i v jiných aplikačních oblastech ekonomie, budeme se jím zabývat podrobněji ještě v této kapitole a také kapitole následující. Půjde nám především o aplikaci těchto metod v marketingu, nebo jak se vznešeněji říká - v marketingovém výzkumu. Jak již bylo řečeno, proces testování zahrnuje většinou vyšetřování předpokladů o hodnotách parametrů určitého rozdělení. Statistické hypotézy tvoří jen část vědeckých (nebo alespoň odborných) hypotéz. Týkají se náhodných veličin a rozdělujeme je do dvou velkých tříd na parametrické hypotézy a neparametrické hypotézy. Parametrické hypotézy se vztahují na jeden nebo několik parametrů daného pravděpodobnostního rozdělení náhodné veličiny (neboli znaku populace). Neparametrické hypotézy se netýkají parametrů rozdělení náhodné veličiny, nýbrž jiných statistických vlastností, např. tvaru rozdělení (například binomické rozdělení nebo normální rozdělení). Při testování parametrické hypotézy máme k dispozici výsledky náhodného výběru – vzorku – data z marketingového výzkumu a na jejich základě rozhodujeme testovanou hypotézu buď přijmout, nebo zamítnout. Na rozdíl od parametrických testů, které vyžadují intervalová data, neparametrické testy vystačí s ordinálními nebo s nominálními daty. Typickým příkladem jsou dvourozměrná data uspořádána do kontingenční tabulky. Představte si pro příklad jednoduchou kontingenční tabulku se dvěma znaky: Pohlaví (s hodnotami Muž a Žena) a Kuřáctví (s hodnotami Kouří, Nekouří). Neparametrickým testem se testuje hypotéza, že tyto dva znaky spolu souvisejí, jinak řečeno, že muži kouří v průměru (statisticky) významně více než ženy, nebo je to obráceně? Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 28 Testem statistické hypotézy nemůžeme dokázat její platnost nebo neplatnost, správnost nebo nesprávnost! Testování hypotéz nemusí vždy vést ke správným rozhodnutím, což je přirozené, neboť jde o náhodný proces využívající pouze informace náhodného výběru. 2.1 Marketingová případová studie Pro výukové účely demonstrace statistických metod se v celém následujícím kurzu budete čas od času zabývat případovou marketingovou studií, kterou budeme zkráceně označovat jako Studie: Jistá firma (nebudeme ji zde jmenovat) chce na trhu s nealkoholickými nápoji uplatnit svůj nový výrobek: sycený nealkoholický nápoj - limonáda typu "cola". Nový výrobek se uvádí na trh ve dvou verzích názvu: Kafola a Kofikola (Ka/Ko). Obě limonády se liší pouze názvem a designem obalu, jinak mají totožný obsah. Na jisté fakultě (nebudeme ji rovněž raději jmenovat) je bufet a několik prodejních automatů s nealko nápoji, kde se nový nápoj pokusně již nějakou dobu prodává. Fakulta má přibližně 4000 studentů a 400 zaměstnanců.Byl vytvořen dotazník, na jehož základě byla získána data, tj. vzorek 200 respondentů - studentů a zaměstnanců, o spotřebě a oblibě nealkoholických nápojů včetně nového nápoje, viz Dotazník. Marketin- gová studie Účel studie:  prezentovat typickou studii marketingového výzkumu v malém měřítku,  demonstrovat všechny důležité statistické metody tak, byla zřejmá jejich užitečnost pro marketing,  porozumět podstatě těchto metod,  používat tyto metody pomocí běžných programů – Excel a SPSS. Účel studie 2.2 Co přináší testování statistických hypotéz v marketingu? V případě intervalových dat, tj. číselných dat, která mohou nabývat libovolných hodnot z nějakého číselného intervalu hodnot, odpovídá testování statistických hypotéz v marketingovém výzkumu na specifické otázky:  Existuje významný soulad dané charakteristiky (parametru) – například průměru vzorku se zadanou hodnotou?  Existuje významný rozdíl dané charakteristiky (parametru) mezi 2 (nebo více) vzor- ky? Na rozdíl od první kapitoly, kde jste si zopakovali oboustranné testy hypotéz, se v této kapitole budete zabývat i jednostrannými testy, kdy hodnota parametru má být větší (eventuálně menší) než předem daná hodnota. Připomeňte si, že u oboustranných testů měla být hodnota parametru různá od předem zadané hodnoty. Otázky k řešení pomocí testů hypotéz Parametr - v oblasti marketingu to bývá obvykle průměr , směrodatná odchylka , poměr P. Parametr V případě ordinálních nebo nominálních dat odpovídá testování neparametrických hypotéz na tyto otázky: 1. Existuje významný soulad dané charakteristiky vzorku se zadanou charakteristikou nebo hodnotou? 2. Existuje významný rozdíl dané charakteristiky mezi 2 (nebo více) vzorky? Otázky, na které odpovídá neparametrický test Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 29 Charakteristikou se míní např. medián, zadané pořadí, rozdělení pravděpodobnosti (četnosti) apod. Neparametrické testy hypotéz dělíme na: 1. Jednovýběrové testy: - Má medián populace s neznámým rozdělením stanovenou hodnotu? (na tuto otázku odpoví mediánový test). - Pochází výběr z populace se zadaným (známým) rozdělením pravděpodobnosti? (na tuto otázku odpoví Chi-kvadrát test). Jednovýběrový test 2. Dvouvýběrové testy: - Mají dva výběry stejný medián? (Odpoví mediánový test). - Pochází dva výběry ze stejné populace? (Lze použít Chi kvadrát test). Dvouvýběrové testy ŘEŠENÝ PŘÍKLAD 2-1 Je průměrný počet vypitých limonád týdně menší než sedm, tedy 0 = 7? Zde se jedná o soulad průměru se zadanou hodnotou. Příklad ze Studie Řešení příkladu Obecný postup (tzv. Jednostranný jednovýběrový t-test): Formulujte nulovou hypotézu H0, tj. H0 :  < 0 a k ní alternativní hypotézu H1:   0 . Použijeme test (A) z kapitoly 1, který modifikujeme pro případ jednostranné hypotézy. 1. Testujete hypotézu H0:  < 0 proti alternativě H1:   0 2. Použijete testovací kritérium Jednovýběrový t- test Nulová hypotéza Hladina význam- nosti n S X T    0 kde X = výběrový průměr, S = výběrová směrodatná odchylka, 0 = 7 předpoklad o střední hodnotě, n = 200 rozsah výběru. 3. Kritická hodnota K = tn-1() se určí z tabulek Studentova rozdělení pro n- 1 stupně volnosti a hladinu významnosti . Pro jednostranný test se použije , nikoliv /2, jako v kap.1, kde se pravděpodobnost  „rozdělila“ stejně na obě strany. Obor přijetí A je zde interval A = (-, K] a kritický obor C je jeho doplňkem, C = (K, +). Pravděpodobnost  „zůstává“ na jedné straně. K výpočtu kritické hodnoty pomocí Excelu použijte funkci TINV( ; n-1) v menu: Vložit  Funkce  Statistické  TINV... (1-1) 4. Je-li T  K, potom zamítáme H0 a přijímáme H1, jinak přijímáme H0. Protože jste měli k dispozici pouze ne příliš velký vzorek (n = 200), může být přesto hypotéza správná. Uvědomte si, že svůj soud opíráte o vzorek 200 respondentů a populace má 4400 potenciálních respondentů – ti se mohou (teoreticky) chovat jinak než respondenti ve vzorku! Avšak pravděpodobnost, že jste zamítli správnou hypotézu, je , tj. rovná se zvolené hladině významnosti, tj. 5%! Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 30 Číselné řešení příkladu: H0 :  < 7 , H1:   7 ,  = 0,05, n = 200, X = 8,15 , S = 11,39 Hodnota testového kritéria je n S X T    0 = 200 11,39 7-8,15 1,428 Kritická hodnota je K = t199(0,05) = 1,972. Při použití Excelu tuto hodnotu získáte s použitím funkce TINV(0,05;199). Protože T < K, nulovou hypotézu H0 nezamítáme, jinak řečeno, na hladině významnosti 5% ( = 0,05) přijímáme hypotézu, že průměrný počet vypitých limonád za týden je ve vyšetřované populaci menší než sedm. Jak jste se již dříve dozvěděli, tato hypotéza nemusí být správná, avšak pravděpodobnost, že jsme přijali nesprávnou hypotézu je rovna hladině významnosti, tj. je pouze 5%. Přirozeně vzniká otázka, na jaké hladině významnosti je možné naši nulovou hypotézu zamítnout. Tato hladina (a rovněž tak pravděpodobnost omylu) bude přirozeně vyšší než 5%. Konkrétní hodnota takové hladiny Kz je dána vztahem T > Kz . Protože hodnota testovacího kritéria je T = 1,428 , musí platit Kz = 428,1)(199 zt  , kde z je hledaná hladina významnosti. Tuto hodnotu naleznete buď v tabulkách Studentova rozdělení t, nebo pomocí Excelu použitím funkce TDIST(1,428 ; 199 ;1) = 0,077. Hledaná hladina významnosti z = 0,077 , tj. 7,7%. Tato hladina se nazývá p-hodnota testu nebo také signifikance. Na této hladině významnosti lze tedy H0 zamítnout, avšak s pravděpodobností omylu 7,7%. Číselné řešení příkladu * 2.3 Jednovýběrový t-test: řešení příkladu 2-1 pomocí MS Excelu Řešení příkladu 2-1 ze Studie pomocí MS Excel V Excelu lze řešit Příklad 2-1 třemi způsoby: S prvním způsobem jste se vlastně již seznámili v předchozím odstavci: Podle vzorce (1- 1) jste vypočítali hodnotu testového kritéria T a taktéž s pomocí excelovské funkce TINV jste zjistili kritickou hodnotu a pomocí funkce TDIST jste stanovili p-hodnotu (signifikan- ci). Druhý způsob spočívá ve využití Analytických nástrojů, které jsou standardní součástí Excelu v menu Nástroje  Analýza dat... Musíme upozornit, že po čerstvé instalaci Excelu se v nabídce Nástroje položka Analýza dat neobjeví, je ji zapotřebí ještě doinstalovat. Tato instalace je však velmi snadná, v menu Nástroje je položka Doplňky, kde se zaklikne položka Analytické nástroje a volba se potvrdí. V okamžiku se doinstaluje potřebná položka Analýza dat, která obsahuje 19 statistických metod, v tom i 5 testů statistických hypotéz. Hlavní výhoda použití Analýzy dat oproti prvnímu způsobu spočívá v tom, že není zapotřebí vytvářet příslušné vzorce a provádět dílčí výpočty. Každý test je integrován do jednoho okna a výsledek je prezentován v unifikované tabulce. Jednovýběrový t-test se převede na dvouvýběrový, druhý výběr se vytvoří uměle z konŘešení v Excelu Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 31 stantních hodnot 0 = 7. Přípravu dat i vyplnění okna příslušného testu naleznete v souboru Studie na listu t-test_1. Níže je ještě jednou uveden výsledek - formou tabulky, kterou poskytuje Excel. Dvouvýběrový t-test s nerovností rozptylů Počet lahví/týden pom Stř. hodnota 8,15 7 Rozptyl 129,7763819 0 Pozorování 200 200 Hyp. rozdíl stř. hodnot 0 Rozdíl 199 t stat 1,427627836 P(T<=t) (1) 0,077483183 t krit (1) 1,652547326 P(T<=t) (2) 0,154966365 t krit (2) 1,971957317 První 4 řádky není zapotřebí komentovat. V dalších řádcích znamená: Rozdíl = počet st. volnosti, t stat = hodnota testové statistiky T, P(T<=t) (1) = p-hodnota testu, jednostranná varianta, t krit (1) = kritická hodnota, jednostranná varianta, P(T<=t) (2) = p-hodnota testu, dvoustranná varianta, t krit (2) = kritická hodnota, dvoustranná varianta. Třetí způsob využití Excelu spočívá v použití funkce TTEST z menu: Vložit  Funkce  Statistické  TTEST... Poté je zapotřebí vyplnit zadávací okno. Podobně jako u použití Analytických nástrojů je zapotřebí připravit druhý umělý výběrový soubor z konstantních hodnot 0 = 7, neboť funkce TTEST umožňuje provádět pouze dvouvýběrové testy. V položce Strany zadejte hodnotu 1 (jednostranný test), v položce Typ zadejte hodnotu 3 (Dvouvýběrový test s nerovností rozptylů). Výsledkem je jediné číslo – p-hodnota testu, v našem konkrétním případě je p-hodnota testu = 0,077. Toto je nejnižší hladina významnosti, na které se H0 zamítá. Na nižší hladině významnosti než 0,077 se H0 nezamítá (např. na hladině 0,05), naopak na vyšší hladině významnosti než 0,077 se H0 zamítá. * 2.4 Dvouvýběrový t-test – nepárový a párový: řešení příkladů ze Stu- die Nejprve budete řešit Příklad 2-2. Z datového souboru "Počet lahví/týden" vyrobíte 2 samostatné výběry: pro muže (M) a pro ženy (Z) s rozsahy n1, n2. U obou výběrů nejprve vypočítáte - výběrové průměry: MX , ZX - výběr. směrodatné odchylky: SM, SZ Nejprve pomocí F – testu (test (E) z kapitoly 1) testujete, zda 2 1 = 2 2 , abyste pak mohli vybrat Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 32 správnou variantu dvouvýběrového t – testu. Pak použijete buď test (B), nebo test (C) z kapitoly 1. ŘEŠENÝ PŘÍKLAD 2-2 Je průměrný počet limonád týdně u mužů stejný, jako je u žen? Zde jde o rozdíl dané charakteristiky (průměru) mezi 2 vzorky: muži a ženami. Příklad ze Studie Řešení příkladu Řešení příkladu v Excelu: Podobně jako při řešení příkladu 2-1, můžete pro řešení v Excelu použít různé způsoby. Zde konkrétně zvolíte druhý způsob k testu rovnosti rozptylů a třetí způsob, totiž využití funkce TTEST k testu rovnosti středních hodnot. V menu postupně zvolíte: Nástroje  Analýza dat  Dvouvýběrový F-test pro rozptyl ... Poté vyplníte zadávací okno: Vložíte umístění obou připravených souborů M a Z a potvrdíte OK. Obdržíte následující výstupní tabulku: Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota 9,866667 5,575 Rozptyl 115,6123 141,5639 Pozorování 120 80 Rozdíl 119 79 F 0,816679 P(F<=f) (1) 0,157707 F krit (1) 0,717051 První 3 řádky není zapotřebí komentovat. V dalších řádcích znamená: Rozdíl = počet st. volnosti, F = hodnota testové statistiky T, P(F<=f) (1) = p-hodnota testu, F krit (1) = kritická hodnota. Protože p-hodnota testu = 0,158 a to je hodnota větší než 0,05 , H0 se nezamítá, neboli přijímá se hypotéza o rovnosti rozptylů: 2 1 = 2 2 . Dále v hlavním menu Excelu postupně zvolíte: Vložit  Funkce  Statistické  TTEST... Poté vyplníte zadávací okno: Vložíte umístění obou připravených souborů M a Z, v položce Strany zadejte hodnotu 2 (dvoustranný test), v položce Typ zadejte hodnotu 2 (Dvouvýběrový test s rovností rozptylů). Výsledkem je jediné číslo – p-hodnota testu, v našem konkrétním případě je p-hodnota testu = 0,0087. Toto je nejnižší hladina významnosti, na které se H0 zamítá. Na nižší hladině významnosti než 0,0087 se H0 nezamítá, naopak na vyšší hladině významnosti než 0,0087 , a tedy také na obvyklé hladině 0,05 , se H0 zamítá. Řešení v Excelu Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 33 Konkrétně to znamená, že týdenní konzumace sycených nápojů se u mužů statisticky významně liší od žen, jmenovitě u mužů je konzumace významně vyšší než u žen, viz řádek Střední hodnota ve výše uvedené tabulce. * ŘEŠENÝ PŘÍKLAD 2-3 viz Studie – Dvouvýběrový párový t-test (a) Liší se významně průměrné hodnocení Ceny a Image? (b) Je průměrné hodnocení Důležitosti image značky lepší než hodnocení Důležitosti ceny? (jednostranný test) Dvouvýběrový párový t-test Řešení příkladu Řešení pomocí výpočtů vzorců v Excelu – 1. způsob: Řešení příkladu (a) Jedná se o dvoustranný test hypotézy o střední hodnotě. Přitom při hodnocení používáme škálu 1, 2 až 7 kterou pro účely tohoto testu považujeme za intervalovou škálu. Tento předpoklad neodpovídá skutečnosti, ze Studie je zřejmé, že se jedná o ordinální hodnotící škálu, pro níž bychom však nemohli použít t-test. Abychom t-test použít mohli, a v praxi se to tak dělá, dopouštíme se této nepřesnosti. Vhodné testy pro ordinální data uvedeme v následující kapitole. Prvky ve dvou výběrech jsou „spárovány“, tj. jednoznačně spolu souvisejí po dvou. K řešení použijeme test (D) z kapitoly 1: 1. Testujeme hypotézu H0: 1 = 2 proti alternativě H1: 1  2. 2. Použije se testovací kritérium: 732,0200 669,3 190,0  n S D T D , 3. Kritická hodnota K = 258,2199);025,0(TINV)2/(1  nt . 4. Protože je T < K, H0 se přijímá, jinými slovy, průměrné hodnocení důležitosti image značky a důležitosti ceny se neliší. Řešení příkladu (a) Řešení příkladu (b): Jednostranný test Analogický postup jako u oboustranného testu. Řešení příkladu (b) 1. Testujeme hypotézu H0: 1 > 2 proti alternativě H1: 1  2. 2. Použije se testovací kritérium: 732,0200 669,3 190,0  n S D T D , 3. Kritická hodnota K = 960,1199);05,0(TINV)(1  nt . 4. Protože je T < K, H0 se opět přijímá. I když průměrné hodnocení Důležitosti image značky = 4,18 je větší než průměrné hodnocení Důležitosti ceny = 3,99 , není tento rozdíl statisticky významný. Přijímáme hypotézu, že se obě hodnocení vzájemně neliší. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 34 Řešení pomocí funkce Analýza dat v Excelu – 2. způsob Nástroje Analýza dat Dvouvýběrový párový t-test Důležitost ceny Důležitost image Stř. hodnota 4,18 3,99 Rozptyl 5,173467337 4,090351759 Pozorování 200 200 Pears. korelace -0,456223683 Hyp. rozdíl stř. hodnot 0 Rozdíl 199 t stat 0,732363368 P(T<=t) (1) 0,232404248 t krit (1) 1,652547326 P(T<=t) (2) 0,464808495 t krit (2) 1,971957317 Výsledky řešení jsou patrny z tabulky a jsou analogické výsledkům předchozích výpočtů – 1. způsob. Řešení pomocí Excelu * SAMOSTATNÝ ÚKOL 1 Testujte hypotézu, že průměrný počet vypitých limonád denně je alespoň dvě, tedy 0 = 2. Jednový- běrový t-test SAMOSTATNÝ ÚKOL 2 Testujte hypotézu, že průměrný počet vypitých limonád denně u žen je alespoň takový, jako u mužů. Dvouvýbě- rový t-test SAMOSTATNÝ ÚKOL 3 Liší se statisticky významně u mužů (!) průměrné hodnocení Ceny a Image? Párový t-test 2.5 Mediánový t-test (pro 1 výběr) Mediánový test lze použít nejen v případě intervalových dat, ale i v případě ordinálních dat. Pokud jsou data alespoň intervalová a k tomu normálně rozdělená, je výhodné použít parametrický t-test. Nevíte-li, zda má populace normální rozdělení, resp. víte, že rozdělení není normální, použijete mediánový test. Medián se označí ~ , rozsah vzorku n. Mediánový test Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 35 1. Testujete oboustrannou nulovou hypotézu H0: 0 ~~   proti alternativní hypotéze H1: 0 ~~   . Jedná se tedy o dvoustranný test. 2. Za testové kritérium položíme: n nm T   2 , kde m je počet pozorování ve vzorku menších než 0 ~ . 3. Kritická hodnota je K = z1-/2 . Přitom z1-/2 je kritická hodnota normovaného normálního rozdělení pro zadanou hladinu významnosti . Tuto hodnotu naleznete buď v tabulkách normovaného normálního rozdělení N(0,1), nebo pomocí Excelu použitím funkce NORMSINV(1-/2) . 4. Jestliže platí T > K, potom se H0 zamítá, jinak se H0 přijímá! Postup testu ŘEŠENÝ PŘÍKLAD 2-4 Ze Studie testujte hypotézu, že průměrný (mediánový) věk zákazníků, tj. studentů a zaměstnanců fakulty, je 21 let. Test prů- měrného mediánového věku Řešení příkladu Budete analyzovat ve Studii znak Věk. Je zřejmé, že věk zaměstnanců a studentů fakulty nemá normální rozdělení. Proto použijete mediánový test. 1. Budete testovat nulovou hypotézu H0: 21~  proti alternativní hypotéze H1: 21~  . Zvolíte obvyklou hladinu významnosti  = 0,05. 2. Snadno po uspořádání respondentů podle věku zjistíte, že m = 96. Potom hodnota testového kritéria je 566,0 200 200192   T . 3. Kritická hodnota K = z0,975 = NORMSINV(0,975) = 1,96. 4. Platí T < K a proto se H0 přijímá. Pro populační soubor studentů a zaměstnanců fakulty (počet 4000) přijímáme na základě vzorku (počet 200 respondentů) hypotézu, že mediánový věk je 21 let. * 2.6 Chi-kvadrát test pro 1 výběr Data mohou být nominální (nejslabší možný požadavek)! Testuje se (nulová) hypotéza: výběr pochází z populace se zadaným rozdělením. Zadané rozdělení je obvykle: - diskrétní rozdělení se stejnými pravděpodobnostmi, pak Chi-kvadrát test nazývá test nezá- vislosti, - diskrétní rozdělení s rozdílnými pravděpodobnostmi, pak se Chi-kvadrát test nazývá test dobré shody. Následující dva příklady jsou představiteli obou typů testu Chi-kvadrát. Nominální data Chi- kvadrát test Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 36 ŘEŠENÝ PŘÍKLAD 2-5 Příklad 1 Nová limonáda Kofela ze Studie se prodávala za stejnou cenu jeden týden ve fakultním bufetu ve 3 různých formách designu obalu: A, B, C, počet prodaných limonád je uveden v následující tabulce: Typ obalu Prodané kusy A 135 B 130 C 155 Celkem 420 Ovlivňuje styl designu obalu počet prodaných limonád? Testujte hypotézu, že styl obalu nemá na prodej vliv, jinak řečeno, že styl obalu je na prodeji nezávislý. Příklad 2 V bufetu fakulty se prodávají sycené nápoje Coke, Fanta, Sprite. Na základě dlouhodobých zkušeností je známo, že se prodávají v poměru 60:30:10. Ve sledovaném týdnu se tyto nápoje prodaly v množství, které je uvedeno v následující tabulce. Nápoj Prodaných kusů Coke 378 Fanta 149 Sprite 56 Celkem 583 Prodávají se uvedené nápoje v očekávaných poměrech? Testujte hypotézu, že prodaná množství odpovídají předpokládaným poměrům. Styl designu obalu versus počet prodaných limonád Řešení příkladu K Chi-kvadrát testu pro oba typy testů použijeme opět známé 4 kroky: 1. Nulová hypotéza: H0: Pozorované četnosti se významně neliší od očekávaných četností. Přitom Očekávané četnosti se označí: E1, E2 ,…, Ek Pozorované četnosti se označí: O1, O2 ,…, Ok. K označení používáme E z angl. Expected (očekávaný), O z angl. Observed (pozorovaný). Počet testovaných tříd (kategorií) označujeme k. V našich příkladech 2 a 3 je vždy k = 3. 2. Testové kritérium (nazývá se Chi-kvadrát kritérium):    k i i ii E EO T 1 2 )( , Postup testování - algoritmus Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 37 kde k - počet kategorií (např. k = 3). 3. Kritická hodnota je )1(  kK  . Přitom )1( k je kritická hodnota rozdělení Chi-kvadrát (též Pearsonova rozdělení) s df = (k-1) stupni volnosti pro zadanou hladinu významnosti . Tuto hodnotu naleznete buď v tabulkách rozdělení Chi-kvadrát, nebo pomocí Excelu použitím funkce CHIINV( ; df). Poznámka: Označení df je z angl. degrese of freedom (stupeň volnosti). 4. Jestliže platí T > K, potom se H0 zamítá, jinak se H0 přijímá. Podmínka: K dosažení dostatečné přesnosti testu by v každé kategorii mělo být alespoň 5 hodnot! Alternativně: Pro hodnotu testového T zjistíte p-hodnotu (signifikaci), tuto hodnotu porovnáte se zvolenou hladinou významnosti ( = 0,05), pokud p-hodnota > , pak H0 nezamítáte, v opačném případě H0 zamítáte. V Excelu můžete p-hodnotu vypočítat pomocí funkce CHIDIST. Řešení příkladu 1 pomocí Excelu: Ve worksheetu Excelu vyrobíte následující tabulku, použijete přitom vestavěné funkce SUMA, CHIINV, CHIDIST. Pokud prodej nápoje nezávisí na druhu obalu, pak všechny tři očekávané četnosti jsou stejné, tj. Ei = 420/3. TabulkaFunkce: SUMA, CHIINV, CHIDIST… Typ obalu Oi Ei (Oi - Ei)^2/Ei A 135 140 0,179 B 130 140 0,714 C 155 140 1,607 Sumy 420 420 2,500 T = 2,5 alfa = 0,05 k-1 = 2 CHIINV = 5,991 CHIDIST= 0,287 Řešení v Excelu p-hodnota = CHIDIST(2,5 ; 2) = 0,287 > 0,05 potom H0 nezamítáte.! Interpretace výsledku: počet prodaných kusů nezávisí na typu obalu, rozdíly v prodeji u vzorku jsou pouze dílem náhody. Řešení příkladu 2 pomocí Excelu: Ve worksheetu Excelu vyrobíte následující tabulku, použijete přitom vestavěné funkce SUMA, CHIINV, CHIDIST. Tři očekávané četnosti prodeje jednotlivých druhů limonád vypočítáte z celkového počtu 583 prodaných kusů a známého poměru prodaných kusů 60:30:10 takto: E1 = 583.0,60 = 349,8 E2 = 583.0,30 = 174,9 E3 = 583.0,10 = 58,3 TabulkaFunkce: SUMA, CHIINV, CHIDIST… Řešení v Excelu Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 38 Nápoj Oi Ei (Oi - Ei)^2/Ei Coke 378 349,8 2,273 Fanta 149 174,9 3,835 Sprite 56 58,3 0,091 Celkem 583 583 6,200 T = 6,2 alfa = 0,05 k-1 = 2 CHIINV = 5,991 CHIDIST= 0,045 p-hodnota = CHIDIST(6,2 ; 2) = 0,045 < 0,05 , proto H0 zamítáte.!Interpretace výsledku: Zamítáte hypotézu, že ve sledovaném týdnu poměr prodejů 3 limonád odpovídal dlouhodobě známým poměrům. Přijímáte alternativní hypotézu, že ve sledovaném týdnu poměr prodaných limonád neodpovídal poměrům z minulosti. * 2.7 Dvouvýběrové testy Často se v marketingovém výzkumu setkáte s těmito otázkami: 1. Existuje významný rozdíl dané charakteristiky mezi 2 vzorky? Charakteristikou může být např. medián, zadané pořadí, typ rozdělení pravděpodobnosti (četnosti) apod. 2. Pocházejí 2 výběry ze stejné populace? Na obě otázky svým způsobem odpovídají neparametrické testy hypotéz - tzv. dvouvýběrové testy. Budete se zabývat nejpoužívanějším z nich: Chi-kvadrát test. Dvouvýběrové testy 2.8 Chi-kvadrát test pro 2 výběry Samostatným a novým problémem je v tomto testu vytvoření speciální kontingenční tabulky. Uvažují se dva znaky: znak A (např. Pohlaví) a znak B (např. Způsob odměny). Znak A je třídicí znak, který má 2 kategorie značené A1 a A2, sledovaný znak B má s možných kategorií hodnot 1 2, ,..., sB B B . Kontingenční tabulka má tento tvar: Kategorie znaku A / B B1 B2 B3 ... Bs Součet A1 n11 n12 n13 … n1s n1. A2 n21 n22 n23 … n2s n2. Součet n.1 n.2 n.3 … n.s n V tabulce značí nij četnost případů, při kterých znak A nabývá hodnoty (kategorie) Ai a znak B Kontin- genční tabulka Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 39 hodnoty Bj. Symbolem    s j iji nn 1 značíme celkový počet opakování, při kterých se vyskytla itá kategorie znaku A, symbolem jjj nnn 21  značíme celkový počet opakování, při kterých se vyskytla j-tá kategorie znaku B. Nominální (nebo ordinální) data jsou zachycena v kontingenční tabulce tak, že v řádcích jsou uvedeny četnosti pro oba výběry, ve sloupcích se nacházejí četnosti jednotlivých kategorií sledovaného znaku. Testuje se vzájemná nezávislost 2 výběrů v kontingenční tabulce. Pakliže jsou výběry nezávislé, v tom případě pocházejí ze stejné populace (tj. ze stejného základního souboru). V opačném případě pocházejí ze dvou rozdílných základních souborů. Zadává se tato nulová hypotéza: H0 : Výběry jsou navzájem nezávislé a pocházejí z jediné populace (s daným rozdělením prav- děpodobnosti). Nulová hypotéza se na základě Chi-kvadrát testu buď přijme (tj. nezamítne), což znamená, že výběry pocházejí ze stejné populace, nebo se H0 zamítne a pak výběry pocházejí z různých populací, jinak řečeno, výběry jsou vzájemně závislé. Následuje pak analýza pomocí koeficientů kontingence a koeficientů asociace, které vyjadřují míru závislosti (viz další kapitola). Nulová hypotéza ŘEŠENÝ PŘÍKLAD 2-6 Studie Jsou k dispozici 2 výběry: Muži a Ženy, sleduje se znak Způsob odměny, který má dvě hodnoty (kategorie): Peníze a Limonády. Problém 1: Vytvořte kontingenční tabulku pro znaky: Pohlaví respondentů (řádky) versus Způsob odměny (sloupce). Problém 2: Souvisí Pohlaví respondentů se Způsobem odměny? Použijte Chi-kvadrát test. Poznámka: Všimněte si, že jednotlivé kategorie (tj. Muži, Ženy) určují výběrové soubory, na nichž se sleduje znak Způsob odměny. Naučíte se řešit daný test s pomocí Excelu. Testování závislosti způsobu odměny a pohlaví respon- dentů Řešení příkladu Řešení příkladu pomocí Excelu: Problém 1. Kontingenční tabulka. Data  Kontingenční tabulka a graf  výběr dat ... studie.xls Počet z Výběr Výběr Pohlaví Peníze LimonádyCelkový součet Muži 78 42 120 Ženy 46 34 80 Celkový součet 124 76 200 Výstupem z Excelu je uvedená tabulka, která obsahuje příslušné četnosti, např. peníze si jako odměnu vybralo 78 mužů atd. Kontin- genční tabulka Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 40 Problém 2. Nezávislost výběrů: Chi-kvadrát test Postup Chi – kvadrát testu (4 kroky): 1. Nulová hypotéza H0: Četnosti kategorií znaku A nezávisí na četnostech kategorií znaku B (tj. rozdíly četností jsou pouze dílem náhody). Očekávané četnosti se vypočítají z údajů v kontingenční tabulce následovně: relat. četnosti kategorie Ai = ni·/n, relat. četnosti kategorie Bj = n·j/n, Eij= očekávaná četnosti kategorie Bj v i-tém výběru: Eij = (ni·/n)*( n·j/n)*n = (ni·* n·j )/n Pozorované četnosti jsou přímo hodnoty z kontingenční tabulky: Oij, i=1, j=1,2,…,s. Nezávis- lost Algoritmus 2. Testové kritérium T je analogické jako v jednovýběrovém testu:     2 1 1 2 )( i s j ij ijij E EO T , přitom s značí počet kategorií sledovaného znaku, tj. počet sloupců kontingenční tabulky. V našem příkladu je s = 2. 3. Kritická hodnota je )1(  sK  . Přitom )1( s je kritická hodnota rozdělení Chi-kvadrát se stupněm volnosti df = s-1 a pro zadanou hladinu významnosti . Tuto hodnotu naleznete buď v tabulkách rozdělení Chi-kvadrát, nebo pomocí Excelu použitím funkce CHIINV( ; df). 4. Jestliže platí T > K, potom se H0 zamítá, jinak se H0 přijímá. Podmínka: K dosažení dostatečné přesnosti testu by v každé kategorii mělo být alespoň 5 hodnot! Testové kritérium Alternativně: Pro hodnotu testového T zjistíte p-hodnotu (signifikaci), tuto hodnotu porovnáte se zvolenou hladinou významnosti ( = 0,05), pokud p-hodnota > , pak H0 nezamítáte, v opačném případě H0 zamítáte. V Excelu můžete p-hodnotu vypočítat pomocí funkce CHIDIST(T ; df). Pozorované čet. Peníze Limonády Celkový součet Muži 78 42 120 Ženy 46 34 80 Celkový součet 124 76 200 Tab. 2.1. Očekávané četnosti v Tab. 2.2. vypočítáte z kontingenční tabulky Tab. 2.1. jako součin příslušného řádkového a příslušného sloupcového součtu vyděleného celkovým součtem. V Tab. 2.3. jsou uvedeny příslušné sčítance testového kritéria, jejich součet - hodnota testového kritéria T je pak uvedena v prvním řádku Tab. 2.4. jako CHI-SQUARE. Očekávané čet. Peníze Limonády Muži 74,4 45,6 Ženy 49,6 30,4 (Eij - Oij)^2/Eij 0,174 0,284 0,261 0,426 Tab. 2.2. Tab. 2.3. Řešení v Excelu Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 41 CHI-SQUARE = 1,14601 alfa = 0,05 df = 1 CHIINV = 3,84146 CHIDIST = 0,28439 Tab. 2.4. Kritickou hodnotu pro danou hladinu významnosti a stupeň volnosti vypočítáte v Excelu pomocí funkce CHIINV. Protože platí df = 2-1 = 1, obdržíte CHI-SQUARE = 1,146 < CHIINV(0,05 ; 1) = 3,841 , nulovou hypotézu o nezávislosti na hladině významnosti 0,05 nezamítáte! K témuž závěru lze dojít porovnáním p-hodnoty, kterou v Excelu vypočítáte pomocí funkce CHIDIST. Konkrétně CHIDIST = 0,284 > 0,05 , proto H0 nezamítáte. Jinak řečeno: Způsob vybrané odměny je nezávislý na pohlaví respondentů. Ještě jinak: Pokud jde o výběr odměny soubory Muži a Ženy jsou navzájem nezávislé. * ÚKOL K ZAMYŠLENÍ 1 Předpokládejte, že třídicí znak A má více než 2 kategorie – konkrétně r kategorií, např. r = 5 pro věkové třídy 18, 19, 20, 21, 22 a více. Pak třídicí znak Věková třída (je jej třeba nově vytvořit ze znaku Věk!) člení data na 5 výběrových souborů. Testem Chi-kvadrát lze testovat H0, že všech 5 výběrů pochází ze stejné populace, nebo-li že všechny soubory jsou vzájemně nezávislé. Náš 4krokový postup řešení testu by pak byl analogický s výše uvedeným postupem pouze s tím rozdílem, že namísto 2 výběrů uvažujete r = 5 (> 2) výběrů. Navíc platí: df = (r-1).(s-1). Kde všude se ještě změny oproti případu r = 2 projeví? Připravte si data ze studie a testujte nezávislost výběru typu odměny podle výše zmíněných 5 věkových tříd. PRŮVODCE TEXTEM Následující samostatné úkoly řešte nejprve pomocí Excelu a potom pomocí SPSS, viz Studie. Rozumíš? SAMOSTATNÝ ÚKOL 4 Testujte hypotézu, že průměrné (mediánové) hodnocení "důležitosti image" je 3, tedy 0 ~ = 3. Mediánový test SAMOSTATNÝ ÚKOL 5 Je rozdělení hodnocení důležitosti image jednotlivými respondenty rozloženo náhodně, tj. 7 hodnotících stupňů (a tudíž „image“ není významná - nulová hypotéza), nebo je některé hodnocení významně četnější? Chi- kvadrát test, 1 výběr Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 42 SAMOSTATNÝ ÚKOL 6 Vytvořte kontingenční tabulku pro znaky: Důležitost ceny versus Důležitost image. Souvisí Důležitost ceny s Důležitostí image? Použijte Chi-kvadrát test. Chi- kvadrát test, 2 výběry SHRNUTÍ KAPITOLY TESTOVÁNÍ HYPOTÉZ V MARKETINGU - NEPARAMETRICKÉ TESTY Parametrické hypotézy se vztahují na jeden nebo několik parametrů daného pravděpodobnostního rozdělení náhodné veličiny (neboli znaku populace). Naproti tomu neparametrické hypotézy se netýkají parametrů rozdělení náhodné veličiny, nýbrž jiných statistických vlastností, např. tvaru rozdělení (například binomické rozdělení nebo normální rozdělení). Při testování neparametrické hypotézy máme k dispozici výsledky náhodného výběru – vzorku, tedy data z marketingového výzkumu a na jejich základě rozhodujeme testovanou hypotézu buď přijmout, nebo zamítnout. Padne-li hodnota statistiky pro získaný vzorek do kritického oboru (tj. překročíli kritickou hodnotu), potom H0 zamítáme. Naopak, padne-li hodnota statistiky do oboru přijetí, pak nulovou hypotézu nezamítáme (neboli přijímáme). Znovu si prosím uvědomte, že testem statistické hypotézy nemůžeme dokázat její pravdivost nebo nepravdivost, správnost nebo nesprávnost! Testování neparametrických hypotéz nemusí vždy vést ke správným rozhodnutím, neboť jde o náhodný proces využívající omezené informace z náhodného výběru. V této kapitole jste se naučili tyto neparametrické testy: Mediánový test, Chi-kvadrát test pro jeden výběr, Chikvadrát test pro dva výběry. Vše bylo ilustrováno na příkladech ze Studie. Shrnutí kapitoly KONTROLNÍ TEST 2 2.1 Neparametrický test statistické hypotézy slouží k (označte správnou odpověď): a. výpočtu rozdělení četnosti b. odhadu parametru hledaného rozdělení c. zjištění typu rozdělení pravděpodobnosti d. zjištění nezávislosti statistických znaků 2.2 Při testu nezávislosti: a. testuje se nulová hypotéza, že hodnoty znaků jsou stejné, b. testuje se nulová hypotéza, že dva statistické znaky jsou vzájemně závislé, c. testuje se nulová hypotéza, že hodnota znaku se liší od zadané hodnoty d. testuje se nulová hypotéza, že hodnota znaku je rovna zadané hodnotě, e. testuje se nulová hypotéza, že dva statistické znaky jsou vzájemně nezávislé. 2.3 Při Chi-kvadrát testu statistické hypotézy lze využít kritické hodnoty: a. Studentova t-rozdělení pravděpodobnosti, b. Pearsonova Chi-kvadrát rozdělení pravděpodobnosti, c. Fisherova F-rozdělení pravděpodobnosti, Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 43 d. Gaussova normálního rozdělení pravděpodobnosti, e. exponenciálního rozdělení pravděpodobnosti. 2.4 Při použití Excelu pro Chi-kvadrát test mohou být data alespoň typu: a. nominální b. ordinální c. intervalová d. číselná e. nečíselná 2.5 Ke každé vestavěné funkci Excelu z levého sloupce přiřaďte správné vysvětlení fungování z pravého sloupce: (1) NORMSINV (A) Nalezne pravděpodobnost, že náhod. veličina s Chi-kvadrát rozdělením s daným stupněm volnosti df nabude nejvýše zadané hodnoty X2 (2) NORMDIST (B) Nalezne kvantil normovaného normálního rozdělení k zadané pravděpodobnosti  (3) CHIINV (C) Nalezne pravděpodobnost že náhod. veličina s normovaným normálním rozdělením nabude nejvýše zadané hodnoty Z (4) CHIDIST (D) Nalezne kvantil Chi-kvadrát rozdělení s daným stupněm volnosti df k zadané pravděpodobnosti  2.6 Uspořádejte posloupnost kroků po sobě u dvouvýběrového Chi-kvadrát testu: Krok ( ). Formulujte nulovou hypotézu H0: Hodnoty znaku B jsou u dvou výběrů vzá jemně nezávislé. Krok ( ). Vypočtěte pozorované a očekávané četnosti hodnota B pro 1. a 2. výběr. Krok ( ). Stanovte hladinu významnosti . Krok ( ). Stanovte kritický obor C pomocí kritické hodnoty. Krok ( ). Stanovte počet stupňů volnosti Chi-kvadrát rozdělení Krok ( ). Vypočtěte hodnotu testového kritéria Krok ( ). Zjistěte, zda hodnota testového kritéria padne do C a učiňte závěr testu. 2.7 Určete, zda následující výroky jsou správné (vepište A) nebo nesprávné (vepište N): a. U testu nezávislosti dvou souborů, kde sledovaný znak nabývá pouze dvou hodnot, je počet stupňů volnosti df = 2. b. Pokud hodnota testového kritéria padne do kritického oboru C, pak nulovou hypotézu zamítnete. c. Víte-li, že analyzovaná veličina nemá normální rozdělení, použijete pro testování její střední hodnoty mediánový test. 2.8 Doplňte správný výraz: a. To, že hypotézu zamítáte nebo __________ ještě neznamená, že hypotéza je správná nebo nesprávná. b. P-hodnota testu je __________ hladina významnosti, na níž ještě nulovou hypoté- Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 44 zu zamítáme. c. V Excelu k Chi-kvadrát testu použijete vestavěnou funkci __________. 2.9 Doplňte správné sousloví: a. Jestliže analyzovaná veličina nemá normální rozdělení, použijete pro testování její střední hodnoty __________ __________. b. Padne-li hodnota testového kritéria do __________ __________ pak nulovou hypotézu přijímáte. c. K výpočtu kritického oboru jednovýběrového Chi-kvadrát testu potřebujete znát __________ a __________. ŘEŠENÍ SAMOSTATNÝCH ÚKOLŮ Samostatný úkol 4 Sig. 0,0539 -výstup z Excelu. Nulovou hypotézu přijímáme. Průměrný počet limonád vypitých denně je roven 2. Samostatný úkol 4 Samostatný úkol 5 Sig. 0,00764 -výstup z Excelu. Nulovou hypotézu zamítáme. Průměrný počet limonád vypitých denně u mužů je statisticky významně výší než u žen. Samostatný úkol 5 Samostatný úkol 6 Sig. 0,28549 Nulovou hypotézu přijímáme. Průměrné hodnocení důležitosti Ceny a důležitosti Image se u mužů statisticky významně neliší. Samostatný úkol 6 ŘEŠENÍ KONTROLNÍHO TESTU 2 2.1 d. 2.2 d. 2.3 b. 2.4 a. 2.5 (1) – (B), (2) – (A), (3) – (C) 2.6 (1), (3), (2), (5), (4), (6), (7) 2.7 N, A, A, A, A 2.8 a. přijímáte, c. minimální (nejmenší), d. CHIINV 2.9 a. mediánový test, b. oboru přijetí, c. stupeň volnosti a hladina významnosti Kontrolní test Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 45 3 REGRESNÍ ANALÝZA CÍLE KAPITOLY REGRESNÍ ANALÝZA Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  rozhodnout, zda jsou příslušné regresní koeficienty statisticky významné Budete umět Budete schopni:  objasnit princip stochastické závislosti mezi dvěma i více kvantitativními znaky  vypočítat vektor regresních koeficientů,  dokázali testovat vhodnost volby lineárního regresního modelu. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 4 Regresní analýza se zabývá závislostí kvantitativního znaku na kvantitativním znaku (nebo více kvantitativních znacích). V případě závislosti jednoho znaku na jednom znaku mluvíme o jednoduché regresi, u závislosti jednoho znaku na více kvantitativních znacích hovoříme o vícenásobné (nebo mnohonásobní) regresi. V této kapitole byste si měli prohloubit znalosti získané o regresní analýze v základním kurzu statistiky zejména o vícenásobné regresi. Nejprve jsou zopakovány základní pojmy a uvedeny předpoklady regresní analýzy. Dále je zde odvozen vztah pro výpočet vektoru regresních koeficientů a testování statistické významnosti těchto regresních koeficientů. Výklad kapitoly uzavírá test vhodnosti regresního modelu. Také v této kapitole najdete jak příklady řešené tak i neřešené. 3.1 Podstata regresní analýzy DEFINICE 3-1 Regresní analýza hledá matematický vztah - rovnici, jež nejlépe vyjadřuje změny proměnné (znaku) y v závislosti na změnách proměnné (znaku) x . V dalším se bude tato otázka řešit obecně pro případ, že proměnná y – tzv. závisle proměnná závisí na k tzv. nezávisle proměnných, tj. vektoru proměnných x  = kxx ,...,1 . Tvar závislosti y na x  = kxx ,...,1 je v nejjednodušším případě vyjádřen funkcí  xfy   . Funkční předpis f může mít nejrůznější tvar, např. xy 21   , 2 210 xxy   , y = ln(x) nebo jiný. Regresní analýza Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 46 Při závislosti y na k proměnných máme rovnici  kxxfy ,...,1 = f( x  ). Je-li tato funkce uvažována ve tvaru      xfxfxfy kk    ...2211 (3-1) hovoříme o lineární regresi (lineární podle parametrů), nebo lineárním regresním modelu. Nejčastěji uvažujeme model (3-1) ve tvaru: Lineární regrese kk xxxy   ...2211 (3-2) Jiné tvary než (3-2) jsou pak případy nelineární regrese. Začneme nejjednodušším případem, kdy y je lineární funkcí x : xy 21   . (3-3) K dispozici nechť jsou například experimentálně získané body      .,,...,,,, 2211 nn YxYxYx Obrázek 3-1: Reziduální odchylka Obr 3-1: Reziduální odchylka Yi = empirická (měřená) hodnota závisle proměnné iYˆ = teoretická hodnota závisle proměnné i = reziduální odchylka Vztah Yi a iYˆ je vyjádřen rovnicí: Yi = iYˆ + i. O regresním modelu, přesněji o reziduálních odchylkách, které z pohledu teorie pravděpodobnosti představují náhodné veličiny, se činí tyto předpoklady: εi Y = f(x) Yi x y xi iYˆ yi Yi = f(xi) + εi Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 47 K ZAPAMATOVÁNÍ 4 1. Střední hodnota i je nula, tj. E(i) = 0. 2. Rozptyl je konstantní, nezávislý na i, tj. Var(i) = 2 . 3. Veličiny i, j jsou nezávislé, tj. Cov(i, j) = 0 pro i ≠ j. 4. Veličiny i mají normální rozdělení, tj. i  N(0, 2 ) Předpo- klady reziduí Přitom je zvykem značit střední hodnotu symbolem E, rozptyl (varianci) symbolem Var a kovarianci symbolem Cov. Pokud jste zapomněli tyto pojmy, zopakujte si je v základním kurzu statistiky, viz doporučená literatura. Cílem je odhad koeficientů 1, 2 nejprve v jednoduchém lineárním regresním modelu (3-3). Později se věnujeme vícenásobnému lineárním regresním modelu (3-2). Závisí-li konkrétně y na dvou proměnných x1, x2, budou body (získané například experimentálně) reprezentovány trojicemi: (x11, x12 ,Y1) (x21, x22 ,Y2) ... (xn1, xn2 ,Yn) První index v každé trojici představuje pořadové číslo bodu (prvý, druhý,…, n-tý bod). Tyto body v trojrozměrném prostoru budou aproximovány funkcí – rovinou o rovnici y = 1 + 2x2 + 3x3. Obecněji, v případě závislosti y na k proměnných x1, x2,…,xk, předpokládáme znalost bodů v k+1-rozměrném prostoru: (x11, x12,…, x1k, Y1) (x21, x22,…, x2k, Y2) ... (xn1, xn2,…, xnk, Yn) (3-4) Regresní funkci předpokládáme ve tvaru: y = 0 + 1x1 + 2x2 +…+ kxk Body (3-4) získané například tak, že ke zvolené k-tici (xi1, xi2,…,xik) nalezneme experimentálně Yi, jsou jediným a rozhodujícím východiskem určujícím kvalitu odhadu parametrů i. O odhadu hovoříme proto, že pracujeme s omezeným počtem bodů (výběrem). Vektor parametrů ),...,( 1 k   přísluší celému populačnímu souboru všech možných k+1-tic typu (3-4). Odhadem vektoru parametrů (1,…,k) bude vektor ),...,( 1 kbbb   , který zjistíme pouze z výběru n bodů (3-4). Příslušnou regresní funkci budeme značit: Yˆ = b0 + b1x1 + b2x2 +…+ bkxk. (3-5) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 48 3.2 Odhad regresních koeficientů Vektor regresních koeficientů získáme z vektorové rovnice   YXXXb TT .. 1   , (3-6) kde X je matice              nknn k k xxx xxx xxx X ...1 ............... ...1 ...1 21 22221 11211 (3-7) vytvořená z hodnot bodů (3-4), stejně jako ),...,,( 21 n T YYYY  . Symboly ZT značí transpozici matice Z a symbolem Z-1 se značí inverze matice Z. Matice X a Y jsou vždy známy, neboť, jak již bylo řečeno, výchozími daty jsou body (3-4). První sloupec matice X je tvořen ze samých jedniček proto, abychom mohli v regresní rovnici uvažovat absolutní člen b0. Vztah pro výpočet regresních koeficientů POZOR: n-rozměrné vektory se zde považují za sloupcové matice s n řádky a 1 sloupcem! ŘEŠENÝ PŘÍKLAD 3-1 Určete závislost spotřeby elektrické energie (y) na délce elektrického vedení (x1) a odběru energie (x2). Regresní funkce se předpokládá ve tvaru Yˆ = b0 + b1x1 + b2x2 . Jsou k dispozici následující data x1 x2 Y 1,2 3,6 3,2 1,3 3,7 3,3 1,3 3,8 3,4 1,4 3,8 3,5 1,4 3,9 3,6 1,5 3,9 3,6 1,5 4 3,7 1,6 4 3,8 1,6 4,1 3,9 1,7 4,2 4 Spotřeba elektrické energie Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 49 Řešení příkladu Tabulka představuje body, odkud získáme potřebné matice X a Y.                                  2,47,11 1,46,11 46,11 45,11 9,35,11 9,34,11 8,34,11 8,33,11 7,33,11 6,32,11 X                                  4 9,3 8,3 7,3 6,3 6,3 5,3 4,3 3,3 2,3 Y Vektor odhadu regresních koeficientů            2 1 0 b b b b  obdržíme z (3-6) a (3-7) postupně:                                                        4,1528,5639 8,5625,215,14 395,1410 2,47,11 1,46,11 46,11 45,11 9,35,11 9,34,11 8,34,11 8,33,11 7,33,11 6,32,11 2,41,4449,39,38,38,37,36,3 7,16,16,15,15,14,14,13,13,12,1 1111111111 XX T                  4550103 5060108 1031082,245 1 XX T Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 50                                                        82,140 56,52 36 4 9,3 8,3 7,3 6,3 6,3 5,3 4,3 3,3 2,3 2,41,4449,39,38,38,37,36,3 7,16,16,15,15,14,14,13,13,12,1 1111111111 YXT Nyní můžete podle (3-6) vypočítat:                                                   2 1 0 1 90,0 60,0 78,0 82,140 56,52 36 4550103 5060108 1031082,245 b b b YXXXb TT  Hledaná regresní funkce má tedy rovnici 21 90,060,078,0ˆ xxY  . Teoretické hodnoty: Teoretické hodnoty nYYY ˆ,...,ˆ,ˆ 21 obdržíte dosazením do (3-5) za x1 a x2 postupně z tabulku vstupních dat: 18,36,390,02,160,078,0ˆ 1 Y 33,37,390,03,160,078,0ˆ 2 Y ... 02,42,490,07,160,078,0ˆ 10 Y Tyto hodnoty lze získat pomocí maticového násobení najednou takto:                                                                                                               10 2 1 ˆ . . . . . . . ˆ ˆ 02,4 87,3 78,3 72,3 63,3 57,3 48,3 42,3 33,3 18,3 9,0 6,0 78,0 2,47,11 1,46,11 46,11 45,11 9,35,11 9,34,11 8,34,11 8,33,11 7,33,11 6,32,11 ˆ Y Y Y bXY  Výpočet teoretic- kých hodnot Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 51 Vektor reziduálních odchylek: Rozdíl teoretické a skutečné hodnoty, tj. rozdíl vektorů e  = Y - Yˆ představuje vektor reziduálních odchylek. V příkladu 3-1 jej obdržíte následovně:                                                                                                                                         10 2 1 . . . . . . . 02,0 03,0 02,0 02,0 03,0 03,0 02,0 02,0 03,0 02,0 02,4 87,3 78,3 72,3 63,3 57,3 48,3 42,3 33,3 18,3 4 9,3 9,3 7,3 6,3 6,3 5,3 4,3 3,3 2,3 ˆ e e e YYe  Výpočet reziduí Rozptyl odhadu regresních koeficientů: Protože při výpočtu regresních koeficientů se jedná o odhady, je účelné také nalézt rozptyly těchto odhadů. Získáme je jako prvky hlavní diagonály matice: Rozptyl odhadu regresních koeficientů   12 )(   XXsbVar T  (3-8) kde kn ee s T     2 (3-9) je tzv. reziduální rozptyl, přitom e  = vektor reziduálních odchylek, T e  = vektor transponovaný k e  , n = počet bodů, k = počet parametrů . Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 52 V příkladu 3-1 obdržíme:   006,0 02,0 03,0 02,0 02,0 03,0 03,0 02,0 02,0 03,0 02,0 02,003,002,002,003,003,002,002,003,002,0                                       eeT  0008571,0 310 006,02       kn ee s T                                 0386,00429,00883,0 0429,00514,00926,0 0883,00926,02102,0 4550103 5060108 1031082,245 0008571,0)( 12 XXsbVar T  Diagonálu poslední matice tvoří rozptyly jednotlivých regresních koeficientů: s2 (b0) = 0,2102 odtud směrodatná odchylka je s(b0) = 0,4584. s2 (b1) = 0,0514 odtud směrodatná odchylka je s(b1) = 0,2267. s2 (b2) = 0,0386 odtud směrodatná odchylka je s(b2) = 0,1965. Spotřeba el. energie Po nalezení regresního modelu a rozptylu odhadů regresních koeficientů píšeme obvykle výsledné řešení tak, že pod regresní koeficienty do závorek uvádíme příslušné směrodatné odchylky. V našem případě máme: 32 90,060,078,0ˆ xxY  (0,4584) (0,2267) (0,1965) Při výpočtu regresních koeficientů b1, b2, …,bk se stává, že mezi koeficienty jsou až řádové rozdíly, např. b1 = 200 a b2 = 0,02. V takových případech stojíme před problémem, zda má smysl zařadit např. zde b2 do regresní funkce. K objektivnímu posouzení významnosti regresních koeficientů lze použít následující statistický test. * 3.3 Test významnosti regresních koeficientů 1. Nulová hypotéza: H0: i = 0 , H1: i  0 . 2. Testovací kritérium: Testování regresních koeficientů )( i i bs b T  (3-10) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 53 kde bi je odhad parametru i, s(bi) je směrodatná odchylka odhadu tohoto parametru. 3. Kritická hodnota tn-k(α), kde α je zvolená hladina významnosti (obvykle je α = 0,05). 4. Porovnáme T a tn-k(α) Je-li T  tn-k(α), zamítá se H0 a přijme se alternativní hypotézu H1, podle které vypočítaný koeficient je možné považovat za nenulový, neboli statisticky významný a je proto důvod pro jeho zařazení do regresní funkce. V příkladu 3-1 dostáváte konkrétně 65,2 0514,0 60,0 )( 1 1 1  bs b T , 58,4 )( 2 2 2  bs b T , přičemž tn-k(α) = t10-3 (0,05) = 2,365. Protože T1  2,365 a také T2  2,365 , jsou oba regresní koeficienty statistický významné a nenulové a proto zařadíme oba koeficienty do regresní funkce. Jak již bylo řečeno, výchozím předpokladem pro nalezení odhadu  kbbb ,...,1  regresních koeficientů  k ,...,1  je znalost matic X a Y, což znamená znalost bodů (3-4). Praktik, stojící před úlohou formulovanou v úvodu této kapitoly, však musí tyto hodnoty získat. V této souvislosti musí rozhodnout, jak volit hodnoty xij a kolik bodů je potřeba pro seriózní odhad regresních koeficientů. Uvážíme-li, že jak volba bodů xij, tak jejich počet mají rozhodující význam pro kvalitu odhadu, jsou obě otázky klíčové. Další zpracování těchto údajů je už rutinní záležitostí. Uvedenou problematikou se zabývá plánování experimentů, které je náplní následujících kapitol. Spotřeba elektrické energie 3.4 Intervaly spolehlivosti regresních koeficientů DEFINICE 3-2 Intervaly spolehlivosti pro parametry 1,…,k, tj. intervaly, ve kterých lze očekávat tyto parametry s pravděpodobností 1-α, získáme pomocí vztahu: Intervaly spolehlivosti pro parametry )]().(),().([ ikniikni bstbbstb    (3-11) kde bi = odhad parametru i, s(bi) = směrodatná odchylka odhadu bi, tn-k(α) = kritická hodnota Studentova rozdělení, n = počet bodů, k = počet parametrů, α = hladina významnosti, Při hladině významnosti α je stupeň spolehlivosti 1-α. S touto pravdě-podobností se nachází neznámý parametr i v intervalu (3-11). Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 54 3.5 Test vhodnosti regresního modelu DEFINICE 3-3 Vhodnost volby regresního modelu (tj. volby nezávisle proměnných) se ověří testem. 1. Nulová hypotéza: 0...:H 210  k , resp. ve tvaru 0:H0   . Alternativní hypotéza: 0:H1   . 2. Testovací kriterium: Testování modelu )/( )1/(ˆ knS kS T e Y    , (3-12) kde   n i iY YYS 1 2 ˆ )ˆ( , .)ˆ( 1 2   n i iie YYS 3. Kritická hodnota: K = )(,1 knkF  , kde )(,1 knkF  je kritická hodnota Fischerova rozdělení F se stupni volnosti df1 = k-1 a df2 = nk. V Excelu se kritická hodnota vypočítá pomocí funkce FINV(; df1; df2). 4. Je-li KT  , pak se H0 zamítá, jinak se H0 nezamítá. Použijete-li test na příklad 3-1, obdržíte: 5,346 )310/(006,0 )13/(594,0    T , K = F3-1,10-3(0,05) = 6,54 . Protože T překročilo kritickou hodnotu K, zamítá se H0 a model se považuje za vyhovující, tj. zamítá se hypotéza o nulovosti všech regresních koeficientů (s výjimkou β0 !). SHRNUTÍ KAPITOLY REGRESNÍ ANALÝZA V této kapitole jste se zabývali regresní analýzou. Regresní analýza řeší vztah mezi kvantitativním znakem Y nazývaným vysvětlovaná (závislá) proměnná a mezi kvantitativními znaky nazývanými vysvětlující (nezávislé) proměnné. Zabývali jste se lineárním regresním modelem (lineárním podle parametrů). V závěru kapitoly jste se seznámili s testy, pomoci nichž lze posoudit statistickou významnost regresních koeficientů či statistickou významnost celého modelu. Text Shrnutí kapitoly Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 55 je proložen řešením jednoho příkladu a doplněn o řešené i neřešené příklady. Pracovali jste s těmito pojmy: lineární regrese, reziduální odchylky, odhad regresních koeficientů, teoretická hodnota, rozptyl odhadu regresních koeficientů, testování regresních koeficientů, testování vhodnosti regresního modelu. ŘEŠENÝ PŘÍKLAD 3-2 a. odhadněte regresní koeficienty v regresní rovnici 22110 ˆ xbxbbY  , b. vypočtěte teoretické hodnoty, c. vypočtěte reziduální odchylky, d. vypočtěte rozptyl regresních koeficientů, e. testujte regresní koeficienty, f. pro vstupní hodnoty        5121 3111 0X proveďte predikci Y0. Jen data Y x1 x2 10 1 0 25 3 -1 32 4 0 43 5 1 58 7 -1 62 8 0 67 10 -1 71 10 2 Řešení příkladu a. Odhad regresních koeficientů            35 2710 368 YX T                                    26,0 59,6 47,6 35 2710 368 . 60840240 4064384 2403842887 4664 1 b  b. Teoretické hodnoty  89,72,11,72,19,59,34,52,68,39,83,32,98,25,06,13ˆ Y c. Rezidua  89,1,11,5,81,2,66,5,32,3,83,0,98,0,06,3 T e  Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 56 d. Rozptyl koeficientů 65,912 i ie .                           39,2...... ...25,0... ......35,11 60840240 4064384 2403842887 4664 1 . 38 65,91 )(bVar  e. Test koeficientů: 92,1 37,3 47,6 )0( 0 0  bs b T , 18,13 5,0 59,6 1 T , T2 = 0,17 . K = 571,2)05,0()( 38   tt kn  . Statisticky významný je pouze koeficient 1 , neboť pouze T1 > K. f. Test vhodnosti regresního modelu: 51,90 33,18 59,16 )38/(65,91 )13/(3318    T . 79,5)05,0()( 5,2,1   FFK knk  . Model byl zvolen správně. g. Predikce Y0:        5121 3111 0X                         85,86 74,79 26,0 59,6 47,6 . 5121 3111 0Y . * ŘEŠENÝ PŘÍKLAD 3-3 Zjistěte závislost hodnoty produkce na výši investic u 12 vybraných firem lehkého strojí- renství. Přitom víte, že regresní koeficient 1 2,1622.b  Dále víte, že směrodatná odchylka tohoto regresního koeficientu 1( ) 0,615516.s b  Na základě těchto údajů otestujete na 5% hladině významnosti hypotézu o nulové hodnotě regresního koeficientu základního souboru. Produkce firem Řešení příkladu Dosadíte-li do testového kritéria , jb j s b T  dostanete 2,1622 3,513. 0,615516 T   Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 57 V tabulce Studentova rozdělení naleznete pro 12 – 2 = 10 stupňů volnosti kritickou hodnotu (při oboustranné alternativě) 10 (0,05) 2,228t  . Protože 3,513 > 2,228, zamítáte na zvolené hladině významnosti hypotézu o nulové hodnotě regresního koeficientu. Tento regresní koeficient je tedy na hladině významnosti 5% statisticky významný. * ŘEŠENÝ PŘÍKLAD 3-4 Nalezněte lineární regresní rovnici, která popisuje závislost celkové měsíční tržby – proměnná y (v 10 000 Kč) na tržbě ve stravovacích úsecích – proměnná 1x (v 10 000 Kč) a na počtu „lůžkonocí“ – proměnná 2x . Měsíční kapacita hotelů se udává často tímto ukazatelem a je dána součinem celkového počtu lůžek a počtu dnů v měsíci. Výchozí údaje obsahuje tabulka. Hotely Řešení příkladu Výchozí údaje: Y 1x 2x 12,0 2,0 150 8,0 1,2 94 76,4 14,8 811 17,0 8,3 254 21,3 8,4 399 10,0 3,0 95 12,5 4,8 149 97,3 15,6 312 88,0 16,1 952 25,0 11,5 247 38,6 14,2 400 47,3 14,0 312 Vektor vysvětlované proměnné a matice vysvětlujících proměnných mají tvar: Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 58 . 3120,141 4002,141 2475,111 9521,161 3126,151 1498,41 950,31 3994,81 2543,81 8118,141 942,11 1500,21 , 3,47 6,38 0,25 0,88 3,97 5,12 0,10 3,21 0,17 4,76 0,8 0,12                                                                               XY Odtud       . 033091,0 729273,3 126450,9 , 00000266,0000094,000003, 000094,0006234,0026,0 0003,002629,0343,0 , 8,230647 8,6006 4,453 , 226600150,519580,4175 5,5195843,14289,113 0,417590,1130,12 1 1                                                  bYXXX XX XXX TT T T  Vícenásobná regresní rovnice má tedy tvar .033091,0729273,3126450,9ˆ 21 xxY  * ŘEŠENÝ PŘÍKLAD 3-5 Testujte statistickou významnost regresních koeficientů z předchozího příkladu. Test hypotézy o nulovosti těchto regresních koeficientů proveďte na hladině významnosti 5%. Hotel Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 59 Řešení příkladu Nejprve samostatně vypočtěte směrodatné odchylky regresních koeficientů. Měli byste dospět k těmto hodnotám: .0283,0)(,371,1)( 21  bsbs Hodnoty testového kritéria podle )( j j bs b T  jsou .1693,1 0283,0 033091,0 ,7201,2 371,1 729273,3 21  TT Provedeme-li test na hladině významnosti 5%, nalezneme v tabulce Studentova rozdělení tentokrát pro 12 – 3 = 9 stupňů volnosti kritickou hodnotu .262,2975,0 t Porovnáme-li obě hodnoty testového kritéria 21 TaT s uvedenou kritickou hodnotou, vidíme, že v případě proměnné 1x zamítáme na zvolené hladině významnosti hypotézu H0 o nulové hodnotě regresního parametru 1 . V případě proměnné 2x ovšem hodnota testového kritéria nepřekročila kritickou mez a zůstává tedy v oboru přijetí. Jinými slovy řečeno, proměnná 2x na rozdíl od 1x významným způsobem neovlivňuje v modelu hodnoty závisle proměnné a její zařazení do vícenásobného regresního modelu oprávněné nebylo. * KONTROLNÍ TEST 3 3.1 Regresní analýza zkoumá závislost kvantitativních znaků. 3.2 Odchylku naměřených hodnot od teoretických hodnot nazýváme reziduální odchylka. 3.3 Regresní analýza se zabývá pouze lineární regresí. 3.4 Kritická hodnota t při testování regresních koeficientů je kritickou hodnotou normálního rozdělení. 3.5 Nulová hypotéza při testování o vhodnosti volby modelu je tvaru: 0...:H 210  k . Ano či ne? 3.6 Klasický regresní model předpokládá, že náhodné složky mají __________ střední hodnotu a __________ rozptyl. 3.7 Pro testování hypotézy o nulovosti individuálních regresních koeficientů se používá __________ 3.8 Je-li v rovnici kk xbxbbY  ...ˆ 110 absolutní člen 0b , jsou v matici X v prvním sloupci __________ 3.9 Regresní analýza zkoumá závislost __________ znaků. 3.10 Rozptyly odhadů regresních koeficientů najdeme na __________ __________ matice     12   XXsbVar T  . Doplňte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 60 3.11 Personální oddělení shromáždilo údaje o věku (X) a době pracovní neschopnosti (Y) dvaceti náhodně vybraných zaměstnanců. Zjištěné údaje jsou zaznamenány v tabulce. x Y x Y 20 4 58 20 35 14 46 13 35 15 43 16 34 10 33 10 32 10 29 10 28 9 36 11 25 12 48 14 46 15 55 15 38 15 36 14 50 16 19 6 Odhadněte regresní koeficienty v rovnici regresní funkce xbbY 10 ˆ  . Řešte 3.12 Statistický úřad zkoumal souvislost ročních úspor s ročními příjmy rodin s dvěma dětmi školou povinnými. Výsledky studie jsou zachyceny v tabulce. Příjem (tis. Kč) 104 125 146 167 111 135 189 196 205 210 170 230 Úspory (tis. Kč) 6 5,6 9,2 14 8 9,1 20,5 29 23,2 38,5 25 40 Najděte lineární regresní model popisující závislost úspor na příjmech a na základě tohoto modelu odhadněte úspory rodiny, bude-li její roční příjem 205 tis. Kč? 3.13 Ze statistiky rodinných účtů jsme náhodně vybrali osm čtyřčlenných domácností se dvěma nezaopatřenými dětmi. Z podkladů jsme zjišťovali celkový hrubý roční příjem domácnosti v Kč (vysvětlující proměnná x) a celkové roční výdaje těchto domácností za průmyslové zboží (Kč, vysvětlovaná proměnná Y) – viz tabulka: x 211399 306502 250251 264138 274060 297046 328645 249987 Y 42276 72341 49852 53827 54914 60409 71729 47997 a. odhadněte parametry lineární regresní rovnice vystihující závislost roční výše výdajů domácností za průmyslové zboží na celkovém hrubém ročním příjmu těchto domácností, b. nalezněte odhad teoretické výše těchto výdajů v domácnosti, která by měla roční příjem přes 300 000Kč, 3.14 a. Stanovte z dat kontrolní otázky 4.13 směrodatnou odchylku odhadu parametru ,ib i = 0,1. b. Určete pro odhad parametru 1b hodnotu testové statistiky T používané v testu hypotézy H0 o nezávislosti mezi příjmy a výdaji a tento test proveďte proti oboustranné alternativě H1 na hladině významnosti .05,0 Údaje opět převezměte z kontrolní otázky 4.13. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 61 3.15 Z údajů o objemu produkce (mil. FRF, stálé ceny roku 1980, proměnná Y), o hrubé tvorbě fixního kapitálu (mil. FRF, stálé ceny roku 1980, proměnná x1) a o zaměstnanosti (tis. osob, stav k 31.12.1998, proměnná x2) v roce 1998 v jednotlivých odvětvích národního hospodářství Francie, které jsou v tabulce, odhadněte parametry vícenásobné regresní funkce typu 22110 xxY   Odvětví Yi ix1 ix2 Zemědělství 288443 18781 1055 Potravinářství 393828 13990 551 Energetika 330300 33813 223 Výroba polotovarů 602182 32022 1101 Výroba výrobních zařízení 426720 19520 965 Výroba zařízení pro domácnosti 34008 1258 49 Výroba dopravních prostředků 185887 10462 358 Výroba spotřebních předmětů 427766 16392 1030 Stavebnictví a veřejné práce 436926 19828 1472 Obchod 495319 36354 2691 Doprava a spoje 417147 58196 1268 Tržní služby 1002132 116083 4617 Pojišťovací služby 61827 2053 158 Finanční služby 709297 6908 441 Netržní služby 840622 136923 6148 Celkem 6652404 522583 22127 ŘEŠENÍ KONTROLNÍHO TESTU 3 3.1 ano 3.2 ano 3.3 ne 3.4 ne 3.5 ne Ano či ne? 3.6 nulovou, konstantní 3.7 t-test 3.8 jedničky 3.9 kvantitativních 3.10 hlavní diagonále Doplňte 3.11 xY 296,0394,1ˆ  3.12 xY 274,0399,26ˆ  ; 29 711Kč Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 62 3.13 a. ,2796,04,19599ˆ ixY  b. pro ,64298ˆje300000 KčyKčx ii  3.14 a. ,03375,01 bs b. Testová statistika T = 8,284, k tomu krit. hodnota  447,2)05,0(6t přijímáme H1 o existenci závislosti roční výše výdajů domácností za průmyslové zboží na celkovém hrubém ročním příjmu těchto domácností. 3.15 21 7912,662331,27,263684ˆ xxY  Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 63 4 KORELAČNÍ ANALÝZA CÍLE KAPITOLY KORELAČNÍ ANALÝZA Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  stanovit Spearmanův koeficient (pořadové) korelace a použít jej v praxi Budete umět Získáte:  pochopíte vzájemnou souvislost mezi koeficientem korelace a indexem korelace Získáte Budete schopni:  vypočítat koeficient korelace a index korelace,  rozhodnout o statistické významnosti korelačních koeficientů na dané hladině významnosti. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 5 V předcházející kapitole jsme u regresních modelů předpokládali, že hodnoty vysvětlujících proměnných (x) jsou předem zadané, zatímco hodnoty vysvětlované proměnné (Y) jsou náhodné veličiny. Často se však vyskytují případy, kdy máme k dispozici více náhodných veličin a není dopředu známo, které jsou vysvětlující a které vysvětlované. Z korelačních modelů jsou propracovány modely, které předpokládají, že pozorovaná data jsou hodnotami vícerozměrné náhodné veličiny s vícerozměrným normálním rozdělením. Korelační analýza hledá číselné charakteristiky k výjádření míry závislosti veličin X a Y, resp. obecně vektorů  nxxxX ,...,, 21  a  nyyyY ,...,, 21  . Kapitola je doplněna řešenými příklady, které by vám měly pomoci danou problematiku pochopit. Po prostudování této kapitoly si ověřte, zda jste schopni samostatně vypočítat příklady na konci kapitoly. Pokud budete studovat důkladně určitě to zvládnete. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 64 4.1 Koeficient korelace DEFINICE 4-1 V nejjednodušším případě, kdy se - sleduje závislost veličiny Y na veličině X, - X a Y jsou měřitelné, X = (x1,…,xn), Y = (y1,…,yn), - regresní funkcí je přímka, lze použít jako míru jejich lineární závislosti (párový) koeficient korelace ρxy, resp. výběrový koeficient korelace rxy, který se vypočítá pomocí druhého vzorce (první vzorec je definiční, druhý výpočtový): Koeficient korelace          2222 )(.)(. ... , )().( ),( iiii iiii xyxy yynxxn yxyxn r YX YXCov   (4-1) Výběrový koeficient korelace rxy je bodovým odhadem ρxy. Koeficient korelace nabývá hodnoty v intervalu [-1, 1]. V krajních mezích +1 (resp. -1) se jedná o lineární funkční závislost Y na X, přičemž přímka ,10 xbby  vyjadřující tuto závislost je při hodnotě koef. korelace +1 rostoucí a při hodnotě -1 klesající. Při hodnotě blízké 0 není mezi X a Y významná lineární závislost. Nelze však říci, že Y je nezávislé na X , neboť mezi dvěma proměnnými může být také jiná než lineární závislost (např. kvadratická, viz následující příklad)! ŘEŠENÝ PŘÍKLAD 4-1 Vypočítejte koeficient korelace rxy, je-li dáno: x -2 -1 0 1 2 y 4 1 0 1 4 Výpočet koeficientu korelace Řešení příkladu K ručnímu výpočtu rxy je výhodné uspořádat potřebné výpočty do tabulky xi yi xi.yi -2 4 -8 -1 1 -1 0 0 0 1 1 1 2 4 8 xi = 0 yi = 10 xi.yi = 0 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 65 Další údaje vyskytující se ve vzorci (4-1) není potřeba počítat (tj. x2 i, y2 i), protože už z čitatele je vidět xi.yi = xi = 0 a tedy rxy = 0. Pokud bychom z tohoto výsledku usuzovali, že X a Y jsou nezávislé, dopouštíme se hrubé chyby, neboť se jedná v tomto případě o funkční závislost y = x2 . Na základě rxy = 0 lze tedy pouze konstatovat: Y je lineárně nezávislé na X . Většinou však nevychází rxy = 0, ale „blízké nule“. Je ovšem diskutabilní, od kdy máme rxy považovat za blízké nule, např. zda rxy = 0,4 , nebo až rxy = 0,004? Abychom objektivně rozhodli o míře závislosti (či nezávislosti) Y na X , testujeme hypotézu xy = 0 pomocí testu hypotézy o nulovosti koeficientu korelace pomocí výběrového koeficientu korelace rxy takto: 1. Nulová hypotéza (= výchozí předpoklad) H0: Y nezávisí na X, tj. xy = 0 xy = teoretická hodnota (populačního) koeficientu korelace, Alternativní hypotéza (pro případ neplatnosti H0) H1: xy  0 Testování koeficientu korelace 2. Testovací kritérium: T = 2 1 2. xy xy r nr   (4-2) n = počet dvojic (xi, yi). 3. Kritická hodnota K = tn-2(α/2) z tabulek Studentova rozdělení pro daný rozsah souboru n a zvolenou hladinu významnosti α, df = n-2 je stupeň volnosti. 4. Je-li T  K, pak se H0 přijímá, tj. Y není lineárně závislé na X, jinak přijímáme H1, což znamená, že Y je lineárně závislé na X. * ŘEŠENÝ PŘÍKLAD 4-2 Mějme hodnoty xi a yi: xi yi xi yi xi 2 yi 2 -2 -5 10 4 25 -1 -3 3 1 9 0 0 0 0 0 1 1 1 1 1 2 4 8 4 16 Σ = 0 Σ = -3 Σ = 22 Σ = 10 Σ = 51 Tabulky údajů Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 66 Řešení příkladu S pomocí vzorce (4-1) obdržíme 9918,0 ))3(51.5).(010.5( )3.(022.5 2    xyr . Taková hodnota je bez testování jasným znakem vysoké závislosti na x . Přesto provedeme test, podle (4-2) vypočítáme: T = 63,13 126,0 718,1 99812,01 25.9918,0    , α = 0,1 , K = t5-2(0,05) = 3,182 ( =TINV(0,05; 3) ). Protože T = 13,63  K = t3(0,05) = 3,182, je závislost Y na X statisticky významná. Potvrzuje to také p-hodnota testu = TDIST(13,63; 3; 2) = 0,00085 , to znamená, že hodnota korelačního koeficientu je statisticky významná počínaje na hladině 0,085%, tj. na každé „rozumné“ hladině významnosti. * 4.2 Index korelace DEFINICE 4-2 Není-li regresní funkcí přímka, ale jiná nelineární funkce, je možné k vyjádření závislostí X a Y použít index korelace: Y Y xy S S I ˆ  , (4-3) kde vystupují součty čtverců   n i iY YYS 1 2 ˆ )ˆ( , .)( 1 2   n i iY YYS Výpočet Ixy je pracnější než u rxy z toho důvodu, že je potřeba nejprve najít rovnici regresní funkce, aby mohly být vypočítány teoretické hodnoty iY  a z nich potřebný součet čtverců. Index korelace Ixy nabývá hodnot 0 < Ixy < 1. Diskuse k výsledkům je stejná jako u rxy, testování významnosti se obvykle neprovádí. Ixy je použitelný též pro lineární regresní funkci, pak ovšem je totožný s korelačním koeficientem. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 67 4.3 Spearmanův koeficient (pořadové) korelace DEFINICE 4-3 Jsou-li hodnoty veličin X ,Y zadány pořadím, používá se k vyjádření míry jejich závislosti Spearmanův koeficient (pořadové) korelace, který se vypočítá Spearma- nův koeficient )1( 6 1 2 2    nn d r i i S , (4-4) id je diference pořadí znaků X a Y . ŘEŠENÝ PŘÍKLAD 4-3 Výrobky byly seřazeny odbornou a laickou komisí podle jakosti. Rozhodněte, zda se výsledky hodnocení obou komisí shodují. Výrobek Laické hodnocení Odborné hodnocení di di 2 1 7 8 -1 1 2 9 9 0 0 3 8 7 1 1 4 10 10 0 0 5 6 6 0 0 6 5 4 1 1 7 3 5 -2 4 8 4 3 1 1 9 2 2 0 0 10 1 1 0 0 Komise laiků a odborní- ků Řešení příkladu 95,0 9.10 8.6 1 )1( 6 1 2 2     nn d r i i S . Testování významnosti rS lze provést jako u párového koeficientu korelace. * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 68 4.4 Vícenásobná lineární závislost – vztahy pro dvě vysvětlující pro- měnné DEFINICE 4-4 Chceme-li zjistit závislost proměnné Y na větším počtu vysvětlujících proměnných pXXX ,...,, 21 používáme k měření těsnosti závislosti buď: a. koeficienty dílčí (parciální) korelace, b. koeficient vícenásobné korelace. Vícená- sobná lineární závislost Ad a. Koeficient dílčí (parciální) korelace px,...,x.yxr 21 měří intenzitu lineární závislosti proměnné Y na vysvětlující proměnné X1, za předpokladu, že všechny ostatní proměnné za tečkou jsou konstantní. Vztahy pro výpočet v případě dvou vysvětlujících proměnných: koeficient dílčí (parciální) korelace   22 . 212 2121 21 11 xxyx xxyxyx xyx rr rrr r    (4-5)   22 . 211 2112 12 11 xxyx xxyxyx xyx rr rrr r    (4-6) Test statistické významnosti koeficientu parciální korelace: 1. 0: ,...,.0 21 pxxyxH  (není korelač. závislost), 0: ,...,.1 21 pxxyxH  2. Testové kritérium: 2 ,...,. ,...,. 21 21 1 1 p p xxyx xxyx r pnr T    , p je počet vysvětlujících proměnných. 3. Kritická hodnota Studentova rozdělení:   1pnt (=TINV(α;n-p-1)). Pokud T  1 pnt , pak je koeficient parciální korelace statisticky významný. Testování parciálních koeficientů Ad b. Koeficient vícenásobné korelace měří těsnost proměnné Y na všech vysvětlujících proměnných pXXX ,...,, 21 dohromady. Pro 2 vysvětlující proměnné obdržíte: 2 22 . 21 221211 21 1 2 xx yxxxyxyxyx xxy r rrrrr r    ; 10 21.  xxyr . (4-7) Test statistické významnosti koeficientu vícenásobné korelace: 1. 0: ,...,.0 21 pxxxyH  (není závislost), 0: ,...,.1 21 pxxxyH  2. Testové kritérium:    pr pnr T p p xxxy xxxy 2 ,...,. ,...,. 2 21 21 1 1    , p je počet vysvětlujících proměnných. Testování koeficientu vícená- sobné korelace Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 69 Kritická hodnota Fisherova rozdělení:   1,  pnpF = FINV(α;p;n-p-1). Pokud je T   1,  pnpF , pak je koeficient vícenásobné korelace statisticky významný na dané hladině významnosti. SHRNUTÍ KAPITOLY KORELAČNÍ ANALÝZA V této kapitole jste se seznámili s dalším důležitým tématem: korelační analýzou. Naučili jste se stanovit koeficient korelace, index korelace a Spearmanův index pořadové korelace. V závěru kapitoly jsou uvedeny koeficienty parciální a vícenásobné korelace, ale protože výpočet pro případ, že Y závisí na proměnných pXXX ,...,, 21 , kde 2p , je pracný, je v řešených příkladech uveden tvar pro výpočet vícenásobného koeficientu korelace pro případ 2p . Shrnutí kapitoly ŘEŠENÝ PŘÍKLAD 4-4 Zjistěte, zda existuje mezi následujícími proměnnými závislost. Vypočtěte parciální korelační koeficienty, proveďte test významnosti menšího z nich (hladina významnosti 5%), vypočtěte koeficient vícenásobné korelace a testujte jeho významnosti na hladině významnosti 5%. Data představují celkové měsíční tržby Y (v mil. Kč), tržby stravovacích úseků X1 (v mil. Kč), počet „lůžkonocí“ X2. (Počet lůžkonocí je dán součinem počtu lůžek a počtu dnů v měsíci. Ubytovací zařízení Y 12 8 76,4 17 21,3 10 X1 2 1,2 14,8 8,3 8,4 3 X2 150 94 811 254 399 95 Y 12,5 97,3 88 25 38,6 47,3 X1 4,8 15,6 16,1 11,5 14,2 14 X2 149 312 952 247 400 312 Řešení příkladu Nejprve vypočteme jednoduché korelační koeficienty: 73,075,085,0 2121  xxyxyx rrr . Dosadíme do vztahu pro parciální korelační koeficienty (4-5), (4-6):   22 . 212 2121 21 11 xxyx xxyxyx xyx rr rrr r    ,   22 . 211 2112 12 11 xxyx xxyxyx xyx rr rrr r    . Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 70 Po dosazení dostáváme následující hodnoty parciálních korelačních koeficientů: 67,021. xyxr 36,012. xyxr . Dalším úkolem je testovat parciální korelační koeficient 36,012. xyxr : 1. 0: 12.0 xyxH  (není závislost), 0: 12.1 xyxH  . 2. Testové kritérium: 2 . . 12 12 1 1212 xyx xyx r r T    = 1,16. 3. Kritická hodnota Studentova rozdělení:   262,205,01212 t . Protože hodnota testového kritéria leží v oboru přijetí, tj. |T| < t9(0,05), přijímáme nulovou hypotézu a parciální korelační koeficient není statisticky významný. Jinak řečeno, nebylo prokázáno, že by celkové měsíční tržby závisely na počtu lůžkonocí. Nakonec vypočtěme koeficient vícenásobné korelace a testujme jeho statistickou významnost. Po dosazení do vztahu (4-7) dostaneme: 87,0 1 2 2 22 . 21 221211 21     xx yxxxyxyxyx xxy r rrrrr r Jak vidíte, je jeho hodnota je vždy větší než největší z jednoduchých korelačních koeficientů. Nyní následuje test: 1. 0: 21.0 xxyH  (není závislost), 0: 21.1 xxyH  . 2. Testové kritérium:    21 1212 2 . . 2 21 21 xxy xxy r r T    = 14,54. 3. Kritická hodnota Fisherova rozdělení:      26,405,0 9,21212,2  FF (=FINV(0,05;2;9)). Protože hodnota testového kritéria leží v kritickém oboru, zamítáme nulovou hypotézu a lze tvrdit, že celkové měsíční tržby jsou společně ovlivněny jak tržbami stravovacích úseků, tak současně počtem lůžkonocí. * ŘEŠENÝ PŘÍKLAD 4-5 V náhodném výběru o rozsahu 25 pozorování byl vypočítán koeficient korelace 23,0xyr . Ověřte testem, zda z tohoto výsledku lze usuzovat na lineární nezávislost mezi proměnnými X a Y v základním souboru. Řešení příkladu Vypočítáme hodnotu testového kritéria podle 2 1 2 xy xy r nr T    .133,1 23,01 22523,0 2     Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 71 V tabulce kritických hodnot Studentova rozdělení t naleznete při 5% hladině významnosti pro 23 stupňů volnosti kritickou hodnotu t23(0,05) = 2,069. Protože je 1,133 < 2.069, tj. hodnota testového kritéria náleží do oboru přijetí, nelze na 5% hladině významnosti zamítnout hypotézu H0. Existenci lineární závislosti mezi veličinami v základním souboru považujeme tedy za neprokázanou. * ŘEŠENÝ PŘÍKLAD 4-6 V podniku Canard se při hodnocení údajů vycházejících z vnitropodnikového účetnictví sledovala závislost vlastních nákladů připadajících na jednotku produkce (proměnná Y) na objemu produkce v 1 000 ks (proměnná X). ix 60 71 92 144 192 306 iy 5157 2620 1986 1582 1100 954 ix 437 481 747 989 1383 iy 729 456 200 196 110 Vypočítejte index korelace za předpokladu hyperbolické regresní závislosti. Náklady Řešení příkladu Nejprve je zapotřebí stanovit metodou nejmenších čtverců regresní koeficienty a a b hyperbolické závislosti b X a Y  , poté sem dosadit xi a vypočítat iyˆ a také y . Dosadíte-li příslušné součty řádků do (5-3):         , ˆ 1 ˆ 1 2 2 2 2           yy yy yy n yy nI i i i i yx dostanete .945,0 22155242 19813814 yxI Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 72 Výsledná hodnota indexu ukazuje na vysokou těsnost závislosti mezi vlastními náklady na jednotku produkce a objemem produkce. Lze tedy říci, že použití regresní hyperboly tuto závislost velmi dobře vystihuje a případné regresní odhady prováděné na jejím základě možno považovat za kvalitní. * KONTROLNÍ TEST 4 4.1 Koeficient korelace vyjadřuje lineární závislost Y na X. 4.2 Koeficient korelace nabývá hodnot z intervalu ]1,1[ . 4.3 Nulová hypotéza při testování statistické významnosti korelačního koeficientu předpokládá, že Y nezávisí na X. 4.4 Výpočet indexu korelace I je mnohem snadnější než výpočet koeficientu korelace. 4.5 Spearmanův koeficient nabývá hodnot z intervalu ]1,1[ . Ano či ne? 4.6 Korealční analýza hledá číselné charakteristiky k vyjádření __________ 4.7 Je-li hodnota koeficientu korelace 1xyr , pak je přímka, která vyjadřuje tuto závislost __________ 4.8 Index korelace I nabývá hodnot z intervalu __________ 4.9 Pokud jsou hodnoty veličin X, Y zadány pořadím, používá se k vyjádření míry jejich závislost __________ koeficient korelace. 4.10 Je-li veličina Y závislá na vektoru  mXXXX ,...,, 21 používá se k výpočtu míry jejich závislost koeficient __________ __________ Doplňte 4.11 Vypočítejme koeficient korelace mezi těžbou uhlí v 1000t a náklady na vytěženou tunu v Kč. Výchozí údaje potřebné k výpočtu jsou uvedeny v tabulce. Řešte Důl č. ix iy 1 350 37 2 351 38 3 329 38 4 329 38,5 5 327 37,5 6 322 39,1 7 321 39,6 8 316 42,1 9 298 42,9 10 286 43,5  3229 396,2 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 73 4.12 Ze statistiky rodinných účtů jsme náhodně vybrali osm čtyřčlenných domácností se dvěma nezaopatřenými dětmi. Z podkladů jsme zjišťovali celkový hrubý roční příjem domácnosti v Kč (proměnná X) a celkové roční výdaje těchto domácnostní za průmyslové zboží (proměnná Y). Údaje jsou uvedeny v tabulce.Vypočítejte koeficient determinace a korelační koeficient. ix 211399 306502 250251 264138 iy 42276 72341 49852 53827 ix 274060 297046 328645 249987 iy 59914 60409 71729 47997 4.13 Filmový festival v kategorii hudebních filmů představil festivalové porotě 10 snímků, které současně oceňovala v anketě i divácká obec. Pořadí hodnocení děl (ta označíme písmeny A, B, ..., J) shrnuje tabulka. Film A B C D E F G H I J Pořadí odb. poroty 5 7-9 7-9 1 2-3 7-9 2-3 4 6 10 Pořadí v anketě 1 6 4 3 8 7 2 5 10 9 4.14 Z údajů o objemu produkce (mil. FRF, stálé ceny roku 2000, proměnná Y), o hrubé tvorbě fixního kapitálu (mil. FRF, stálé ceny roku 2000, proměnná X1) a o zaměstnanosti (tis. osob, stav k 31. 12. 2002, proměnná X2) v roce 2002 v jednotlivých odvětvích národního hospodářství Francie, které jsou v tabulce, vypočítejte koeficient vícenásobné korelace. Odvětví iy ix1 ix2 Zemědělství 288443 18781 1055 Potravinářství 393828 13990 551 Energetika 330300 33813 223 Výroba polotovarů 602182 32022 1101 Výroba výrobních zařízení 426720 19520 965 Výroba zařízení pro domácnosti 34008 1258 49 Výroba dopravních prostředků 185887 10462 358 Výroba spotřebních předmětů 427766 16392 1030 Stavebnictví a veřejné práce 436926 19828 1472 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 74 ŘEŠENÍ KONTROLNÍHO TESTU 4 4.1 ano 4.2 ne 4.3 ano 4.4 ne 4.5 ano Ano či ne? 4.6 míry závislosti 4.7 rostoucí 4.8 (0,1) 4.9 Spearmanův 4.10 vícenásobné korelace Doplňte 4.11 8967,0yxr 4.12 %,96,919196,02 yxr 959,0yxr 4.13 Spearmanův koeficient pořadové korelace 4493,0yxiir 4.14 %,69,606069,02 21  xxyr 779,021  xxyr Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 75 5 METODY PROGNÓZOVÁNÍ TRŽEB CÍLE KAPITOLY METODY PROGNÓZOVÁNÍ TRŽEB Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  Prognózovat časové řady tržeb.  Znát podstatu dekompozičních modelů časových řad.  Rozlišit hlavní složky modelu časových řad: o trendová složka (lineární trend, logistický trend), o sezónní složka, o náhodná složka (předpoklady, které má splňovat).  Pomocí Excelu a SPSS provést dekompozici dané časové řady tržeb a na jejím základě prognózovat hodnoty časové řady Budete umět Budete schopni:  Vysvětlit cíle prognózováním časových řad tržeb eventuálně jiných ekonomických uka- zatelů.  Správně použít dekompoziční modely časových řad: aditivní a multiplikativní.  Dekomponovat danou časovou řadu a identifikovat v ní její hlavní složky: trend, sezónní složku a náhodnou složku (reziduum).  Pomocí Excelu a SPSS provést analýzu dané časové řady a na jejím základě prognózovat hodnoty časové řady v budoucnosti. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 6 Analýza časových řad je vedena snahou po vysvětlení minulosti a předvídání budoucnosti, v ekonomické oblasti se jedná o vývojové trendy ukazatelů hospodářské činnosti. Analýza časových řad jako soubor metod a postupů nabízí širokou škálu nástrojů a technik. Ke klasickým analytickým postupům založeným na regresi z předchozích kapitol a syntetickým přístupům založeným na technikách vyrovnání časových řad, přistupuje moderní, výpočetně náročnější harmonická analýza a Box-Jenkinsova metodologie, modely ARIMA, ARCH a GARCH využívající současného mohutného rozvoje výpočetní techniky. Naše ambice však až k těmto metodám nedosáhnou. Zájemce o hlubší poznání metod časových řad odkazujeme na literaturu, nebo jim doporučujeme si zvolit ve studijním programu některý ze specializovaných kurzů, např. Ekonometrie nebo přímo Analýza časových řad. Podobně jako v předchozích kapitolách, sledujte řešené příklady v textu a potom zkuste samostatně vyřešit neřešené příklady. Výsledky si zkontrolujte se správnými výsledky ze závěru kapitoly. Pokud něco samostatně nezvládáte, vraťte se nazpět k řešeným příkladům a projděte je ještě jednou. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 76 5.1 Časové řady – prognózování tržeb Časová řada (ČŘ) je posloupnost prostorově a věcně srovnatelných číselných údajů uspořádaných v čase od minulosti přes přítomnost do budoucnosti. Zde nás budou zajímat zejména ČŘ ekonomických veličin, speciálně tržeb tzv. ekonomické časové řady. Rozlišují se okamžikové ČŘ (stavové hodnoty v daných časových okamžicích, např. počet zaměstnanců podniku vždy k 1. dni měsíce) a intervalové ČŘ (hodnoty ukazatele za časové intervaly, např. hodnoty tržeb podniku za jednotlivé měsíce). V časové řadě se obvykle předpokládá, že:  jediným (agregovaným) faktorem změny je čas ( označuje se t),  údaje jsou uvedeny za ekvidistantní (tj. stejně dlouhé) časové intervaly. Časová řada – ČŘ Ekonomická ČŘ Prognózování (též predikování, předvídání apod.) tržeb představuje odhadování velikostí tržeb na jeden nebo více časových intervalů do budoucna. Rozlišujeme bodové a intervalové prognó- zy. Dekompoziční modely ČŘ Prognózování tržeb Každá časová řada může obsahovat až 4 složky, které vyjadřují různé druhy pohybu analyzovaného ukazatele:  trendovou složku (trend) Tt,  sezónní složku St,  cyklickou složku Ct,  náhodnou složku t . Trendová složka vyjadřuje základní směřování hodnot ČŘ (růst, pokles a jejich eventuální zesílení nebo tlumení). Sezónní a cyklická složka souhrnně nazývané periodická složka zachycuje pravidelné kolísání hodnot ČŘ. 4 složky ČŘ Trendová, sezónní a cyklická složka tvoří společně deterministickou složku, která se značí Yt , tj. Y T S Ct t t t   . Zpravidla se uvažuje, že složky Yt jsou v aditivním vztahu, takže model časové řady můžete zapsat ve tvaru Determi- nistická složka ttttt CSTy  (5-1) V tomto případě se hovoří o aditivním modelu časové řady. V ekonomických časových řadách se nejčastěji setkáte se dvěma speciálními případy modelu (5-1). U střednědobých modelů (s roční periodicitou) se obvykle předpokládá S Ct t  0, pak model časové řady (5-1) má tvar: Aditivní model ttt Ty  (5-2) U krátkodobých modelů časových řad (s čtvrtletní nebo měsíční periodicitou) se předpokládá, že Ct  0 , a tedy model (5-1) má tvar: Sezónní složka tttt STy  (5-3) jedná se pak o časovou řadu se sezónní složkou. Vedle aditivního modelu (5-1) je multiplikativní model založen na předpokladu, že vzájemný vztah jednotlivých složek obsažených v modelu je dán vzájemným násobením: Multiplikativní model ttttt CSTy  , resp. ttttt CSTy  . (5-4) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 77 Popis a kvantifikace jednotlivých složek modelu časové řady patří k hlavním úkolům analýzy časových řad. Metody dekompozice, které slouží ke stanovení jednotlivých složek ČŘ, se rozdělují do dvou skupin, na: 1 - analytické: regresní analýza (metoda nejmenších čtverců), 2 - syntetické: klouzavé průměry a exponenciální vyrovnání (jednoduché, Holtovo, Winterso- vo). Metody dekompo- zice PRŮVODCE TEXTEM V dalších odstavcích se budete postupně zabývat jednotlivými složkami ČŘ s ohledem na metody jejich dekompozice a možnosti prognózování tržeb 5.2 Analýza trendové složky Jak již bylo řečeno, jediným faktorem vývoje dynamiky analyzovaného ukazatele je čas t. Tato úvaha, která sice často výrazně zjednodušuje skutečnost, umožňuje jednoduše modelovat časovou řadu a oddělit od sebe její jednotlivé složky, z nichž trendová složka představuje nejdůležitější komponentu analyzované časové řady. V předešlém odstavci jste zaznamenali dva obecné přístupy: (A) analytický a (B) syntetický. Trendová složka je analyzována každým z těchto přístupů specifickými prostředky, se kterými se nyní podrobněji seznámíte, neboť tvoří základ analýzy ČŘ. ad (A): Analytický přístup - nejdůležitější trendy používané při prognózování tržeb: Jediný faktor 1. Lineární trend Příklad 1. Tržby obchodní organizace ( v USA), viz Obr. 5-1. Na Obr. 5-1. vidíte zobrazenu ČŘ měsíčních tržeb jisté obchodní organizace za období červenec 1989 až červen 2001, tedy za období 12 let, tj. 144 měsíců. Lineární trend K zobrazení pomocí Excelu byl použit postup volby z menu: Vložit  Graf  XY bodový  Bodový s danými body spojenými pomocí úseček Tento postup zobrazení časových řad je obvyklý i v jiných programech, např. také v SPSS. Poklepáním myší na graf vyvoláte další nabídku, z níž volbu: Přidat spojnici trendu již znáte z jednoduché regresní analýzy, viz kapitola 4. Výsledkem je zobrazení regresní přímky, její rovnice a koeficient determinace R2 . Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 78 Obrázek 5-1: Měsíční tržby Obr. 5-1: Měsíční tržby 2. Logistický trend. Lineární trend může být vhodným modelem ČŘ jen v omezeném časovém intervalu. Dříve nebo později se růst nebo pokles ukazatele ČŘ začne zpomalovat - tlumit. K vyjádření tohoto modelu slouží logistický trend vyjádřený vztahem: Logistický trend ttT 101     , t = 1,2,...,n. (5-5) Index t představuje označení časových intervalů. Příklad 2. Měsíční tržby z prodeje výrobků Obrázek 5-2: Měsíční odbyt výrobků Obr. 5-2: Měsíční odbyt výrobků Měsíční tržby /tis. USD/ y = 0,447x + 196,23 R2 = 0,8173 100 120 140 160 180 200 220 240 260 280 JUL1989 MAY MAR1991 JAN1992 NOV1992 SEP1993 JUL1994 MAY MAR1996 JAN1997 NOV1997 SEP1998 JUL1999 MAY MAR2001 Mě s íční odbyt výrobků /tis . ks / 0 5 10 15 20 25 30 35 40 m ěsíc OCT 1989FEB 1990JUN 1990 OCT 1990FEB 1991JUN 1991 OCT 1991FEB 1992JUN 1992 OCT 1992FEB 1993JUN 1993 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 79 Výpočet neznámých parametrů 10 ,,  v definici logistického trendu (5-5) se provede pomocí metody nejmenších čtverců (MNČ). V Excelu to lze provést např. pomocí zabudované funkce Řešitel, podobně jako řešení příkladu 4 v této kapitole. V SPSS je možné k zobrazení a predikci ČŘ použít menu: Analyze  Regression  Curve Estimation... s následným výběrem vhodného trendu z 11 nabízených možností. Postup při volbě vhodného analytického modelu trendu: 1. Stanovení konkrétního typu trendové funkce. 2. Výpočet přiléhavosti dat k trendové (regresní) křivce pomocí koeficientu determinace R2 a reziduálního rozptylu 2 Rs . Nevýhoda koeficientu determinace: více parametrů regresní funkce znamená vyšší hodnotu R2 , proto je často vhodnější mírou reziduální rozptyl pn S s R R  2 , kde n je počet dat, p je počet parametrů, SR je reziduální součet čtverců, viz kapitola 4. ad (B): Syntetické modely trendu ČŘ Volba trendu Syntetický přístup stanovení trendu spočívá ve vyhlazení a vyrovnání odchylek daného ukazatele v časové řadě takovým způsobem, že získané vyrovnané hodnoty vyjadřují trendový faktor obsažený pouze v ČŘ, nikoliv však vnější faktory. Nemusíte proto znát předem typ trendové funkce, což je předností syntetického přístupu oproti přístupu analytickému, kde jste typ trendové funkce museli stanovit předem. Jeho nevýhodou je naopak obtížnější využití pro prognózování hodnot časové řady. Z existujících metod syntetického přístupu se seznámíte s metodami klouzavého průměru a exponenciální vyrovnání. Trendy nejsou zadány explicitně vzorcem, nýbrž jsou zadány hodnotami nové ČŘ (tj. syntetického trendu). Příklad 3. Prostý 3-členný klouzavý průměr Syntetické přístupy k trendu Obrázek 5-3: Měsíční poptávka (ks) Obr. 5-3: Měsíční poptávka Měsíční poptávka /ks/ 3-členné klouzavé průměry 0 50 100 150 200 250 300 350 400 1 2 3 4 5 6 7 8 9 10 11 12 měs íc kusy Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 80 Klouzavé průměry jsou ve skutečnosti posouvané aritmetické průměry několika hodnot ČŘ. Volba rozsahu klouzavé části závisí na věcném (ekonomickém) charakteru časové řady a nelze ji obvykle stanovit na podkladě exaktních statistických metod. V praxi jsou u ekonomických neperiodických časových řad voleny většinou klouzavé části menší liché délky, např. 3, 5 nebo 7 časových jednotek, což vede ke snadnějšímu porozumění výsledkům. Pak totiž můžete hodnotu klouzavého průměru přiřadit prostřednímu časovému okamžiku klouzavé části. U periodických časových řad se volí délka klouzavých částí totožná s délkou periody (sezóny, cyklu). Klouzavé průměry Exponenciální vyrovnání představuje posouvané vážené průměry hodnot ČŘ, kdy váhy exponenciálně s časem ubývají. Při něm se nová vyrovnaná hodnota stanoví na základě exponenciálně váženého průměru současné hodnoty a všech předchozích hodnot časové řady. Přitom se používá koeficient exponenciálního zapomínání, kdy novější hodnota má vždy větší váhu (tj. důležitost), než hodnota starší. Exponen- ciální vyrovnání Nechť ty značí pozorovanou hodnotu v časovém okamžiku t,  je koeficient exponenciálního zapomínání 0    1, ty~ je vyrovnaná hodnota v čase t. Procedura exponenciálního vyrovnání začíná tím, že první vyrovnanou hodnotu časové řady 1 ~y (v čase 1) položíte rovnu pozorované hodnotě 1y , tedy: 1 ~y = 1y . Další vyrovnané hodnoty se definují rekurentním vztahem: Koeficient exponen- ciálního zapomíná- ní 1 ~)1(~  ttt yyy  , t = 2,3,...n, (5-6) který umožňuje postupně vypočítat všechny vyrovnané hodnoty dané časové řady. Vypočítané vyrovnané hodnoty pak tvoří syntetický trend dané ČŘ. Výpočet podle vzorce (5-6) je možné snadno provést v Excelu jen za pomocí vzorců bez použití zabudovaných funkcí, alternativně s využitím menu: Nástroje  Analýza dat  Exponenciální vyrovnání..., kde po zadání oblasti (sloupce) s uloženými hodnotami ČŘ obdržíme vyrovnanou ČŘ - syntetický trend. (Pozor: koeficient zapomínání se tu nazývá koeficient útlumu). Řešení v Excelu Program SPSS je pro exponenciální vyrovnání vybaven mnohem lépe. V na-bídce menu: Analyze  Time Series  Exponential smoothing... je k dispozici kromě výše popsané jednoduché metody stanovení syntetického trendu (metoda Simple) ještě metoda Holtova. Rozšíření jednoduché metody na sezónní ČŘ poskytuje metoda Wintersova a k dispozici je ještě položka Custom. Touto problematikou se budete zabývat v následující subkapitole. Řešení v SPSS 5.3 Analýza sezónní složky Při analýze časových řad s periodicitou kratší než jeden rok se setkáte téměř vždy s existencí sezónních vlivů, reprezentovaných v modelu časové řady sezónní složkou. Sezónní vlivy tvoří soubor příčin, které se pravidelně opakují v důsledku koloběhu přírody. Důsledkem působení sezónních vlivů na analyzovanou časovou řadu jsou pravidelné výkyvy nahoru a dolů vůči určitému normálnímu vývoji. Pokud se u časových řad vyskytují podobné vlivy v delším časovém horizontu, hovoříme o cyklické složce ČŘ. Souhrnně se sezónní a cyklické složky označují jako periodické složky časové řady, takže model časové řady (5-1) můžete vyjádřit ve tvaru: Sezónní vlivy Analýza periodické složky Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 81 yt = Tt + Pt + et . (5-7) kde Pt je periodická složka ttt CSP  , St - sezónní složka, Ct - cyklická složka. Úkolem popisu periodické složky časové řady je nalézt její vhodné modelové vyjádření, které by umožnilo periodickou (nejčastěji sezónní) složku nejen vhodně identifikovat, ale i následně použít k predikci chování časové řady v budoucnu. Metody, které se k tomu používají, jsou zejména: - harmonická analýza - exponenciální vyrovnání (Wintersův model), - modely sezónnosti (konstantní, proporcionální). PRŮVODCE TEXTEM Metodou harmonické analýzy a použitím Wintersova sezónního modelu exponenciálního vyrovnání se zde nebudete zabývat, zájemce odkazujeme na doplňkovou literaturu, např. [SegerHindls, 1995]. Dále se však budete zabývat modely konstantní sezónnosti, které je možno řešit v Excelu 5.3.1 Model konstantní sezónnosti Při popisu trendové složky i periodické složky v předchozím odstavci jste používali posloupnost časové proměnné t = 1,2,...n, nyní se bude toto označení používat pro označení časových intervalů (např. roků), které se člení na dalších r dílčích časových období, které se nazývají sezóny (např. měsíce) a označují se j = 1,2,...,r. V praktických aplikacích lze vystačit s předpokladem, že r je sudé, protože např. pro řady s čtvrtletní periodicitou je r = 4, pro řady s měsíční periodicitou během roku je r = 6. Model (5-7) lze s použitím uvedené symboliky zapsat ve tvaru: Model konstantní sezónnosti tjtjtjtj PTy  , t = 1,2,...,n, j = 1,2,...,r. (5-7*) U modelu konstantní sezónnosti se vychází z předpokladu, že: jtjP  pro sezónu j v letech t = 1,2,...,n, kde j jsou neznámé sezónní parametry, o nichž se dále předpokládá, že splňují rovnost:   r j j 1 0 Předchozí dva poklady vycházejí z představy, že v důsledku pravidelného (ročního) koloběhu sezónních vlivů se v j-té sezóně opakují sezónní výkyvy j , které se mezi jednotlivými léty neliší a dále se tyto vlivy během roku (r sezón) vykompenzují, takže jejich roční součet je nulo- vý. Nejprve budeme předpokládat, že trendová složka tjT v roku t nabývá ve všech sezónách hodnotu t , takže posloupnost těchto hodnot v letech t = 1,2,...,n představuje schodovitý trend. Model pak bude mít tvar: Podmínka pro sezónní parame- try tjjttjy   , t = 1,2,...,n, j = 1,2,...,r. (5-8) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 82 Odhady jt ca , tedy n + r neznámých parametrů t , j tohoto modelu obdržíme po aplikaci metody nejmenších čtverců. ŘEŠENÝ PŘÍKLAD 5-1 V souboru madona jsou ve sloupci Poč.Ubyt. uvedena data - tržby v Hotelu Madona v jednotlivých měsících od ledna 1998 až do prosince 2002, celkem tedy 60 hodnot. Úkolem je vytvořit model konstantní sezónnosti a na jeho základě prognózovat hodnoty ubytovaných ve 12 měsících roku 2003. Tržby v Hotelu Madona Řešení příkladu Máme n = 5, r = 6. Podle vztahů (5-8) vypočítáme odhady neznámých koeficientů modelu konstantní sezónnosti: t a t j c j y tj 1 403,8 1 -29,8 285,3 2 353,0 2 -125,2 189,9 3 337,9 3 -86,2 228,9 4 323,0 4 42,9 357,9 5 319,1 5 75,1 390,1 6 315,0 6 132,5 447,5 7 153,7 468,7 8 127,9 442,9 9 -19,8 295,3 10 -112,8 202,3 11 -164,6 150,5 12 6,3 321,3 Tab. 5.1 V Tab. 5.1. jsou hodnoty at pro t = 1, 2, 3, 4, 5 vypočítány podle prvního vztahu ve (5-9), pro t = 6 je hodnota stanovena odhadem jako prognóza průměrů na rok 2003 z předchozích hodnot. Hodnoty cj pro j = 1,2,3,..., 12 jsou vypočítány podle druhého vztahu (5-9). Prognózované hodnoty tržeb v jednotlivých měsících roku 2003 jsou vypočítány v posledním sloupci Tab. 5.1. ze vztahu (5-8). V přiloženém souboru madona je kromě sloupce dat - časové řady tržeb v jednotlivých měsících - uvedeno také Řešení: celkový průměr (zelená barva), odhady koeficientů modelu: t (žlutá barva), koeficienty j (modrá barva). Na Obr. 5-4. je zobrazen graf časové řady a na Obr. 5-5. společně tentýž graf a graf modelu konstantní sezónnosti (fialová barva) včetně prognózované části na rok 2003. Řešení v Excelu t r j tjt yy r a  1 1 ,     n t r j tj n t tjj y rn y n c 1 11 11 . (5-9) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 83 Obrázek 5-4: Měsíční tržby Obr. 5-4: Měsíční tržby Obrázek 5-5: Model konstantní sezónnosti a predikce Obr. 5-5: Model konstantní sezónnosti a predikce * 5.4 Analýza náhodné složky Náhodnou složku t lze z modelu (5-7) vyjádřit ve tvaru: t = yt - Yt, t = 1,2,...n, (5-10) kde Yt = Tt + Pt . Jedná se zde o vyjádření blíže nespecifikovaných náhodných vlivů. Zdrojem této složky jsou obvykle nepodchycené drobné vzájemně nezávislé náhodné vlivy. Realizace náhodné složky pro konkrétní časovou řadu, trend a sezónní složku nazývá reziduum. K zajištění spolehlivé předpovědi na základě modelu časové řady je třeba mít splněny některé předpoklady Měsíční tržby y = -1,6338x + 397,18 R2 = 0,0656 0 100 200 300 400 500 600 1.98 5.98 9.98 1.99 5.99 9.99 1.00 5.00 9.00 1.01 5.01 9.01 1.02 5.02 9.02 Model konstantní sezónnosti a predikce 0 100 200 300 400 500 600 1.98 5.98 9.98 1.99 5.99 9.99 1.00 5.00 9.00 1.01 5.01 9.01 1.02 5.02 9.02 1.03 5.03 9.03 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 84 o náhodné složce. Jedná se tedy o tyto předpoklady: 1. Náhodné složky t v modelu (5-10) mají nulovou střední hodnotou a normální rozdělení pravděpodobnosti. 2. Náhodné složky t v modelu (5-10) mají konstantní rozptyl 2 . Konstantnost rozptylu nazýváme homoskedasticita. 3. Náhodné složky t jsou nekorelovatelné, tj. r(t,t´) = 0 pro každé t  t´ , t,t´ = 1,2,...,n. (r značí korelační koeficient, viz kapitola 5). V praxi jsou podmínky klasického modelu často splněny. Nejste-li si však jejich platností jisti, můžete provést testy příslušné testy hypotéz. 5.5 Testování vlastností náhodné složky K získání dobré prognózy na základě sestaveného modelu je nutné prověřit, zda náhodná složka – rezidua, vyhovuje výše uvedeným 3 předpokladům: 1. nulová střední hodnota rezidua a normalita, 2. homoskedasticita, 3. nekorelovanost Vlastnosti náhodné složky ad 1. Jednoduchým nástrojem, kterým lze ověřit nulovou střední hodnotu reziduí, je jednovýběrový t-test střední hodnoty, viz kapitola 2. Použití tohoto testu si procvičíte níže na Příkladu 4. Normalitu lze testovat Chi-kvadrát testem, viz kapitolu 2, ale to se prakticky neprovádí. Test střední hodnoty ad 2. Konstantnost rozptylu lze testovat s pomocí Excelu jednoduše tak, že ČŘ rozdělíme na 2 poloviny (začátek a konec) a provedeme dvouvýběrový F-test pro rozptyl, který je k dispozici v nabídce: Nástroje  Analýza dat  Dvouvýběrový F-test pro rozptyl... Použití si procvičíte níže na Příkladu 4. Test ho- moskedas- ticity ad 3. K testování nekorelovanosti slouží známý Durbin - Watsonův test autokorelace. V Excelu se bohužel žádný vhodný nástroj nevyskytuje, proto využijete SPSS, kde takové nástroje jsou k dispozici. Použití demonstrujeme na Příkladu 4. Budete k tomu potřebovat pojem autokorelace. S pojmem korelace dvou náhodných veličin jste se seznámili již dříve. Každou ČŘ lze považovat za posloupnost realizací náhodné veličiny, pak odhad korelačního koeficientu dvou časových řad můžete vypočíst podle vztahu (6-7). Představte si 2 časové řady: první ČŘ má hodnoty y1, y2, y3, y4, ..., yn,... druhá ČŘ vznikne posunutím o 1 časovou jednotku, tedy y2, y3, y4, ..., yn.... Korelační koeficient těchto 2 časových řad se nazývá autokorelační koeficient 1. řádu. Posunete-li druhou časovou řadu o k = 2,3, ... atd. časových jednotek, obdržíte analogicky autokorelační koeficient 2. řádu, 3. řádu, atd., obecně autokorelační koeficient k-tého řádu, označuje se (k). Test neko- relovatel- nosti Posloupnost autokorelačních koeficientů (0), (1), (2), (3),... se nazývá autokorelační funkce (zkráceně z angličtiny ACF). První hodnota ACF je vždy rovna 1, neboť se jedná o korelační koeficient 2 totožných ČŘ (posun 0), tedy (0) = 1. Ostatní hodnoty ACF jsou čísla z intervalu [-1;1]. Pokud hodnota ACF padne do 95-ního intervalu spolehlivosti, považujeme ji za nulovou. Padnou-li proto všechny hodnoty ACF do pásu 95-ního intervalu spolehlivosti (ovšem s výjimkou (0), která je vždy rovna 1), jsou původní hodnoty ČŘ vzájemně nekorelované. V případě, že je tato ČŘ řadou reziduí, splňuje podmínku 3. Použití ACF si procvičíte na Příkladu 5-1. Autokoerlační funk- ce Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 85 Řešení příkladu Časová řada reziduí je uvedena ve sloupci Reziduum v souboru madona. ad 1. Nejprve budete testovat nulovost reziduí, tj. nulovou hypotézu H0: Střední hodnota reziduí je 0. Jak již bylo řečeno, v Excelu použijete jednovýběrový t-test střední hodnoty, podrobnosti viz kapitola 5.4. Zjistíte, že p-hodnota testu je 0,324 > 0,05 a proto nulovou hypotézu přijímáme a tedy je splněna podmínka 1. ad 2. K testování heteroskedasticity použijete opět Excel. Sloupec s ČŘ Reziduum rozdělíte "na dvě poloviny" - dvě ČŘ, každá s 30 hodnotami. Nulovou hypotézu formulujete takto: H0: Rozptyly obou ČŘ jsou stejné. K testování použijete menu: Nástroje  Analýza dat  Dvouvýběrový F-test pro rozptyl..., kde po zadání oblastí umístění obou ČŘ obdržíte tento výstup: Pokračování řešení příkladu 5-1 Obrázek 5-6: Dvouvýběrový f-test pro rozptyl Obr. 5-6: Dvouvýběrový f-test pro rozptyl P-hodnota testu je uvedena v předposledním řádku tabulky jako 0,171. Tato hodnota je větší než porovnatelná hladina významnosti 0,05 a proto nulovou hypotézu přijímáme, rozptyly se tedy statisticky významně neliší - jsou stejné. Předpoklad 2. je tedy rovněž splněn. ad 3. K testu nekorelovanosti reziduí použijete pro soubor madona. v Excelu menu: Nástroje  Analýza dat Korelace... Vypočítáte jednotlivé autokorelační koeficienty a použijete testu jejich statistické významnosti z kapitoly 4.1. Na Obr. 5-6., jsou uvedeny sloupečky autokorelačních koeficientů všech (zobrazených) řádů, s výjimkou 6., leží v pásu 95-ního intervalu spolehlivosti kolem 0, tedy jsou statisticky nevýznamné - nulové. Nenulovost 6. hodnoty souvisí s tím, že původní řada vykazuje sezónní charakter právě s periodou sezónnosti 12 měsíců. Z tohoto důvodu můžete vypustit tuto hodnotu z dalších úvah a konstatovat, že hodnoty reziduí jsou vzájemně nekorelované a splňují proto předpoklad 3. Vzhledem k tomu, že všechny 3 předpoklady o náhodné (reziduální) složce jsou splněny, je vytvořený model ČŘ s konstantní sezónností a schodovým trendem statisticky validní a prognózované hodnoty jsou použitelné. Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota -1,56 -4,40667 Rozptyl 646,4026 452,6232 Pozorování 30 30 Rozdíl 29 29 F 1,428125 P(F<=f) (1) 0,171355 F krit (1) 1,860812 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 86 Obrázek 5-7: Autokorelační koeficienty rezidua Obr. 5-7: Autokorelační koe- ficienty rezidua * 5.6 Prognózování v ČŘ Prognózování v ČŘ se někdy nazývá predikování, předpovídání, předvídání, extrapolace, věštění apod. Mezi prognostickými metodami hrají významnou roli statistické prognostické metody. Do této skupiny patří také metody používající při konstrukci prognóz extrapolaci časových řad využívající regresní analýzy. Podstata extrapolačních metod spočívá ve studiu minulosti prognózovaného jevu a v přenosu zákonitostí vývoje z minulosti a přítomnosti do budoucnosti. Prognózo- vání Tyto metody jsou konstruovány na základě předpokladu relativní stability již existujících tendencí vývoje zkoumaného jevu. Latinsky se tento předpoklad nazývá ceteris paribus, což znamená za jinak stejných okolností shodně s vývojem minulým. U procesů, které jsou v čase stabilní, lze tento princip s úspěchem použít. Naopak v případě, kdy během prognózovaného období probíhají podstatné kvalitativní změny, je použití extrapolačních modelů problematické. Ceteris paribus Uvažujme ČŘ tttt STy  , (přitom t je současný okamžik). Bodový odhad hty  ~ neznámé veličiny ČŘ v čase t + h, kde h je zadaný horizont bodové prognózy (předpovědi,…) lze stanovit takto: hththt STy  ~ , kde T - analytická trendová funkce, S - sezónní funkce (podle typu modelu),  = 0, tj. náhodnou složku pokládáme rovnu její střední hodnotě. Bodová předpověď umožňuje pomocí jednoho čísla stanovit hodnotu předvídané veličiny. Intervaly spolehlivosti (konfidenční intervaly) dovolují stanovit příslušné intervalové předpovědi. Bodová prognóza Intervalová prognóza vytvořená v čase n na časový horizont i je definována jako oboustranný interval spolehlivosti: Intervalová prognóza [ iny  ~ – t1-/2(n-2) )(iQs nR , iny  ~ + t1-/2(n-2) )(iQs nR ], (5-11) REZIDUUM Lag Number 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 ACF 1,0 ,5 0,0 -,5 -1,0 Confidence Limits Coefficient Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 87 kde 2 Rs je reziduální rozptyl definovaný vztahem:      n t ttR yy pn s 1 22 ~1 , p je počet odhadnutých parametrů modelu a )2)(1( 12)1( )1()( 2 22 2    nn inn RiQn , přičemž 2 R je koeficient determinace. ŘEŠENÝ PŘÍKLAD 5-2 V souboru sabena je v listu Data uložena ČŘ tržeb za jednotlivá čtvrtletí od roku 1995 do konce 2. čtvrtletí 2003. Sestrojte vhodný model uvedené ČŘ a na jeho základě prognózujte tržby ve III. a IV. čtvrtletí 2003. Stanovte bodovou a intervalovou prognózu s 95% spolehlivostí. Čtvrtletní tržby le- tecké společnosti SABENA Řešení příkladu Z věcné podstaty problému a zejména z průběhu časové řady zobrazené graficky na Obr. 5-7 lze usuzovat na sezónní charakter ČŘ se zvětšujícími se sezónními vlivy v souvislosti se zvyšujícími se tržbami. Z tohoto důvodu je vhodné uvažovat nikoliv aditivní, ale multiplikativní typ modelu, v němž se trendová a sezónní složka vzájemně násobí, tedy: yt = Tt  St + t Dále je zřejmé, že se jedná o lineární průběh trendu pro roky t = 1,2,...,8 a v rámci každého roku jsou 4 sezóny (čtvrtletí) označované j = 1,2,3,4. Model lze proto upřesnit takto: Řešení pomocí Excelu tjjttj STy  . , t = 1,2,...,8, j = 1,2,3,4, (5-12) přitom je trend lineární funkce (tj. přímka), tedy:   tTt , t = 1,2,...,8, a Sj představují sezónní koeficienty, které jsou ve všech letech stejné - konstantní. Výsledný multiplikativní model lze upravit na konečný tvar:   tjjtj sty   . , t = 1,2,...,8, j = 1,2,3,4, (5-13) Přitom byla použita substituce koeficientů: jj Ss      , , čímž se snížil počet neznámých koeficientů o jeden. V modelu je 5 neznámých koeficientů: , s1, s2, s3, s4. Neznámé koeficienty se stanoví metodou nejmenších čtverců tak, aby se minimalizoval součet kvadrátů odchylek: jt tj , 2  , tj. po dosazení ze vztahu (5-13)    jt jtj styS , 2 )(  (5-14) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 88 K tomu účelu využijete z Excelu vestavěnou funkci Řešitel. Ještě předtím je zapotřebí připravit tzv. měněné buňky pro 5 neznámých koeficientů. Souboru Sabena.xls jsou tyto buňky v listu Sabena označeny žlutou barvou. Pomocí vzorců podle (5-14) vytvoříme sloupec T.S, vypočítáme pak reziduální součet čtverců (buňka je označena modrou barvou). Tuto buňku určíme v Řešiteli pro Nastavit buňku a zvolíme tlačítko Min. Po stisknutí tlačítka Řešit a následném potvrzení se ve žlutých buňkách zobrazí vypočítané odhady neznámých parametrů, viz list Sabena v souboru Sabena.xls. Konkrétní hodnoty parametrů jsou: gamma= 1,71 s1= 162,38 s2= 163,13 s3= 166,23 s4= 180,41 Bodové odhady predikce tjy~ v posledních 2 kvartálech (j = 3,4 ) roku 2003 (t = 9) vypočteme jednoduše dosazením do vztahu:   jtj sty .~  . Bodové predikce jsou následující, viz Obr. 5-8.: III-03 1781 IV-03 1932 Intervalové odhady vypočítáme podle vztahu (5-11), jsou to ve skutečnosti intervaly "bodový odhad plus/mínus kousek". V našem případě pokládáme ve vztahu (5-11): n = 8.4 = 32. 95%-ní interval spolehlivosti pro 3. čtvrtletí 2003 je interval [1752;1809]. 95%-ní interval spolehlivosti pro 4. čtvrtletí 2003 je interval [1904;1961]. Řešitel Obrázek 5-8: Měsíční tržby SABENA Obr. 5-8: Měsíční tržby SABENA Měsíční tržby SABENA 0 200 400 600 800 1000 1200 1400 1600 1800 2000 I-95 III-95 I-96 III-96 I97 III-97 I-98 III-98 I-99 III-99 I-00 III-00 I-01 III-01 I-02 III-02 I-03 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 89 Obrázek 5-9: Měsíční tržby společnosti SABENA Obr. 5-9: Měsíční tržby spo- lečnosti SABENA * 5.7 Kauzální prognostické metody Kauzální prognostické metody (KPM) ve srovnání s dekompozičními metodami ČŘ využívají k prognózám tržeb kromě faktoru času ještě další faktory (ekonomické, sociální aj.). Těmito složitějšími metodami se zde nebudete zabývat, částečně jste se s nimi seznámili v příkladech předchozí kapitoly pojednávající o vícerozměrné regresní analýze. Příklady. 1. Tržby zmrzlinového stánku jsou funkcí více proměnných: tržby = f(denní doba, počasí, druh zmrzliny, počet kolemjdoucích) 2. Tržby prodejny nábytku jsou funkcí více proměnných : tržby = f(čas, průměrný příjem rodiny, demografická struktura regionu, výdaje na reklamu). KPM SAMOSTATNÝ ÚKOL 7 Uvažujte časovou řadu měsíčních prodejů oděvů firmy Boutique za 17 let (tj. 204 měsíců od ledna 1987 do prosince 2003), data viz Oděvy. Prognózujte měsíční prodeje oděvů firmy na 12 měsíců roku 2004. Stanovte bodové a 95% intervalové odhady tržeb. Využijte lineární model proporcionální sezónnosti s pomocí Řešitele v Excelu. Lineární model proporcionální se- zónnosti Měsíční tržby společnosti SABENA Lineární model s proporcionální sezónností 0 500 1000 1500 2000 2500 I-95 IV95 III-96 II-97 I-98 IV-98 III-99 II-00 I-01 IV-01 III-02 II-03 PočCest T*S Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 90 SHRNUTÍ KAPITOLY METODY PROGNÓZOVÁNÍ TRŽEB V této kapitole jste studovali problematiku časových řad zejména časových řad tržeb a možnosti jejich prognózování. Nejprve jste vyšetřovali trendovou složku ČŘ, dále sezónní složku a objasnili si význam náhodné složky v časové řadě a předpoklady, kterým by tato složka měla vyhovovat, aby byl model validní pro prognózování. Byly uvedeny základní přístupy a metody prognózování v ČŘ, které byly ilustrovány na příkladech a řešeny pomocí Excelu a SPSS. Shrnutí kapitoly KONTROLNÍ TEST 5 5.1 Deterministická složka časové řady představuje (označte správnou odpověď, může jich být i více): a. trendovou složku b. trendovou a sezónní složku c. trendovou, sezónní a cyklickou složku d. sezónní a cyklickou složku 5.2 Periodická složka ČŘ je složena z: a. sezónní složky b. trendové a sezónní složky c. trendové, sezónní a cyklické složky d. sezónní a cyklické složky 5.3 Při použití Excelu, Graf, přidat spojnici trendu je předvolen typ trendu a. lineární, b. logaritmický c. exponenciální d. žádný 5.4 Ke každému pojmu z levého sloupce přiřaďte správné charakteristiky z pravého sloupce vztahující se k použití měr asociace: (1) Aditivní model ČŘ (A) Jednotlivé složky se mezi sebou sečítají (2) Multiplikativní model ČŘ (B) Trend tvoří lineární funkce (3) Lineární model trendu ČŘ (C) Jednotlivé složky se mezi sebou násobí 5.5 Určete, zda následující výroky jsou správné (vepište A) nebo nesprávné (vepište N): a. Mezi nejdůležitější trendové funkce patří logistická funkce. b. Exponenciální vyrovnání patří mezi analytické metody stanovení trendu. c. Klouzavé průměry slouží k nalezení syntetického trendu. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 91 d. Intervalová prognóza je definována jako jednostranný interval spolehlivosti. e. Ceteris paribus znamená „Za nezměněných podmínek“. 5.6 Doplňte správný výraz: a. Nevýhoda koeficientu determinace: více parametrů regresní funkce znamená __________ hodnotu R2 . b. Konstantnost rozptylu v modelu ČŘ nazýváme __________. c. Náhodné složky t v modelu ČŘ jsou __________. d. V intervalovém odhadu prognózy tržeb na základě modelu ČŘ se používá __________ rozptyl. 5.7 Doplňte správné sousloví: a. Použitím koeficientu __________ zapomínání má novější hodnota vždy __________váhu (tj. důležitost), než hodnota starší. b. V důsledku pravidelného (ročního) koloběhu sezónních vlivů se v každé sezóně opakují __________ výkyvy, které se mezi jednotlivými léty __________. c. Konstantnost rozptylu lze testovat s pomocí Excelu tak, že ČŘ rozdělíme na 2 poloviny a provedeme __________ pro rozptyl, který je k dispozici v nabídce: Nástroje  Analýza dat  __________. d. Kauzální prognostické metody ve srovnání s dekompozičními metodami ČŘ využívají k prognózám tržeb kromě faktoru času ještě__________ __________. ŘEŠENÍ SAMOSTATNÉHO ÚKOLU Samostatný úkol 7 Sig. 0,539 -výstup z Excelu. Nulovou hypotézu přijímáme. Průměrný počet limonád vypitých denně je roven 2. Samostatný úkol 7 ŘEŠENÍ KONTROLNÍHO TESTU 5 5.1 c. 5.2 d. 5.3 a. 5.4 (1) – (A), (2) – (C), (3) – (B) 5.5 A, N, A, N, A 5.6 a. vyšší, b. homoskedasticita, c. nekorelované, d. reziduální 5.7 a. exponenciálního - větší, b. dvouvýběrový F-test, c. Dvouvýběrový F-test pro rozptyl..., d. další faktory Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 92 6 ANALÝZA ROZPTYLU CÍLE KAPITOLY ANALÝZA ROZPTYLU Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  význam jednotlivých dílčích rozptylů studovaného kvantitativního statistického znaku,  předpoklady jednofaktorové ANOVA,  3 kroky algoritmu výpočtu jednofaktorové ANOVA,  míry těsnosti a závislosti mezi faktory,  rozdíl mezi jednofaktorovou a vícefaktorovou ANOVA. Budete umět Budete schopni:  objasnit význam jednotlivých dílčích rozptylů studovaného kvanti-tativního statistického znaku,  vysvětlit předpoklady jednofaktorové ANOVA,  vyjmenovat 3 kroky algoritmu výpočtu jednofaktorové ANOVA,  aplikovat míry těsnosti a závislosti,  uplatnit rozdíl mezi jednofaktorovou a vícefaktorovou ANOVA. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 7 V kapitole 3 jste se mimo jiné věnovali nezávislosti dvou statistických znaků, konkrétně jste tento fakt nezávislosti testovali neparametrickým statistickým testem (Chi-kvadrát test nezávislosti). Rozšíření této závažné problematiky na více než 2 výběry je obsahem této kapitoly, která se zabývá tzv. analýzou rozptylu - ANOVA a patří k nejčastěji používaným metodám v marketingovém výzkumu. Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry dvou nebo více náhodných výběrů. Metoda umožňuje posoudit vliv různých kategorií nějakého kvalitativního znaku (faktoru) na proces charakterizovaný kvantitativním statistickým znakem. Například dovoluje hodnotit účinky různých reklamních kampaní. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu kvantitativního znaku na dílčí rozptyly příslušející jednotlivým vlivům, podle nichž jsou data roztříděna. Kromě dílčích rozptylů je složkou celkového rozptylu také reziduální rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a více-faktorovou analýzu rozptylu. Seznámíte se především s jedno-faktorovou a dvoufaktorovou ANOVA.Všeobecně používané ozna-čení ANOVA je akronymem anglických slov „ANalysis Of VAriance“ (doslovný překlad: analýza rozptylu). Projděte podrobně řešené příklady v textu a potom zkuste samostatně vyřešit 2 neřešené příklady, dosažené výsledky zkontrolujte se správnými výsledky ze závěru kapitoly. Pokud vás výsledek neuspokojí, vraťte se nazpět k řešeným příkladům a postup opakujte. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 93 6.1 Jednofaktorová ANOVA Často se vyskytuje situace, kdy máte k (např. k=5) nezávislých náhodných výběrů, které obecně nemusí pocházet z jednoho základního souboru, s příslušnými rozsahy 1 2, ,..., kn n n . Přitom k může být 2,3,... Tyto rozsahy výběrů rovněž nemusí být stejné, v každém z nich je znám průměr ix , a také rozptyl 2 is , i = 1,2,...,k. V praktických situacích obvykle tyto výběry vzniknou tak, že základní soubor rozdělíme podle určitého obvykle kvalitativního - nečíselného třídícího statistického znaku X do k skupin, v každé z nich pak vybíráme samostatně in prvků. Více nezá- vislých náhodných výběrů Znak X se pak označuje jako faktor, jehož hodnoty jsou předem stanoveny a hovoří se proto často o faktoru kontrolovaném, nebo faktoru pozorovaném, např. věková skupina, druh výrobku, typ reklamy, typ služby apod. Hodnoty faktoru X se označují 1 2, ,..., kx x x Faktor X má k úrovní – kategorií a ovlivňuje statistický znak Y, jež má kvantitativní - intervalovou nebo podílovou (tedy číselnou) povahu. Hodnoty znaku Y příslušné hodnotě ix faktoru X označujeme 1 2, ,..., ii i iny y y Pro analýzu rozptylu je výhodné uspořádat výchozí údaje do přehledné tabulky, viz Tab.6.1. Faktor kontrolo- vaný a pozoro- vaný Číslo výběru Zjištěné hodnoty sledovaného znaku Počet prv- ků Průměr Rozptyl 1 1111211 nj y,...,y,...,y,y 1n 1y 2 1s 2 2222221 nj y,...,y,...,y,y 1n 2y 2 2s      i iinijii y,...,y,...,y,y 21 in iy 2 is      k kknkjkk y,...,y,...,y,y 21 kn ky 2 ks Celkem N y 2 s Tab. 6.1. Schéma výchozí tabulky analýzy rozptylu pro jeden faktor Metoda analýzy rozptylu ANOVA spočívá v tom, že se celková variabilita měřena součtem čtverců odchylek od celkového průměru rozdělí na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. V následujícím odstavci si tento postup ujasníte. Schéma - tabulka ŘEŠENÝ PŘÍKLAD 6-1 Ve Studii (viz kapitola 2.1) uvažujte znak X (tj. faktor) = Věk (18 až 22 let, počet kategorií -roků je tedy k = 5, počet takových respondentů - studentů je 142). Jako kvantitativní znak Y se označí Počet lahví/týden. Problém: Má věk (= stáří) respondentů (= studentů) vliv na konzumaci limonád? Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 94 Řešení příkladu Nulová hypotéza se v tomto případě formuluje takto: H0: Věk respondentů (spotřebitelů) nemá na konzumaci limonád vliv. Jinak řečeno: skupiny spotřebitelů vytvořené podle věku pocházejí z jediné populace. Definuje se alternativní hypotéza: H1: „opak H0“ Všimněte si, že nulovou hypotézu formulujeme jako "nulová změna". To je totiž obvyklý princip formulování nulové hypotézy: Nic se neděje, žádná změna, "nula" - proto pojmenování "nulová hypotéza". Idea postupu řešení: Čím větší variabilita (tj. rozptyl) mezi skupinami spotřebitelů limonád, tím větší vliv faktoru. Metoda ANOVA je svojí podstatou testem hypotézy, viz kapitola1 a další. Musí se proto nejprve formulovat nulová a alternativní hypotéza, pak testové kritérium a nakonec kritický obor testu. Test hypotézy Předpokladem je, že faktor X má k úrovní (kategorií = hodnot ix ), s účinkem na znak Y, který lze vyjádřit vztahem: ii   , i = 1,2,...,k, Základní předpoklad kde i je průměr znaku Y v i-té skupině (příslušné k hodnotě faktoru ix ), i je celkový průměr znaku Y, i je efekt hodnoty faktoru ix na znak Y. Efekt hodnoty faktoru Přeformulujte nyní nulovou hypotézu tak, že všechny výběry pocházejí ze stejné základní populace (základního souboru), jinak řečeno, že hodnoty faktoru ix nemají na hodnoty znaku Y žádný efekt (vliv). Bude se tedy v nulové hypotéze předpokládat, že i pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem 2 , tedy formuluje se nulová hypotéza takto: H0 :      kEEE   ...21 = 0 , Reformu- lace nulové hypotézy proti alternativní hypotéze, že H0 neplatí, tudíž alespoň pro dvě hodnoty, např. i a j, platí: H1 :    ji EE   . Symbolem  iE  se tu označuje střední hodnota náhodné veličiny i . Předpoklad konstantního rozptylu pro všechny veličiny i je podstatný pro platnost testu a je ho možno ověřit jiným statistickým testem, např. t-testem z kapitoly 1. Normalitu rozdělení veličin i lze taktéž testovat příslušným testem, např. Chi-kvadrát testem dobré shody, s nímž jste se seznámili v kapitole 2. V praxi obvykle předpokládáme (na podkladě věcné znalosti dat), že zmíněné dva předpoklady jsou automaticky splněny a při konkrétní aplikaci ANOVA tyto předpoklady již neověřujeme. Cílem, k němuž směřujeme, je přijmout nulovou hypotézu H0, eventuálně H0 zamítnout (na zvolené hladině významnosti). Alternativ- ní hypotéza * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 95 6.2 Postup při analýze rozptylu s jedním faktorem Celkovou variabilitu znaku (souboru) se měří obvykle výběrovým rozptylem:   1 2 2     N yy s i j ij (6-1) V souvislosti s analýzou rozptylu nás bude zajímat pouze čitatelem výše uvedeného zlomku, totiž součet čtverců odchylek zjištěných hodnot ijy od celkového průměru y , přičemž tento průměr je dán vztahem:    k i N j ij i y N y 1 1 1 (6-2) Tento celkový součet čtverců se označuje symbolem yS , tedy: Celkový součet čtverců     k i N j ijy i yyS 1 1 2 (6-3) Celkovému součtu čtverců přísluší počet stupňů volnosti dfc = N - 1. Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme přitom označení v,yS , přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto: Počet stupňů volnosti     k i N j iijvy i yyS 1 1 2 , (6-4) Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = N - k. Aritmetickými úpravami výše uvedených vzorců lze snadno dokázat základní vztah analýzy rozptylu, totiž, že celkový součet čtverců je roven sumě meziskupinového a vnitroskupinového součtu čtverců, symbolicky: Základní vztah analýzy rozptylu vymyy SSS ,,  (6-5) V anglické literatuře nebo SW se můžete také setkat s následujícím označením: Sy = SD (D z angl. Diference) Sy,m = ST (T z angl. Treatment), Sy,v = SR (R z angl. Residual). Základní vztah ANOVA (6-5) má potom tvar RTD SSS  . V této kapitole budeme nadále používat původní značení, v následující kapitole se pak přidržíme nového označení. Pro ověření nulové hypotézy H0 použijeme testové kritérium Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 96 kN S k S T vy my   , , 1 (6-6) která má při platnosti nulové hypotézy Fisherovo rozdělení pravděpodobnosti   )(,1 kNkF  . Kritické hodnoty Fisherova rozdělení   )(21, dfdfF jsou tabelovány pro různé hodnoty hladiny významnosti  a různé hodnoty parametrů (stupňů volnosti: degree of freedom) df1 a df2. V Excelu se používá funkce FINV( ; df1; df2). Někdy se namísto kritických Fisherovo rozdělení hodnot tabelují kvantily Fisherova rozdělení  211 ,dfdfF  . Vztah mezi kritickými hodnotami a kvantily je jednoduchý:   )(21, dfdfF =  211 ,dfdfF  . Kvantily versus kritické hodnoty Např. 5-ti procentní (jednostranná) kritická hodnota je rovna 95-ti procentnímu kvantilu při stejných hodnotách parametrů df1 a df2. Postup testování hypotézy H0 je charakterizován následujícími 3 kroky: Krok 1. Zvolte hladinu významnosti , (která představuje chybu 1. druhu, tj. pravděpodobnost zamítnuti správné hypotézy). Praktické hodnoty hladiny významnosti  jsou obvykle: 0,1 , 0,05 , 0,01 , nebo-li v procentech: 10%, 5%, 1%. Krok 2. Vypočtěte hodnotu testového kritéria T podle vzorce (6-6), přičemž pro hodnoty meziskupinového součtu čtverců m,yS a pro výpočet vnitroskupinového součtu čtverců v,yS použijte vzorce (6-3) a (6-4). Výpočetně výhodnější, např. pro výpočet na kalkulačce, jsou následující vzorce: 2 1 1 1 1 2 1               k i n j k i n j ijijy i i y N yS (6-7) 2 1 1 1 2 , 1              k i k i N j ijiimy i y n ynS (6-8) K výpočtu v,yS lze využít základního vztahu (6-5) a právě uvedených vztahů (6-7) a (6-8): myyvy SSS ,,  . Krok 3. Porovnejte hodnotu kritéria T z Kroku 2 s kritickou hodnotou   )(,11 knkF  . Výsledek tohoto porovnání může být dvojí. Platí F    )(,11 kNkF  . Potom se nulová hypotéza H0 přijímá (nezamítá) a tudíž konstatujeme, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv. Jinak řečeno, faktor X je neúčinný. Platí-li: F    )(,11 kNkF  , Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 97 potom nulovou hypotézu H0 zamítáme, přijímáme hypotézu alternativní H1, a tudíž konstatujeme, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv. Podaří-li se výše uvedeným testem prokázat, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv, můžete se dále zajímat, které skupiny se významně odlišují od průměru, eventuálně jak skupinové průměry seřadit, případně zařadit do společných celků. V krajním případě by se totiž mohlo stát, že významnost rozdílnosti k skupin způsobuje výlučně skupina jediná a ostatní skupiny se navzájem neliší. Touto problematikou se zabývají metody tzv. simultánního testování, z nichž nejznámější je metoda Shaffeho. Avšak touto problematikou se zde nezabýváme, zájemce odkazujeme na literaturu, viz např. [Anděl]. H0 zamítá- me Řešení příkladu Použití Excelu: NástrojeAnalýza dat ANOVA: Jeden faktor… Pro použití Excelu je třeba nejprve data upravit. Předně musíme v souboru Studie - Data vybrat 2 znaky: X = Věk (faktor) a Y = Počet lahví/týden. Dále je vhodné data ve sloupcích uspořádat podle faktoru X a vyloučit z analýzy ty respondenty, kteří mají Věk > 22, takových respondentů je celkem 142. Data je třeba mít uspořádána ve sloupcích podle hodnot faktoru. Vytvoří se proto záhlaví sloupců z 5 hodnot faktorů, např. v18, v19,...,v22. Do každého sloupce se pak nakopírují hodnoty všech respondentů s příslušným faktorem. Jako vstupní oblast se pak označí obdélníková oblast obsahující všech pět sloupců upravených dat. Zaklikněte popisky a zvolte výstupní oblast, kde se po potvrzení OK objeví následující výsledek: Anova: jeden faktor Faktor Výběr Počet S oučet Průměr Rozptyl v18 18 92 5,111111 50,9281 v19 36 262 7,277778 68,77778 v20 42 298 7,095238 35,99071 v21 30 162 5,4 43,28276 v22 16 142 8,875 207,85 ANOVA Zdroj variability S S Rozdíl MS F Hodnota P F k rit Mezi výběry 190,2619 4 47,56548 0,714402 0,583447 2,437751 Všechny výběry 9121,569 137 66,5808 Celkem 9311,831 141 Jak je zřejmé p-hodnota (Hodnota P) testu = 0,583 je větší než  = 0,05 , proto nulovou hypotézu nezamítáme (přijímáme), tedy faktor věku je neúčinný na počet vypitých limonád. Jinými slovy, počet vypitých limonád nesouvisí s věkem studentů. Příklad 6-1, dokončení Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 98 Ve výstupu (výše uvedená tabulka) mají uvedené termíny (nepřesné překlady z angličtiny) následující význam: SS = součet čtverců (Sum of Squares), Rozdíl = počet stupňů volnosti, MS = průměrný součet čtverců (Mean of Squares), F = hodnota testového kritéria T, Hodnota P = p-hodnota (signifikance), F krit = kritická hodnota Fisherova rozdělení, Mezi výběry = meziskupinový součet čtverců, Všechny výběry = vnitroskupinový součet čtverců, Celkem = celkový součet čtverců, resp. počet st. volnosti, Použití SPSS: AnalyzeCompare Means One-Way ANOVA… Pro použití SPSS je rovněž třeba data předem upravit. Musíme však také v souboru Studie - Data vybrat 2 znaky: X = Věk (faktor) a Y = Počet lahví/týden. Úprava dat - vypuštění respondentů s věkem nad 22 let: Data  Select Cases If  vek =< 22 (vyškrtají se „nepotřebné“ řádky) Výstupem je následující tabulka: 190,262 4 47,565 ,714 ,583 9121,569 137 66,581 9311,831 141 Between Groups Within Groups Total Pocet lahvi/tyden Sum of Squares df Mean Square F Sig. ANOVA Odpovídající si hodnoty obou výstupů jsou stejné. Použití v SPSS * 6.3 Míra těsnosti závislosti Variabilita podmíněných (skupinových) průměrů iy kolem celkového průměru y je způsobena závislostí znaku Y na znaku X. Tuto variabilitu jsme vyjádřili meziskupinovým součtem čtverců m,yS . Variabilita znaku Y uvnitř jednotlivých skupin – vyjádřena vnitroskupinovým (reziduálním) součtem čtverců v,yS , je způsobena jinými (neuvažovanými) činiteli. Variabilita Čím větší je m,yS , tím větší je těsnost závislosti znaků X a Y. Protože však jsou jednotlivé součty čtverců vzájemně vázány vztahem (6-5), lze míru těsnosti závislosti vyjádřit jako podíl meziskupinového a celkového součtu čtverců. Zavádíme proto jako míru těsnosti závislosti znaku Y na znaku X poměr determinace P2 takto: Poměr determina- ce Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 99 y my S S P ,2  (6-9) Odmocninu z poměru determinace P nazýváme poměr korelace. Poměr korelace Poměr determinace nabývá hodnot z intervalu [0,1]. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k 1, tím více se také vnitroskupinový součet čtverců blíží k celkovému součtu čtverců, přičemž meziskupinový součet čtverců se blíží k nule. Naopak, čím více se poměr determinace blíží k 0, tím menší část z celkového součtu čtverců tvoří meziskupinový součet čtverců (na úkor vnitroskupinového), a tím menší je těsnost závislosti znaku Y na X. Těsnost závislosti ŘEŠENÝ PŘÍKLAD 6-2 Studie Ve Studii uvažujte znak X (faktor) = Pořadí K/K (1 až 5 , počet kategorií je tedy k = 5). Jako kvantitativní znak Y je Pravděpodobnost nákupu K/K. Problém: Má pořadí nového nápoje K/K mezi tradičními limonádami vliv na pravděpodobnost nákupu nového nápoje? Řešení příkladu Nulová hypotéza se v tomto případě formuluje takto: H0: Pořadí nového nápoje K/K mezi tradičními limonádami nemá vliv na pravděpodobnost nákupu K/K. Alternativní hypotéza je negací (opakem) hypotézy nulové: H1: „opak H0“ Pro použití Excelu je třeba nejprve data upravit. Předně musíte v souboru Studie - Data vybrat 2 znaky: X = Pořadí K/K (faktor) a Y = Pravděpodobnost nákupu K/K. Data je třeba mít uspořádána ve sloupcích podle hodnot faktoru. Vytvoříte proto záhlaví sloupců z 5 hodnot faktorů, např. P1, P2,...,P5. Do každého sloupce pak nakopírujete hodnoty všech respondentů s příslušným faktorem. Jako vstupní oblast pak označíte obdélníkovou oblast obsahující všech pět sloupců upravených dat. Zaškrtnete popisky a zvolíte výstupní oblast, kde se po potvrzení OK objeví následující výstup: Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl P1 35 2190 62,57143 1252,017 P2 41 2030 49,5122 1363,506 P3 44 1790 40,68182 1185,571 P4 40 1740 43,5 1554,103 P5 40 1690 42,25 1462,756 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 11886,14 4 2971,535 2,180464 0,072619 1,973909 Všechny výběry 265745,9 195 1362,799 Celkem 277632 199 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 100 Hladina významnosti je  = 0,10 (tj. 10%). Kritická hodnota je   )(,11 knkF  = F(4,195)(0,1) = 1,97. Kritická hodnota Kritický obor je C=[1,97;+ ). Vidíte, že 2,18 > 1,97, tzn. T  C. Proto nulovou hypotézu H0 zamítáte! Znamená to, že faktor X - Pořadí K/K ovlivňuje pravděpodobnost nákupu, neboli, že pravděpodobnost nákupu nového nápoje je statisticky významně ovlivněna hodnocením (pořadím) tohoto nápoje. Na závěr ještě vypočítáme těsnost této závislosti pomocí poměru korelace: 21,0 277632 11886 P . Hladina významnosti je zvolena poměrně vysoká (10%) a hodnota poměru korelace (těsnost závislosti) vyšla poměrně nízká. Tento výsledek demonstruje nepřesvědčivou závislost pravděpodobnosti prodeje nového nápoje na jeho hodnocení ve skupině tradičních limonád. Kritický obor * PRŮVODCE TEXTEM Následující samostatné úkoly řešte nejprve pomocí Excelu a potom pomocí SPSS, viz Studie. SAMOSTATNÝ ÚKOL 8 Ve Studii uvažujte znak X (tzv. faktor) = Věk (18 až 22 let, počet kategorií -roků je tedy k = 5, počet takových respondentů - studentů je N=142). Jako kvantitativní znak Y označíme Počet lahví/den. Má věk - stáří respondentů - studentů vliv na konzumaci limonád? ANOVA SAMOSTATNÝ ÚKOL 9 Ve Studii uvažujte znak X (tzv. faktor) = Pořadí K/K (1 až 5 , počet kategorií je tedy k = 5). Jako kvantitativní znak Y označíme Hodnocení chuti K/K. Má pořadí nového nápoje K/K mezi tradičními limonádami vliv na hodnocení chuti nového nápoje? ANOVA SHRNUTÍ KAPITOLY ANALÝZA ROZPTYLU Statistickou významnost rozdílů mezi výběrovými průměry dvou náhodných výběrů umožňují testy hypotéz, např. t-test, F-test apod. Analýza rozptylu – ANOVA umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů na proces charakterizovaný kvantitativním statistickým znakem. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu na dílčí rozptyly příslušející Shrnutí kapitoly Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 101 jednotlivým vlivům, podle nichž jsou data roztříděna. Kromě dílčích rozptylů je jednou složkou celkového rozptylu tzv. reziduální rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. V této kapitole jsme se věnovali prvním dvěma jmenovaným typům ANOVA. Metoda jednofaktorové analýzy rozptylu spočívá v tom, že celkovou variabilitu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na variabilitu uvnitř jednotlivých výběrů a na variabilitu mezi jednotlivými výběry. Předpokládáme, že faktor X má k úrovní s efektem na znak Y a formulujeme nulovou hypotézu, že všechny výběry pocházejí ze stejné základní populace. Pro ověření nulové hypotézy použijeme statistiku (6-6), která má při platnosti nulové hypotézy Fisherovo rozdělení. Kritické hodnoty Fisherova rozdělení jsou tabelovány pro různé hodnoty hladiny významnosti  a různé hodnoty stupňů volnosti. Nulovou hypotézu buď přijímáme (nezamítáme) a tudíž konstatujeme, že hodnoty faktoru X nemají na hodnoty znaku Y statisticky významný vliv, anebo nulovou hypotézu zamítáme, přijímáme hypotézu alternativní a tudíž konstatujeme, že hodnoty faktoru X mají na hodnoty znaku Y statisticky významný vliv. Míru těsnosti závislosti vyjadřujeme jako podíl meziskupinového a celkového součtu čtverců a zavádíme proto jako míru těsnosti závislosti znaku Y na znaku X poměr determinace P2 , který nabývá hodnot mezi 0 a 1. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k 1. Odmocninu z poměru determinace P nazýváme poměr korelace. U analýzy rozptylu s jedním faktorem jsme uvažovali výsledky tříděné podle jistého kvalitativního znaku X do několika (konkrétně do k) skupin. Proto v tomto případě se hovoří o ANOVA při jednoduchém třídění. Kromě třídění do skupin se vyskytuje další faktor, podle něhož se výsledky (tj. hodnoty znaku Y) třídí do bloků. Jedná se o ANOVA při dvojném třídění. Na příkladech ze studie se metoda ANOVA demonstruje s použitím Excelu a alternativně SPSS. KONTROLNÍ TEST 6 6.1 Jednofaktorová analýza rozptylu - ANOVA slouží k (označte správnou odpověď, může jich být i více): a. výpočtu rozdělení četnosti jednotlivých znaků b. testování vlivu faktoru na kvantitativní znak c. zjištění typu rozdělení pravděpodobnosti d. zjištění nezávislosti statistických znaků 6.2 Při testu hypotézy se v ANOVA: a. testuje se nulová hypotéza, že hodnoty obou znaků jsou stejné, b. testuje se nulová hypotéza, že dva statistické znaky jsou vzájemně závislé, c. testuje se nulová hypotéza, že hodnota znaku se liší od zadané hodnoty d. testuje se nulová hypotéza, že pro jednotlivé kategorie faktoru jsou hodnoty znaků stejné, e. testuje se nulová hypotéza, že dva statistické znaky jsou vzájemně nezávislé. 6.3 Při ANOVA se využívá kritické hodnoty: a. Studentova t-rozdělení pravděpodobnosti, b. Pearsonova Chi-kvadrát rozdělení pravděpodobnosti, c. Fisherova F-rozdělení pravděpodobnosti, d. Gaussova normálního rozdělení pravděpodobnosti, Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 102 6.4 Při použití Excelu pro ANOVA: jeden faktor musí být hodnoty kvantitativního znaku uspořádány: a. ve sloupcích podle kategorií faktoru, b. ve sloupcích podle velikosti kvantitativního znaku, c. v řádcích podle kategorií faktoru, d. v řádcích podle velikosti kvantitativního znaku. 6.5 Ke každému pojmu z levého sloupce přiřaďte správné charakteristiky z pravého sloupce vztahující se k dvouvýběrovým neparametrickým testům: (1) Chi-kvadrát test (A) Testuje stejnou hodnotu průměru nezávislou na kategoriích znaku (2) Mann-Whitneyův test (B) Testuje nezávislost hodnot ve dvou výběrech (3) ANOVA (C) Testuje nezávislost pořadí ve dvou výběrech 6.6 Určete, zda následující výroky jsou správné (vepište A) nebo nesprávné (vepište N): a. K testu neúčinnosti faktorů se v analýze rozptylu používá F-test. b. Determinační poměr nabývá hodnot z intervalu [0;1]. c. Závislost mezi znaky X a Y je tím větší, čím menší je meziskupinová variabilita. d. Obor přijetí je při analýze rozptylu oboustranný. e. Rozptyl podmíněných průměrů odráží vnitroskupinovou variabilitu znaku Y. 6.7 Doplňte správný výraz: a. Leží-li hodnota testového kritéria F v kritickém oboru, lze na dané hladině významnosti považovat znak Y za __________ na znaku X. b. Analýza rozptylu, kdy celkový počet pozorování je n a faktor má k kategorií, předpokládá nalezení příslušného kvantilu F rozdělení o stupních volnosti __________a __________. c. Hodnota testového kritéria F nabývá vždy __________ hodnot. d. Jednofaktorová analýza rozptylu zkoumá závislost číselných hodnot znaku Y na __________znaku X 6.8 Doplňte správné sousloví: a. Odmocnina z determinačního poměru se nazývá __________ __________. b. Padne-li hodnota testového kritéria F do __________ __________ pak nulovou hypotézu přijímáme. c. K výpočtu kritického oboru jednofaktorové ANOVA potřebujeme znát __________, __________a __________. d. V SPSS naleznete výsledek ANOVA tak, že ve výstupní tabulce naleznete hodnotu Signifikance a porovnáte ji s uvažovanou __________. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 103 ŘEŠENÍ SAMOSTATNÝCH ÚKOLŮ Samostatný úkol 8 Sig. 0,0539 -výstup z Excelu. Nulovou hypotézu přijímáme. Průměrný počet limonád vypitých denně je roven 2. Samostatný úkol 8 Samostatný úkol 9 Sig. 0,00764 -výstup z Excelu. Nulovou hypotézu zamítáme. Průměrný počet limonád vypitých denně u mužů je statisticky významně vyšší než u žen. Samostatný úkol 9 ŘEŠENÍ KONTROLNÍHO TESTU 6 6.1 d. 6.2 d. 6.3 c. 6.4 a., c. 6.5 (1) – (B), (2) – (C), (3) – (A) 6.6 A, A, N, N, A 6.7 a. závislý, b. k-1 a N-k, c. kladných, d. kategoriích 6.8 a. korelační poměr, b. oboru přijetí, c. stupně volnosti k-1, N-k a hladina významnosti, d. hladina významnosti. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 104 7 ANALÝZA ROZPTYLU (ANOVA): DVOJNÉ TŘÍDĚNÍ A LATINSKÉ ČTVERCE CÍLE KAPITOLY ANALÝZA ROZPTYLU (ANOVA): DVOJNÉ TŘÍDĚNÍ A LATINSKÉ ČTVERCE Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  sestavit ANOVA tabulku pro dvojné a trojné třídění  správně interpretovat výsledky získané pomocí statistického softwaru Budete umět Budete schopni:  porozumět pojmu vícefaktorová analýza rozptylu,  stanovit nulové hypotézy Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 8 V předešlé kapitole jste se seznámili s jednofaktorovou analýzou rozptylu. V této kapitole se dozvíte o vícefaktorové analýze rozptylu. Jedná se o situaci, kdy se zkoumá, zda kvantitativní znak Y je ovlivňován dvěma nebo třemi kvalitativními proměnnými. Vícefaktorová analýza rozptylu se používá k vyhodnocení závislostí (vlivu) pomocí tzv. experimentu, kdy nejsou dána všechna vícerozměrná data, nýbrž část z nich lze vhodným způsobem zvolit tak, aby výsledek byl co nejpřesvědčivější. Tato kapitola je rozdělana do dvou částí. V části první se hovoří o dvojném třídění a v části druhé o třídění trojném – neboli o latinských čtvercích. Sleduje-li se vliv dvou (kvalitativních) znaků - faktorů, které mohou ovlivnit hodnotu sledovaného (kvantitativního) znaku, hovoříme o dvojném třídění. Jeden ze znaků – nazývaný faktor lze aktivně ovlivnit v experimentu, který slouží k zjištění vlivu faktoru na sledovaný znak. Vliv druhého faktoru – tzv. blokového znaku lze v experimentu eliminovat znáhodněním hodnot tohoto znaku. U trojného třídění pomocí tzv. latinských čtverců se opět vyskytuje jeden faktor se dvěma blokovými znaky, jejichž vliv na sledovaný znak lze eliminovat vhodnou orgnizací experimentu. Kapitola je proložena řešenými příklady, které si pečlivě prostudujte tak, abyste byli schopni odpovědět na kontrolní otázky v závěru této kapitoly. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 105 7.1 Dvojné třídění DEFINICE 7-1 Je-li sledovaný znak ovlivňován dvěma faktory, hovoříme o dvojném třídění. Jeden ze znaků – faktor lze aktivně ovlivnit v experimentu, který slouží k zjištění vlivu faktoru na sledovaný znak. Vliv druhého znaku – tzv. blokového znaku lze v experimentu eliminovat znáhodněním hodnot tohoto znaku. Rozklad celkového součtu čtverců SD se provede analogicky jako v případě jednoduchého třídění (viz ANOVA z předešlé kapitoly), pouze přibude nový sčítanec. Označíme jej BS , (symbol B je z anglického Block) a přináleží blokovému faktoru. Součet čtverců ST přináleží meziskupinovému faktoru (angl. Treatment factor), součet čtverců SR přináleží vnitroskupinovému faktoru (angl. Residual factor) . Rozklad celkového součtu čtverců S potom bude Rozklad součtu čtverců RTBD SSSS  (7-1) kde n značí počet bloků, k značí počet skupin a platí    n i iB yykS 1 2 (7-2)    k j jT yynS 1 2 (7-3) Pro zjednodušení výpočtů dále označíme    k j n i ijyS 1 1 2 (7-4) 2 ynkSA  (7-5) potom je SD = S - SA (7-6) a reziduální součet čtverců, který je nejpracnější, se vypočítá ze vztahů (7-1) a (7-6) takto TBAR SSSSS  . (7-1a) PRŮVODCE TEXTEM Uvedené vztahy objasníme v následujících příkladech. ŘEŠENÝ PŘÍKLAD 7-1 Sledují se emise výfukových plynů (Y) v závislosti na dvou faktorech. Jedná se o typ přísady (A,B,C,D), což představuje první faktor (X1), který ovlivňuje emise výfukových plynů, druhým faktorem (X2) je vliv řidiče (I,II,III,IV). Celkem byly provedeny 4 pokusy s každým typem přísady. Naměřené hodnoty emise jsou v Tabulce 7.1, počet hodnot dat je N = 16. Proveďte test na hladině významnosti 5%, kterým ověříte, zda jsou emise výfukových plynů statisticky významně ovlivněny prvním faktorem (typ přísady), nebo druhým faktorem (vliv řidiče), popř. oběma faktory současně. Emise výfukových plynů Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 106 Přísada Řidič A B C D I 21 26 25 20 II 20 27 26 23 III 16 15 16 13 IV 15 20 17 20 Tab.7.1 Plán a výsledky experimentu Analýza rozptylu je provedena oběma výše uvedenými způsoby. Rozklad na základě vztahů (7-1a) a (7-6): Řešení příkladu Analýza rozptylu je provedena oběma výše uvedenými způsoby. Rozklad na základě vztahů (7-1a) a (7-6): Součet čtver- ců df Rozptyl Testová kritéria Kritická hodnota SA = 6400 1 2 2 16,3B R s s   3;9 (0,05)F  =3,86 SB =216 n – 1 = 3 2 Bs = 72 ST = 40 k – 1 =3 2 Ts = 13,3 2 2 3,0T R s s SR = 40 9 2 Rs = 4,4 S = 2696 16 Pozn.: Pro SR je df =  11  kn Tab. 7.2 ANOVA se 2 faktory – ruční způsob Protože jen u druhého faktoru, kterým je vliv řidiče, překračuje testovací kritérium kritickou hodnotu, je pouze tento faktor statisticky významný. Lze tedy tvrdit, že emise výfukových plynů jsou ovlivňovány řidičem. Dále provedeme rozklad na základě vztahu (7-1): Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 107 Součet čtverců d.f. Rozptyl Testovací kri- téria Sig. level SB = 216 3 2 216 72 3 B s   2 2 16,36B R s s  0,0006 ST = 40 3 2 40 13,3 3 T s   2 2 3,02T R s s  0,0877 SR = 40 9 2 40 4,4 9 R s   SD = 296 15 Tab. 7.3 ANOVA se 2 faktory - způsob pro PC Jak vidět, pouze u faktoru B, kterým je vliv řidiče, je hodnota signifikance menší než 0,05 (což je hladina významnosti, na které test provádíme). To znamená, že pouze tento faktor je statisticky významný a je dokonce významný i na hladině významnosti 0,01. Použití Excelu: V hlavním Menu v Excelu zvolíme postupně: NástrojeAnalýza dat ANOVA: Dva faktory bez opakování… Data musejí být uspořádána v tabulce obdobné Tab. 7.1, tj. skupiny v řádcích a bloky ve sloupcích, případně obráceně (s popiskami nebo bez nich), viz Tab. 7.4. 21 26 25 20 20 27 26 23 16 15 16 13 15 20 17 20 Tab. 7.4 ANOVA se 2. faktory – data Jako vstupní oblast se pak označí obdélníková (v tomto případě čtvercová) oblast obsahující všechny řádky a sloupce upravených dat. Pokud máte data i s popisky řádků a sloupců, zaklikněte popisky a zvolte výstupní oblast, kde se po potvrzení OK objeví následující výsledek: Řešení v Excelu Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 108 Anova: dva faktory bez opakování Faktor Počet Součet Průměr Rozptyl I 4 92 23 8,666667 II 4 96 24 10 III 4 60 15 2 IV 4 72 18 6 A 4 72 18 8,666667 B 4 88 22 31,33333 C 4 84 21 27,33333 D 4 76 19 18 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Řádky 216 3 72 16,2 0,000569 3,862539 Sloupce 40 3 13,33333 3 0,087713 3,862539 Chyba 40 9 4,444444 Celkem 296 15 Výsledek (Hodnota P) je stejný jako v Tab. 7.3. * ŘEŠENÝ PŘÍKLAD 7-2 Zjistěte, zda počet vyrobených výrobků závisí na stroji nebo na operátorovi, popř. zda oba tyto faktory mají vliv na počet vyrobených výrobků. Test proveďte na hladině významnosti 05,0 . Počet vyrobených výrobků zachycuje Tab. 7.5. Stroj Operátor A B C I 53 61 51 II 47 55 51 III 46 52 49 IV 50 58 54 V 49 54 50 Tab.7.5 Plán a výsledky experimentu Výkony strojů Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 109 Řešení příkladu Řešte tento příklad na základě vztahu (7-1a): Součet čtverců d.f. Rozptyl Testovací kri- téria Sig. level SB = 72 4 2 72 18 4 B s   2 2 6,5B R s s  0,012 ST = 130 2 2 130 65 2 T s   2 2 23,6T R s s  0,0004 SR = 22 8 2 22 2,75 8 R s   SD = 224 14 Tab.7. 6 ANOVA – 2 faktory, příklad 2 Z tabulky vidíte, že obě hodnoty v posledním sloupci jsou menší než zvolená hladina významnosti  0,05, proto lze nulové hypotézy o nezávislosti obou faktorů na počet vyrobených výrobků zamítnout. Můžete tedy z 95% tvrdit, že počet vyrobených výrobků je ovlivněn jak strojem tak i operátorem. Při použití vztahu (7-1) byste v tabulkách našli tyto kritické hodnoty  4;8 (0,05) 3,84F   2;8 (0,05) 4,46F  . Vidíte tedy, že obě testovací kritéria leží za těmito kritickými hodnotami, tj. 6,5  3,84 a 23,6  4,46, tudíž obě nulové hypotézy o nezávislosti zamítáme: oba faktory mají na počet výrobků statisticky významný vliv. * 7.2 Trojné třídění (Latinské čtverce) PRŮVODCE STUDIEM 9 Latinské čtverce patří mezi klasické metody plánování experimentu. Historicky pochází tento pojem z 18. století, kdy L. Euler (1707 – 1783) předložil petrohradské akademii úlohu o 36 důstojnících: Sestavte 36 důstojníků 6 různých hodností ze 6 různých pluků do čtverce tak, aby v každé řadě a v každém zástupu byli důstojníci všech hodností a všech pluků. Obecněji se tento problém dá zformulovat takto: Uvažujte objekty, které mají 2 vlastnosti: A a B (např. A=hodnost, B=pluk). Každá vlastnost nabývá n různých hodnot (n = 6, 6 různých hodností: podporučík, poručík, nadporučík, kapitán, major, plukovník, 6 různých pluků: pluk 1, pluk 2, ..., pluk 6). Úkolem je postavit n2 objektů do čtverce tak, aby v každé vodorovné řádě i v každé svislé řadě byly vždy objekty všech hodnot vlastnosti A a zároveň všech hodnot vlastnosti B (např. v první řadě stojí podporučík z pluku 6, Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 110 poručík z pluku 5,..., plukovník z pluku 1). Takovéto schéma objektů se nazývá latinský čtverec řádu n. Známý výsledek, který pochází od samotného L. Eulera, pak tvrdí, že pro každé přirozené číslo n existuje alespoň jeden latinský čtverec řádu n. V této subkapitole se tedy budeme zabývat latinskými čtverci, které slouží k vyhodnocování experimentů. DEFINICE 7-2 Je-li sledovaný znak Y ovlivňován třemi faktory, hovoříme o tzv. latinských čtvercích a jedná se o trojné třídění. Rozklad součtu čtverců odchylek zde bude Rozklad součtu čtverců RTCBA SSSSSS  , (7-7) resp. při použití statistického programu RTCBD SSSSS  , (7-8) kde 22 ykSA  , (7-9) k je rozměr tabulky s výsledky experimentu, součty čtverců TCB SSS ,, se počítají podle vztahů    k i yyk 1 2 , (7-10) kde iy je průměr v příslušné (testované) skupině. TCBAR SSSSSS  , (7-11)    k i k j ijyS 1 1 2 , (7-12)     k i k j ijD yyS 1 1 2 , (7-13) ŘEŠENÝ PŘÍKLAD 7-3 Uvažujte opět příklad 7-1, kde jste se zabývali sledováním množství emisí výfukových plynů (Y) v závislosti na těchto třech faktorech: a) typu přísady do benzinu (A,B,C,D) = faktor, b) řidič vozidla (I, II, III, IV) = blok B. Nyní budeme navíc uvažovat blokový znak c) použité vozidlo (1,2,3,4) = blok C. Výsledky experimentu jsou uvedeny v Tab. 6. Protože 1. řádek a 1. sloupec jsou již obsazené, bude třetí faktor zaznamenáván do tabulky. Tato filosofie zápisu se uplatňuje i u čtyř a více faktorů. Emise výfukových plynů Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 111 Řidič\vozidlo:Y 1 2 3 4 I A : 21 B : 26 D : 20 C : 25 II D : 23 C : 26 A : 20 B : 27 III B : 15 D : 13 C : 16 A : 16 IV C : 17 A : 15 B : 20 D : 20 Tab. 7.7 Výsledky experimentu - 3 faktory Řešení příkladu Výpočty průměrů pro jednotlivá třídění jsou v pomocné tabulce 7.8 Řidiči Vozidla Přísady I:23 1:19 A:18 II:24 2:20 B:22 III:15 3:19 C:21 IV:18 4:22 D:19 Tab. 7.8 Výpočty průměrů pro jednotlivá třídění Dále vypočteme na základě vztahů (7-7) – (7-13) jednotlivé součty čtverců: 669620...202621 2222 S ,          21620182015202420234 2222 BS ,          2420222019202020194 2222 CS ,   40)2019()2021()2022()2018(4 2222 TS , 640020.4.4 2 AS , 16402421664006696 RS . Uvedené výsledky zaznamenejme do tabulek pro ruční výpočet a pro výstup statistického programu. d.f. Rozptyl Testová kritéria Kritická hodnota SA = 6400 1 2 6400A s  F3,6(0.05) = 6,60 SB = 216 k – 1 =3 2 216 72 3 Bs   2 2 27B R s s   3;6 (0,05) 4,76F  SC = 24 k – 1 =3 2 24 8 3 C s   2 2 3C R s s  ST = 40 k – 1 =3 2 40 13,3 3 T s   2 2 5T R s s  SR = 16   1 2 6k k   2 16 2,67 6 Rs   S = 6696 16 Tab. 7.9 ANOVA (ruční výpočet) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 112 Testová kritéria pro blokovou proměnnou B (vliv řidiče) a pro faktor (přísady do benzinu) leží za kritickou hodnotou, tedy v kritickém oboru. Proto lze na 95% tvrdit, že na hodnoty emisí výfukových plynů jsou nejvíce ovlivněny vlivem řidiče a vlivem přísad do benzinu. d.f. Rozptyl Testová kritéria Sig.level SB = 216 k – 1 =3 72 3 2162 Bs 2 2 27B R s s  0,0007 SC = 24 k – 1 =3 2 24 8 3 C s   2 2 3C R s s  0,1170 ST = 40 k – 1 =3 2 40 13,3 3 T s   2 2 5T R s s  0,0452 SR = 16    621  kk 67,2 6 162 Rs S = 6696 16 Tab. 7.10 ANOVA (výpočet na PC) Test je prováděn na hladině významnosti 0,05  a statisticky významné faktory jsou ty, u nichž je hodnota signifikance menší než 0,05. Jsou to tedy faktory vliv řidiče a přísady do benzinu. * SHRNUTÍ KAPITOLY ANALÝZA ROZPTYLU (ANOVA): DVOJNÉ TŘÍDĚNÍ A LATINSKÉ ČTVERCE V této kapitole jsme se seznámili s vícefaktorovou analýzou rozptylu. Byly zde uvedeny dvě možnosti techniky výpočtu a také jsme se seznámili s počítačovými výstupy vícefaktorové analýzy rozptylu. V řešených příkladech, které najdete v následující subkapitole si zopakujte jednofaktorovou analýzu rozptylu a pojem korelační koeficient. Poznali jsme pojmy jako: dvojné třídění, Latinské čtverce, rozklad součtu čtverců, ANOVA tabulka, faktor, bloková proměnná. Shrnutí kapitoly PRŮVODCE STUDIEM 10 Dále následují řešené příklady. Prvním příkladem si zopakujete učivo předcházející kapitoly, protože tento příklad se týká jednofaktorové analýzy rozptylu. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 113 ŘEŠENÝ PŘÍKLAD 7-4 Na hladině významnosti 0,05 testujte, zda výnosy petržele závisí na použitém druhu hnoji- va. Hnojivo Výnosy (1kg/10m2 ) A 40 42 45 40 44 47 B 76 75 82 68 C 60 58 62 64 70 Výnosy petržele Řešení příkladu Faktor typ hnojiva má 3 skupiny, tzn. k = 3, s následujícími četnostmi ve skupinách 54,6 321  nnn . Celkový počet měření N = 15. Testujeme nulovou hypotézu 3210 :H   , tj., že výnosy petržele nezávisí na typu hnojiva. Před vypočtením testového kritéria musíme zjistit hodnoty následujících veličin:  Podmíněné průměry i n j ij i n y y i   1 , pro ki ...,2,1 , kde: ijy jsou zjištěné hodnoty.  Celkový průměr     k i ii k i n j ij yn n y n y i 11 1 11 , kde: n je celkový rozsah souboru.  Meziskupinový součet čtverců  2 1 , yynS i k i imy   , kde: in je počet měření v jednotlivých skupinách, iy je výběrový průměr v jednotlivých skupinách.  Vnitroskupinový součet čtverců     k i n j iijvy i yyS 1 1 2 , .  Celkový součet čtverců vymyy SSS ,,  . Hodnoty výše uvedených veličin jsou: 8,62 25,75 4 68...7576 43 6 47...4240 3 2 1        y y y 2,58 15 5.8,624.25,756.43   y Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 114         85,26542,588,6252,5825,7542,58436 2222 1 ,   yynS i k i imy                     55,2238,6270...8,62588,6260 25,7568...25,757525,7576 4347...43424340 222 222 222 1 1 2 ,      k i n j iijvy i yyS 2878,4Sy  Zdroj variability Součty čtverců odchylek Počty stupňů volnosti Průměrné čtverce Testové kritérium F Faktor x (meziskupinová variabilita) 2654,85 k – 1 = 2 1327,42 71,25 Reziduální (vnitroskupinová variabilita 223,55 N – k = 12 18,63 Celkový 2878,4 N – 1 = 14 Hodnota statistiky 25,71T , kritická hodnota   89,3)05,0(12;2 F , kritický obor je   ;89,3C . Hodnota T leží v kritickém oboru, proto zamítáme na hladině významnosti 5% nulovou hypotézu. Výnosy petržele závisí na zvoleném typu hnojiva. * ŘEŠENÝ PŘÍKLAD 7-5 Pomocí determinačního poměru zjistěte těsnost závislost výnosů petržele na použitém druhu hnojiva. Řešení příkladu Na otázku „Jak silná je vazba mezi nezávislou nominální proměnnou (typ hnojiva) a proměnnou číselnou (výnosy petržele) ?“, odpovídá hodnota korelačního poměru. Korelační poměr y my S S P ,  , kde: myS , je meziskupinový součet čtverců, yS je celkový součet čtverců. Dosadíme-li do vztahu dostaneme 96,0922,0 4,2878 85,2654 P . Míra závislosti Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 115 Pokud hodnotu korelačního poměru umocníme, dostáváme poměr determinace 922,02 P . Hodnoty determinačního poměru blízké 1 svědčí o vysoké závislosti výnosů petržele na použitém typu hnojiva. * ŘEŠENÝ PŘÍKLAD 7-6 Na hladině významnosti 0,05 (0,01) testujte, zda názory respondentů na spokojenost s nakupováním v obchodním domě závisí na jejich příjmech. K dispozici máte počítačový výstup statistického softwaru SPSS. Názory respon- dentů Řešení příkladu Protože signifikantní hodnota je 0,000...; což je menší než 0,05 (než 0,01); zamítáme nulovou hypotézu o nezávislosti příjmu a hodnocením spokojenosti s nakupováním v obchodním domě. Lze tedy tvrdit, že názory respondentů na spokojenost s nakupováním jsou závislé na jejich příjmech. * ŘEŠENÝ PŘÍKLAD 7-7 Bylo vybráno 6 řidičů , z nichž každý absolvoval s každým typem benzínu jednu jízdu. Na hladině významnosti 0,05 testujte, je-li průměrná spotřeba paliva závislá na typu použitého benzínu a na tom, který řidič s vozem jel. Řidiči Typ benzínu A B C D E F Průměry Aral 7,5 6,9 7,9 7,3 6,9 7,8 7,38 Shell 7,6 7,2 7,5 8 7,3 8,2 7,63 Benzina 7,2 8,1 7,8 7,6 7,8 6,9 7,57 Slovnaft 7 7,3 7,2 7,5 8,2 7,7 7,48 Průměry 7,33 7,38 7,6 7,6 7,55 7,65 7,5 Spotřeba paliva 87,955 4 21,989 12,697 ,000 238,982 138 1,732 326,937 142 (Combined)Between Group s Within Groups Total H.CELK * PRIJEM Sum of Squares df Mean Square F Sig. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 116 Řešení příkladu Zkoumáme tedy závislost průměrné spotřeby (znak Y) na typu použitého benzínu (znak X1) a na řidiči (znak X2). (V tabulce jsou již doplněny podmíněné průměry a celkový průměr.) Znak X1 má 4k skupiny, znak X2 má 6r bloků. Pro faktor X1 formulujeme hypotézu: 0H faktor X1 je neúčinný, 1H faktor X1 je účinný; tj. průměrná spotřeba závisí na použitém druhu benzínu. Pro faktor X2 formulujeme hypotézu: 0H faktor X2 neúčinkuje, 1H faktor X2 účinkuje; tj. průměrná spotřeba závisí na řidiči vozu. Výpočet jednotlivých součtů:         4 1 222 . 21,05,748,7...5,738,76 i iym yyrS         6 1 222 . 36,05,738,7...5,733,74 j jyb yykS Potřebujeme znát i hodnotu součtu yvS , z praktického hlediska je však výhodnější vypočítat hodnotu součtu yS . Součet yvS pak dopočteme ze vztahu ybyvymy SSSS  .           79,35,77,75,72,8...5,79,65,75,7 2222 24 1 6 1   i j ijy yyS Po dosazení yvS = 3,22. Testové kritérium pro 1. hypotézu:    33,0 5.3 22,3 3 21,0 11 1    rk S k S F yv ym V tabulce kritických hodnot F-rozdělení najdeme   29,3)05,0(15,3 F . Protože 0,33 < 3,29 , nelze zamítnout 0H , což znamená, že použitý typ benzínu nemá na průměrnou spotřebu statisticky významný vliv. Testové kritérium pro 2. hypotézu:    34,0 5.3 22,3 5 36,0 11 1    rk S r S T yv yb V tabulce kritických hodnot F-rozdělení najdeme   9,2)05,0(15,5 F . Protože 0,34 < 2,9 , nelze zamítnout 0H , což znamená, že volba řidiče nemá na průměrnou spotřebu vliv. * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 117 KONTROLNÍ TEST 7 7.1 Je-li sledovaný znak ovlivňován dvěma faktory, hovoříme o dvojném třídění. 7.2 Jestliže hodnota testovacího kritéria pro faktor A leží v oboru přijetí, pak hodnota testovacího kritéria pro faktor B leží vždy v kritickém oboru. 7.3 V případě dvojného třídění hovoříme o tzv. Latinských čtvercích. 7.4 V případě trojného třídění má kritická hodnota Fischerova rozdělení tři stupně volnosti. 7.5 Analýza rozptylu zkoumá závislost kvantitativního znaku na jednom nebo více kvantitativních znacích. Ano či ne? 7.6 Hodnotu testovacího kritéria porovnáváme s kritickou hodnotou, která má __________ rozdělení. 7.7 Je-li sledovaný znak ovlivňován třemi faktory, hovoříme o tzv. __________ __________. 7.8 Tabulka zachycuje výsledek analýzy rozptylu dvojného třídění zpracovaný v Excelu. Doplňte chybějící hodnoty A, B,C. Zdroj variabily SS Rozdíl MS F F krit Řádky 0,25 1 0,25 1 C Sloupce 20,25 1 20,25 B 161,4462 Chyba A 1 0,25 Celkem 20,75 3 Doplňte 7.9 Proveďte analýzu rozptylu u dvojného třídění. Faktor /Blok 1 2 A 7 13 B 36 44 C 2 18 Řešte 7.10 Testujte hypotézu na hladině významnosti 0,05  ,že úspěšnost testu není ovlivněna typem testu ani tím, zda test skládá muž nebo žena. (Dvojné třídění) muž žena test 1 18 20 test 2 16 15 7.11 Tři dělníci mají naprosto stejnou pracovní náplň – balení výrobků. Počet zabalených výrobků za každou vybranou hodinu je zaznamenán v tabulce. Vypočítejte tabulku analýzy rozptylu a rozhodněte na hladině významnosti 0,05  , která z blokových proměnných (hodina, muž) ovlivňuje počet zabalených výrobků? Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 118 7.12 Zkoumá se kvalita povrchu na otěr v závislosti na a) typu látky (A, B, C, D), b) čísle vzorku (1,…,4), c) místě kontroly (I,…,IV). Vypočtěte DCBT SSSSS ,,,, , je-li dáno I II III IV 1 A 261 D 200 C 324 B 207 2 B 223 A 269 D 215 C 350 3 C 290 B 224 A 263 D 228 4 D 306 C 288 B 252 A 264 ŘEŠENÍ KONTROLNÍHO TESTU 7 7.1 ano 7.2 ne 7.3 ne 7.4 ne 7.5 ne Ano či ne? 7.6 Fischerovo 7.7 Latinských čtvercích 7.8 A=0,25; B=81; C=161,4 Doplňte 7.9 Hodnota Y závisí na typu faktoru, ale nezávisí na typu bloku (pro 0,05) 7.10 Nebyla prokázána závislost úspěšnosti na typu testu (5,4 161,4 ) ani na pohlaví  0,11 161,4 , neboť obě hodnoty testových kritérií leží v oboru přijetí. 7.11 Počet zabalených výrobků závisí tom, kdo výrobky balí. Zdroj varia- bily Součty čtverců Stupně vol- nosti Průměrné čtverce F Kritická hodnota Hodiny 18 2 9 3,6 6,94 Dělníci 78 2 39 15,6 6,94 Reziduál 10 4 2,5 Celkem 106 8 7.12 2178,5 1338,5 17866,5 6905,5 28289B C T R D S S S S S     Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 119 8 ÚPLNÉ FAKTOROVÉ PLÁNY CÍLE KAPITOLY ÚPLNÉ FAKTOROVÉ PLÁNY Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  sestavit úplný a částečný faktorový plán  vypočítat efekt faktorů a dokázat testovat statistickou významnost tohoto efektu,  sestavit rovnici modelu experimentu. Budete umět Budete schopni:  definovat pojem plán experimentu,  graficky vyhodnotit efekt faktorů Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 11 Pod pojmem experimentovat se dále rozumí měnit obvyklé pracovní podmínky s cílem nalézt nejlepší pracovní postupy a současně získat hlubší poznatky o vlastnostech výrobku a výrobního procesu. Formulaci „nejlepší pracovní postupy“ lze interpretovat takto: Označíme-li sledovaný ukazatel kvality Y (resp.ukazatele kvality 1 2 , ,..., k Y Y Y ) a faktory, které jej ovlivňují , , ,...A B C se mohou pohybovat na různých úrovních 1 2 3 , , ,...A A A pro faktor A; 1 2 3 , , ,...B B B pro faktor B atd. pak cílem plánování experimentů je rozhodnout, které z faktorů , , ,...A B C významně ovlivňují ukazatel kvality Y a určit optimální úrovně významných faktorů. Kapitola je opět doplněna řešenými příklady. 8.1 Základy experimentování a oblasti použití Experimentování představuje vlastně testování kombinací různých hodnot (úrovní) faktorů, o nichž si myslíme, že mají vliv na odezvu (charakteristiku jakosti). Odezva je veličina, pomocí které vyjadřujeme výsledky experimentu. Protože testování všech variant přestavuje neúměrně veliký počet zkoušek, používají se pro experimentování zkrácené metody, které zkoumají pouze určitou frakci všech možných kombinací. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 120 DEFINICE 8-1 Faktor neboli parametr je nezávislá návrhová proměnná, která ovlivňuje charakteristiku jakosti. Jak již bylo uvedeno v úvodu, symbolicky označujeme faktory velkými tiskacími písmeny, tj. , ,A B C atd. a jejich úrovně pro experiment označujeme jako 1 A (faktor A na první úrovni), 2 A (faktor A na druhé úrovni), atd. Rozlišujeme dva základní druhy faktorů: a) regulovaný faktor – je návrhová proměnná, o které si myslíme, že ovlivňuje odezvu a je přitom začleněna do experimentu. Hodnotu proměnné můžeme a zároveň chceme nastavit a udržovat. b) šumový faktor – je faktor, který negativně ovlivňuje odezvu. Takový faktor nemůžeme nebo nechceme při vlastní aplikaci nastavit a udržovat na požadované hodnotě, ale můžeme to provádět během experimentu. Faktor DEFINICE 8-2 Pod pojmem interakce faktorů si představme kombinovaný účinek dvou faktorů, tzn. Účinek jednoho faktoru je závislý na hodnotě nastavení druhého faktoru. Interakci dvou faktorů zapisujeme symbolicky jako AB. Interakce faktorů DEFINICE 8-3 Uveďme oblasti, ve kterých se experimentování používá. Jsou to tyto oblasti: analytická simulace, návrh a vývoj výrobku, návrh a vývoj procesu, zlepšování procesu, testování a validace, řešení problémů s jakostí ve výrobě a pro analýzu a zlepšování systému měření. Oblasti použití experimen- tování 8.2 Experimentální procedura Experimentální proceduru můžeme rozčlenit do čtyř kroků: plánování experimentů (brainstorming), návrh experimentů, provedení experimentů a jejich analýza. Nyní se věnujme jednotlivým částem experimentální procedury. DEFINICE 8-4 Prvním krokem při plánování experimentů je ustanovení experimentálního týmu. Do týmu by měli být zahrnuti zástupci všech oddělení, která ovlivňují produkt nebo proces. Velikost týmu by však neměla přesahovat rozumnou míru a měla by se pohybovat v rozmezí 2 – 15 lidí. Brainstormingová sezení jsou věnována velkému množství otázek a na každou z nich musí experimentální tým nalézt správnou odpověď. Jedná se o určení cíle experimentu, definování charakteristiky jakosti a výběr faktorů a jejich úrovní. Plánování experimen- tů Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 121 DEFINICE 8-5 Výsledkem plánování experimentů je definovaný cíl, kterého chceme dosáhnout, a charakteristika jakosti, která je měřítkem pro posouzení, zda cíle bylo dosaženo. Kromě toho známe potenciální faktory, které nepravděpodobněji ovlivňují danou charakteristiku jakosti, jejich úrovně. Při návrhu experimentů musíme přiřadit faktory do tabulky. Vlastní postup při návrhu experimentů budeme demonstrovat na konkrétním příkladu Pružina. Návrh experimen- tů DEFINICE 8-6 Experimenty můžeme provádět buďto v laboratorních nebo přímo v provozních podmínkách. Při experimentování ve výrobě můžeme narazit na „střety zájmů“ mezi potřebným množstvím produkce na jedné straně a mezi potřebným časem na experimenty, který snižuje vlastní produktivní čas výroby, na straně druhé. V praxi je obvyklé řešit tento problém tak, že se experimenty provádějí mimo pracovní dobu, např. na zvláštních nočních směnách, o sobotách a nedělích, apod. Kdykoli je to možné, měli bychom experimenty provádět v náhodném pořadí. Provádění experimen- tů DEFINICE 8-7 Analýza výsledků experimentů spočívá především v nalezení kombinace faktorů, která dává nejlepší výsledek a dále v určení relativního podílu jednotlivých faktorů na jakosti výstupu. Na závět provádíme odhad výsledku při optimálních podmínkách, který musíme verifikovat ověřovacími experimenty. Analýza experimen- tů PRŮVODCE TEXTEM V následujícím příkladu, který je proložen výkladem, se seznámíme se sestavením tabulky faktorů, s úplným faktorovým plánem, s pojmem kódovaná proměnná. ŘEŠENÝ PŘÍKLAD 8-1 Sleduje se, kolik stlačení (Y) vydrží pružina až do zničení v závislosti na těchto faktorech: L = délka pružiny, G = tloušťka drátu, T = typ materiálu. Má se zjistit, které faktory jsou rozhodující pro životnost pružiny. Pro test významnosti těchto faktorů popř. interakce faktorů použijme hladinu významnosti 0,05  . Pružina Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 122 Řešení příkladu Sestavíme tabulku faktorů a jejich uvažovaných úrovní (tab.1) : faktor označení dolní úroveň horní úroveň - + délka pružiny L 10 cm 15 cm tloušťka drátu G 5 mm 7 mm materiál T A i Tab. 1 Seznam faktorů a jejich úrovní Existuje více způsobů jak sestavit plán, podle kterého se budou provádět jednotlivé pokusy. Mezi nejpoužívanější plány patří úplný faktorový plán, který v daném případě vypadá takto: pokus L G T Y 1 10 5 A 2 15 5 A 3 10 7 A 4 15 7 A 5 10 5 B 6 15 5 B 7 10 7 B 8 15 7 B Tab.2 Plán experimentu V uvedené tabulce je Y je výsledek pokusu. Plán experimentu je výhodnější psát pomocí této symboliky: Je-li každý z faktorů uvažován na dvou úrovních, pak dolní úroveň bude značena -1 (resp. jen „-„ ) a horní úroveň +1 (resp. „+“). Tabulka 2 potom bude mít tvar pokus L G T Y 1 -1 -1 -1 2 +1 -1 -1 3 -1 +1 -1 4 +1 +1 -1 5 -1 -1 +1 6 +1 -1 +1 7 -1 +1 +1 8 +1 +1 +1 Tab.3 Plán experimentu v kódovaných proměnných Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 123 Přepočet původních proměnných na tzv. kódované proměnné se může provést nejen pro krajní hodnoty maxx (= +1) a minx (= – 1) takto: Přepočet původních proměnných na kódované 2 2 minmax minmax 0 xx xx x xc     (8-1) kde 0 x je proměnná v původních jednotkách, cx je kódovaná proměnná, maxx horní úroveň x, minx dolní úroveň x. Například přepočet L pro dolní hodnotu 10 je 1 2 1015 2 1015 10     cL , a pro horní úroveň G = 7 bude kódovaná hodnota 7 5 7 2 1 7 5 2 cG       Počet pokusů, ze kterých je sestaven úplný experiment, se vypočítá při k faktorech pomocí vztahu k n 2 , takže zde, při k = 3 faktorech, je počet pokusů (řádků) .823 n Proto má tabulka 8 řádků. Počet pokusů úplného experimen- tu Jestliže je plánem experimentu stanoveno, za jakých podmínek se provádí jednotlivé pokusy, je možné provést celý experiment a zaznamenat hodnoty sledovaného ukazatele Y. V našem případě byl každý pokus opakován dvakrát. Výsledky jsou v tabulce 4: pokus faktor faktor faktor výsledek výsledek průměr L G T 1Y 2Y Y 1 - - - 77 81 79 2 + - - 98 96 97 3 - + - 76 74 75 4 + + - 90 94 92 5 - - + 63 65 64 6 + - + 82 86 84 Příklad Pružina - pokračo- vání Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 124 7 - + + 72 74 73 8 + + + 92 88 90 Tab.4 Výsledky opakovaných pokusů Sestavením tabulky 4 skončily přípravné a experimentální práce. Dále následují výpočty, jejichž cílem bude stanovit, které z faktorů ovlivňují významným způsobem životnost pružiny Y. Vzhledem k tomu, že pro určení optimální úrovně faktorů a pro sestavení modelu je důležité také vědět, které dvojice faktorů mají vzájemně významnou interakci, počítá se také vliv interakcí na Y. Znaménka ve sloupcích LG, LT, GT, LGT se získají jako součin znamének v odpovídajících sloupcích, jak je uvedeno v následující tabulce 5. pokus L G T LG LT GT LGT 1 - - - + + + - 2 + - - - - + + 3 - + - - + - + 4 + + - + - - - 5 - - + + - - + 6 + - + - + - - 7 - + + - - + - 8 + + + + + + + Tab.5 Interakce faktorů * 8.3 Efekt (vliv) faktoru, významnost efektu 8.3.1 Efekt (vliv) faktoru DEFINICE 8-8 Efektem faktoru se rozumí změna ukazatele kvality Y, kterou způsobí přechod tohoto faktoru z dolní úrovně (-) na horní úroveň (+). Princip znaménkové metody, kterou budeme používat při výpočtu efektu faktoru, spočívá v tom, že se sečtou se hodnoty ve sloupci Y, přičemž každá hodnota má znaménko, odpovídající znaménku u příslušného faktoru v odpovídajícím řádku. Součet se vydělí 2 n , kde n je počet pokusů. Například pro faktor L bude     189073846492759779 4 1 Lefekt ,     89073846492759779 4 1 Tefekt . Znaménková me- toda Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 125 Podobně se postupuje u interakcí, například pro interakci LG znaménkovou metodou bude     .19073846492759779 4 1 LGefekt Posloupnosti znamének u interakcí jsou uvedeny v tabulce 5. Dále vypočtěme efekty jednotlivých faktorů a jejich interakcí a doplňme je do tabulky 6. číslo L G T LG LT GT LGT Y 1 - - - + + + - 79 2 + - - - - + + 97 3 - + - - + - + 75 4 + + - + - - - 92 5 - - + + - - + 64 6 + - + - + - - 84 7 - + + - - + - 73 8 + + + + + + + 90 efekt 18 1,5 -1 -8 0,5 6 -0,5 Tab.6 Efekt faktorů Abychom zjistili, zda faktory resp. interakce faktorů jsou statistiky významné, potřebujeme ještě vypočítat rozptyl efektu faktoru. Efekty faktorů a jejich interakcí DEFINICE 8-9 Odhad rozptylu efektu faktoru 2 e , který je tejný pro všechny faktory, bude: Rozptyl efektu faktoru N se 2 2 4  (8-2) kde N je celkový počet pokusů (včetně opakování), tzn. v našem případě 16N . V případě opakovaných pokusů se 2  odhadne pomocí veličiny 2 s , která se vypočítá k kk ss s      ... ... 1 22 112 (8-3) kde 1 ii n , in je počet opakování i-tého pokusu, 2 is je rozptyl v i-tém pokusu. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 126 8.3.2 Test významnosti efektu DEFINICE 8-10 Rozptyl odhadu efektu se použije k testování významnosti efektu faktorů. Celý test vypadá takto: 1. Nulová hypotéza Ho: efekt faktoru je bezvýznamný, alternativní hypotéza H1: efekt faktoru je významný. 2.Testovací kriterium es efekt t  . 3. Kritická hodnota  nnnn k t  ...21 , kde knn ,...,1 jsou počty opakování pokusů, zde 2in , n je počet pokusů bez opakování (n = 8). 4. Závěr testu: pro  nnnn k tt  ...21 , se zamítá nulová hypotéza, což znamená, že efekt (a tedy faktor) je významný. Testování významnosti efek- tu Vraťme se opět k příkladu Pružina a vypočtěme potřebné hodnoty:     306,205,0816...21   tt nnnn k  . Hodnotu veličiny 2 s vypočteme ze vztahu (8-3) 5 8 828282282   s , a výsledek dosaďme do vztahu (8-2) a dostáváme: 25,1 16 5,44 2 2  N s se , 12,1es . Výpočty jsou uspořádány v tabulce. číslo Y1 Y2 Y1-Y2 2 is efekt es efekt t  1 77 81 -4 8 2 98 96 2 2 L = 18 16,07 3 76 74 2 2 G = 1,5 1,34 4 90 94 -4 8 LG = -1,0 -0,89 5 63 65 -2 2 T = -8,0 -7,14 6 82 86 -4 8 LT = 0,5 0,45 7 72 74 -2 2 GT = 6,0 5,36 8 92 88 4 8 LGT =-0,5 -0,45 Tab.7 Testování významnosti efektu Příklad Pružina - pokračo- vání Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 127 Rozptyl v jednotlivých pokusech se v případě dvou opakování vypočítá pomocí vztahu   2 2 212 YY si   . Kritickou hodnotu 2,306 převyšuje v absolutní hodnotě testovací kriterium faktorů L, T a interakce GT. To jsou tedy významné faktory a interakce, ostatní faktory vliv na životnost pružiny nemají. 8.4 Grafické hodnocení efektu faktoru, grafy interakcí 8.4.1 Grafické hodnocení efektu faktorů DEFINICE 8-11 Pokud se neprovádí opakování jednotlivých pokusů nelze použít výše uvedenou metodu a používá se grafická metoda k určování významných faktorů. V grafu se na vodorovnou osu vynáší efekt a na svislou osu pravděpodob- nost   m i Pi 5,0100   (8-4) kde i = 1,2, ..., m , m je počet faktorů a interakcí. Za významné se považují ty faktory, které se nacházejí výrazně mimo hlavní linii. Při použití grafické metody je užitečné sestavit do pomocné tabulky, ve které jsou efekty ve druhém řádku uspořádány vzestupně. Číslo 1 2 3 4 5 6 7 Efekt -8,0 -1,0 -0,5 0,5 1,5 6,0 18 Faktor T LG LGT LT G GT L iP 7,14 21,42 35,71 50 64,29 78,57 92,86 Tab. 8 Grafické hodnocení významnosti efektu (pružina) Graf, sestrojený z údajů ve druhém řádku (vodorovná osa) a čtvrtého řádku (svislá osa) je na obr.8-1. V grafu je vidět, že mimo hlavní linii jsou ty faktory, u kterých testovací kriterium překročilo kritickou hodnotu. Jsou to faktory L (nejvýrazněji), T a interakce GT. Příklad Pružina – Grafické hodnocení významnosti efek- tu Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 128 Obrázek 8-1: Grafické určení vlivných faktorů (pružina) Obr. 8-1: Grafické určení vlivných faktorů (pružina) 8.4.2 Grafy interakcí DEFINICE 8-12 Pro významné interakce se sestrojují grafy, umožňující diskusi o optimální úrovni jednotlivých faktorů. Tak například pro významnou interakci GT sestrojíme graf vlivu G na ukazatel kvality Y v závislosti na faktoru T. Z tabulky 6 vybereme údaje, které odpovídají příslušným úrovním faktorů G a T. Hodnoty zaznamenáme do tabulky 9, kterou doplníme o průměry. G T průměr - - 79 97 88 + - 75 92 83,5 G T průměr - + 64 84 74 + + 73 90 81,5 Tab.9 Určení krajních bodů grafu interakce Spojením bodů    5; 88 , 7; 83,5 dostaneme situaci pro dolní úroveň faktoru T , spojením bodů    5; 74 , 7; 81,5 znázorníme horní úroveň faktoru T. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 129 Obrázek 8-2: Vliv G na Y v závislosti na T Obr. 8-2: Vliv G na Y v závislosti na T Z grafu je vidět, že pro maximalizaci Y je nejlepší T na dolní úrovni (– T) a že změna G neovlivňuje výrazně Y , protože úsečky jsou přibližně rovnoběžné s osou x. 8.5 Model experimentu 23 DEFINICE 8-13 Jakmile je stanoven efekt faktorů a jejich interakcí, je možné sestavit model experimentu. Neúplný kvadratický model experimentu 3 2 s faktory A, B, C má tvar Rovnice modelu experimen- tu ABCbBCbACbABbCbBbAbbY 1232313123210  . (8-5) Koeficienty 12321 ,...,, bbb se vypočítají jako polovina příslušného efektu (resp. interakce), u kterého jsou a absolutní člen .0 Yb  V modelu experimentu jsou zařazeny jen vlivné faktory a interakce. Zde např. Y = 81,75 + 9L – 4T + 3GT. Přepočteme kódované proměnné na původní proměnné pomocí vztahu (8-1) a dostáváme T G T L Y 1 6 34 5,2 5,12 975,81 00     . Po úpravě vychází TGTLY 00 3226,375,36  Model experimentu má mnohostranné použití. Mezi nejvýznamnější patří: 1. určení lokálně optimálních hodnot faktorů, 2. stanovení směru dynamického plánování, 3. predikce ukazatele kvality Y. Použití modelu experimen- tu Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 130 SHRNUTÍ KAPITOLY ÚPLNÉ FAKTOROVÉ PLÁNY Tato kapitola nás seznámila s plánováním experimentu. Lze sestavit úplný faktorový plán nebo, pokud jsme okolnostmi omezeni, částečný faktorový plán. Každý faktor nějakým způsobem ovlivňuje ukazatele kvality Y, jedná se o efekt faktoru, kterou způsobí přechod tohoto faktoru z dolní úrovně (-) na horní úroveň (+). Lze testovat statistickou významnost tohoto efektu, jak bylo uvedeno na konkrétním příkladu. Plánované experimenty se řídí plánem experimentu. Plán experimentu stanovuje a. počet pokusů, ze kterých se experiment skládá, b. podmínky, za kterých se jednotlivé pokusy uskuteční, c. pořadí pokusů. Z uvedeného je zřejmé, že se zde rozlišuje význam pojmů pokus = zjištění hodnoty ukazatele kvality za určitých, předem plánovaných, podmínek výroby a experiment = systém všech pokusů. Shrnutí kapitoly Cílem plánování experimentů je a. rozhodnout, které z faktorů (A, B, C, D, ...) významným způsobem ovlivňují ukazatel kvality Y, b. určit optimální úrovně významných faktorů s ohledem na optimalizaci a stabilitu Y. Stabilitou v bodě b) se rozumí, že Y je optimální i při různých vnějších podmínkách (prostředí, zacházení apod.). Hovoří se o tzv. robustnosti výrobku. Poznali jsme pojmy jako: plán experimentu, pokus, experiment, částečný faktorový plán, efekt faktorů, test významnosti efektu, grafické hodnocení efektu faktorů, model experimentu. Cíl plánování ŘEŠENÝ PŘÍKLAD 8-2 Pro faktory A, B byl sestaven úplný plán. Každý pokus se opakoval 2x. Výsledky jsou uvedeny v tabulce A B 1Y 2Y - - 5 6 + - 5 5 - + 7 6 + + 5 4 Vypočtěte: a. efekty faktorů A, B a efekt interakce faktorů AB, b. napište rovnici modelu experimentu, c. rozptyl odhadu efektu faktorů, d. testujte, zda jsou faktory A, B, AB statisticky významné. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 131 Řešení příkladu a. Pro výpočet efektu faktorů A,B a efekt interakce faktorů AB doplníme tabulku o průměry v jednotlivých pokusech: A B 1Y 2Y Y - - 5 6 5,5 + - 5 5 5 - + 7 6 6,5 + + 5 4 4,5 Pro efekty faktorů A, B a efekt interakce AB dostáváme:   25,15,45,655,5 2 1 Ae   25,05,45,655,5 2 1 Be   75,05,45,655,5 2 1 ABe . b. Rovnice modelu experimentu ABBAY 2 75,0 2 25,0 2 25,1 375,5  c. Rozptyl odhadu efektu faktoru: N se 2 2 4  , 375,0 4 5,0.15,0.10.15,0.12   s 1875,0 8 375,0.42 es Směrodatná odchylka odhadu efektu faktoru je 433,0es . d. Testujeme nulovou hypotézu: :0H efekt faktoru (interakce) není statisticky významný, proti alternativní hypotéze: :1H efekt faktoru (interakce) je statisticky významný. Testové kritérium e efekt t s  . Pro jednotlivé faktory dostáváme: 2,88A t  0,577B t  1,73AB t   Hodnoty porovnáváme s kritickou hodnotou Studentova rozdělení     776,205,005,0 48   tt nN (N označuje počet provedených pokusů včetně opakování, n počet pokusů bez opakování) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 132 Protože 776,273,1776,2577,0776,288,2  je statisticky významný pouze faktor A. * ŘEŠENÝ PŘÍKLAD 8-3 Pomocí grafické metody zjistěte, které z faktorů jsou významné, jestliže jsou dostupné následující hodnoty, které jsou uvedeny v tabulce. i 1 2 3 4 5 6 7 Efekt -8 -1 -0,5 0,5 1,5 6 18 Faktor C AB ABC AC B BC A iP Významnost fakto- rů Řešení příkladu Dopočteme poslední řádek v tabulce podle vztahu:   m i Pi 5,0100   , mi ,...,2,1 m je počet faktorů a interakcí, zde m = 7. i 1 2 3 4 5 6 7 Efekt -8 -1 -0,5 0,5 1,5 6 18 Faktor C AB ABC AC B BC A iP 7,14 21,42 35,71 50 64,29 78,57 92,86 Obrázek 8-3: Grafické určení vlivných faktorů Obr. 8-3: Grafické určení vlivných faktorů Grafické hodnocení 7,14 21,42 35,71 50 64,29 78,57 92,86 -10 0 10 20 Efekt P(i) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 133 Na hlavní linii neleží hodnoty: 92,86; 7,14; 78,57. Což odpovídá těm faktorům, které jsou nejvýznamnější: A, C, BC. * KONTROLNÍ TEST 8 8.1 Plán experimentu stanovuje jen pořadí pokusů. 8.2 Úplný experiment, který má 4 faktory, je sestaven z 8 pokusů. 8.3 Efekt faktoru nabývá jen kladných hodnot. 8.4 Při testování významnosti efektu faktorů se porovnává testové kritérium s kritickou hodnotou Fischerova rozdělení. 8.5 Při grafické metodě určování významnosti faktorů se za významné považují ty faktory, které se nacházejí významně mimo hlavní linii. Ano či ne? 8.6 Experiment je systém všech __________ 8.7 Počet pokusů, ze kterých je sestaven úplný experiment (při 3 faktorech), je roven __________ 8.8 Nulová hypotéza při testování významnosti efektu faktorů zní: Efekt faktoru je __________ 8.9 Grafická metoda určování významných faktorů bývá používána tehdy, pokud se neprovádí __________ __________ __________ 8.10 Při grafické metodě určování významných faktorů se v grafu na vodorovnou osu vynáší efekt faktoru a na svislou osu pravděpodobnost, která je dána vztahem __________ Doplňte 8.11 Doplňte do tabulky kódované hodnoty pro úplný plán: Pokus A B 1 2 3 4 8.12 Pro faktory A, B byl sestaven úplný plán. Každý pokus se opakoval dvakrát. Výsledky jsou v tabulce. A B 1Y 2Y - - 2,3 2,6 + - 3,1 2,9 - + 3 3,5 + + 1,9 2,2 Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 134 Vypočtěte: a. efekt faktoru A, B a AB, b. model experimentu, c. rozptyl odhadu efektů faktorů 8.13 Testujte na hladině významnosti 0,05, zda jsou efekty faktorů A, B a efekt interakce AB statisticky významné. 8.14 Nakreslete graf interakce faktorů A a B z příkladu 8.14. Znázorněte vliv faktoru A na Y v závislosti na B. ŘEŠENÍ KONTROLNÍHO TESTU 8 8.1 ne 8.2 ne 8.3 ne 8.4 ne 8.5 ano Ano či ne? 8.6 pokusů 8.7 823  8.8 bezvýznamný 8.9 opakování jednotlivých pokusů 8.10  , 5,0100 m i Pi   kde mi ,...,2,1 a m je počet faktorů a interakcí Doplňte 8.11 Pokus A B 1 - - 2 + - 3 - + 4 + + 8.12 a. efekt(A) = – 0,325; efekt(B) = – 0,075; efekt(AB)= – 0,875 b. ABBAY 4375,00375,01625,069,2  c. 2 s = 0,0587; es = 0,0294 8.13 Statisticky významný je pouze efekt interakce AB, protože 776,211,5  8.14 Z grafu je vidět, že pro maximální hodnotu Y je nejlepší B na horní úrovni a změna faktoru A ovlivňuje Y , protože úsečky nejsou rovnoběžné. Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 135 Obrázek 8-4: Vliv A na Y v závislosti na B Obr. 8-4: Vliv A na Y v závislosti na B 3,25 2,05 2,45 3 0 1 2 3 4 A Y (- B) (+B) 7 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 136 9 ČÁSTEČNÝ FAKTOROVÝ EXPERIMENT SE DVĚMA ÚROV- NĚMI CÍLE KAPITOLY ČÁSTEČNÝ FAKTOROVÝ EXPERIMENT SE DVĚMA ÚROVNĚMI Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  definovat pojem stupeň snížení,  rozdělit částečné faktorové plány podle stupně snížení  vlastnosti operací s faktory  definovat pojem zaměnitelné dvojice Budete umět Budete schopni:  byli schopni určit významné faktory v polovičním plánu grafickou metodou Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 12 V předcházející kapitole jsme se seznámili s úplnými faktorovými plány. Ne vždy je možné sestavit úplný faktorový plán, ať už z důvodů finančních, časových nebo jiných. V takových případech se přistupuje k částečnému plánování. V této kapitole se dovíte, že podle stupně snížení se částečné faktorové plány dělí na plány s nejnižším, nejvyšším snížením a na středové plány. V této kapitole se budeme zabývat problematikou polovičních plánů. DEFINICE 9-1 V úplném faktorovém experimentu se sestavuje plán experimentu pro každý faktor. U částečného faktorového experimentu se plán sestaví jen pro několik faktorů (hlavní faktory) a ostatní (vedlejší faktory) se vyjádří jako jejich kombinace. Tím se dosáhne snížení počtu pokusů. Je-li 2k označení pro úplný experiment, kde 2 = počet úrovní faktorů, k = počet faktorů, pak pk 2 je částečný faktorový experiment, p označuje stupeň snížení. Částečný faktorový experiment Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 137 Chceme-li například v plánu 27 , který představuje n = 128 pokusů, snížit počet pokusů na polovinu, tj. 17 7 2 2 2   , dostáváme částečný faktorový experiment, který představuje 642 17   n pokusů, tedy p o l o v i n u. Je to nejmenší možné snížení počtu pokusů. Plány se snížením počtu pokusů na polovinu se nazývají poloviční plány. Stupeň snížení p může být i vyšší než 1, například 47 2  , kde bude jen n = 8 pokusů. To je pro k = 7 faktorů největší možné snížení. Největší možné snížení vychází z pravidla, podle kterého počet pokusů nesmí být menší než počet faktorů. Musí tedy platit kn  . V uvedeném případě k = 7 a 82 47   n . Například pro k = 15 faktorů je nejvyšší možné snížení 1115 2  , neboť n = 16 a k = 15. Pokud bychom provedli ještě vyšší snížení, např. 1215 2  , potom k = 15, ale n = 8, takže n < k. Mezi plány s nejmenším (polovičním) a největším snížením počtu pokusů může být ještě řada možností snížení. Takové plány se nazývají středové. Například mezi 27-1 a 27-4 jsou plány 27-2 , 27-3 . Poloviční plány Částečné faktorové plány lze tedy rozdělit na a. plány s nejnižším snížením, tzv.poloviční plány, b. plány s nejvyšším snížením, c. plány se snížením mezi a) a b), tzv. středové plány. PRŮVODCE TEXTEM Mezi nejvýznamnější patří poloviční plány, kterými se budeme zabývat v další subkapitole. 9.1 Poloviční plány Nejprve budeme definovat pojmy, se kterými budeme dále pracovat. Tyto pojmy pak budou osvětleny na konkrétním příkladu Barvivo, který je řešen v této kapitole. DEFINICE 9-2 Označme I faktor, obsahující jen „+“. Takový faktor se nazývá jednotkový. Operace s faktory A.A = I A.I = I.A = A (A.B).C = A.(B.C) A.B = B.A Předpokládejme, že A, B, C, D, E jsou faktory, pro které se má sestavit poloviční plán. Je třeba určit 4 hlavní faktory (například A, B, C, D), pro které se sestaví úplný plán a zbývající (vedlejší) faktor E se vyjádří jako jejich kombinace, například E = ABCD. Vlastnosti operací s faktory Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 138 DEFINICE 9-3 Každá kombinace faktorů tvoří slovo. Slovo se skládá z písmen (faktorů). Počet písmen ve slově je délka slova. Slovo DEFINICE 9-4 Vztah E = ABCD se nazývá generátor plánu. V plánu pk 2 je p generátorů. Vynásobením generátoru levou stranou E.E = E. ABCD a s využitím vlastností operací s faktory dostáváme I = ABCDE. Generátor plánu DEFINICE 9-5 Slova, která jsou rovna jednotkovému faktoru I, se nazývají definiční rovnice. Definičních rovnic může být i více. Nejkratší slovo v definičních rovnicích je tzv. řešení plánu a zapisuje se k typu plánu římským číslem jako index. Zde např. 15 2  V . Definiční rovnice DEFINICE 9-6 Řešení plánu je V proto, že slovo v definiční rovnici má 5 písmen (faktorů). Pomocí definiční rovnice lze najít dvojice faktorů (resp. interakcí), které tvoří stejné posloupnosti znamének a které se nazývají zaměnitelné dvojice. Je-li například generátor plánu ve tvaru E = ABCD, pak definiční rovnice bude I = ABCDE Zaměnitelnou interakci k interakci DE nalezneme vynásobením definiční rovnice touto interakcí I = ABCDE /. DE DE.I = DE.ABCDE. Odtud dostáváme DE = ABC. Zaměnitelné dvojice ŘEŠENÝ PŘÍKLAD 9-1 Zkoumejme množství barviva Y, které zůstane na látce po absolvování testů (ve srovnání se standardním vzorkem) v závislosti těchto pěti faktorech: A = pH, B = teplota, C = koncentrace, D = dokončovací teplota, E = dokončovací čas. Sestavme poloviční plán experimentu a najděme nevýznamnější faktory, které ovlivňují množství barviva na látce. Potřebné údaje jsou uvedeny v tabulce 1. Barvivo Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 139 Faktor Symbol - + pH A 4,5 5,5 teplota B C0 70 C0 80 koncentrace C 1 g/l 3 g/l dok.teplota D C0 170 C0 190 dok.čas E 50s. 70s. Tab.1 Faktory a jejich úrovně Řešení příkladu Sestavme tedy poloviční plán experimentu, kde A, B, C, D jsou hlavní faktory a faktor E je vedlejším faktorem. Výsledky pokusů pro jednotlivé úrovně faktorů jsou zaznamenány v tabulce 2. A B C D E =ABCD Y 1 - - - - + 6,4 2 + - - - - 9,9 3 - + - - - 8,1 4 + + - - + 6,6 5- - + - - 9,0 6 + - + - + 5,3 7 - + + - + -5,1 8 + + + - - -1,0 9 - - - + - 10,6 10 + - - + + 12,7 11 - + - + + 12,9 12 + + - + - 11,2 13 - - + + + 12,4 14 + - + + - 9,7 15 - + + + - 4,1 16 + + + + + 4,0 Tab.2 Poloviční plán Výpočet efektu faktorů a interakcí se provede stejně, jako u úplného plánu. Např. pro efekt faktoru D dostáváme    8,44...7,126,101...9,94,6 8 1 )( Defekt . Ostatní hodnoty efektu faktorů a jejich interakcí jsou uvedeny v tabulce 3. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 140 Faktor Efekt A + BCDE 0,0 B + ACDE -4,4 C + ABDE -5,0 D + ABDE 4,8 E + ABCD -0,8 AB + CDE 0,2 AC + BDE -0,6 AD + BCE -0,6 AE + BCD 0,5 BC + ADE -4,2 BD + ACD 1,1 BE + ACD -0,2 CD + ABE 0,7 CE + ABD -0,5 DE + ABC 2,4 Tab. 3 Efekt faktorů v obou polovičních plánech Proč jsou u efektů uváděny dvojice a nikoli sólové faktory, vysvětlíme dále. * 9.2 Grafická metoda Řešení příkladu Použití grafické metody je opět podobné jako u úplných plánů. Nejprve vypočtěme hodnotu pravděpodobnosti ze vztahu (8-4). i 1 2 3 4 5 6 Faktor C + ABDE B + ACDE BC + ADE E + ABCD AD + BCE AC + BDE Efekt -5 -4,4 -4,2 -0,8 -0,6 -0,6 iP 3,3 10 16,6 23,3 30 36,6 i 7 8 9 10 11 12 Faktor CE + ABD BE + ACD A + BCDE AB + CDE AE + BCD CD + ABE Efekt -0,5 -0,2 -0,0 0,2 0,5 0,7 iP 43,3 50 56 63,3 70 76,6 Příklad Barvivo - pokračo- vání Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 141 i 13 14 15 Faktor BD + ACD DE + ABC D + ABCE Efekt 1,1 2,4 4,8 iP 83,3 90 96,6 Tab. 4 Výpočet pravděpodobností iP Z těchto hodnot sestrojíme graf, kde na osu x nanášíme efekt a na osu y hodnotu pravděpodobnosti iP . Obrázek 9-1: Grafické určení vlivných faktorů v polovičním plánu Obr. 9-1: Grafické určení- poloviční plán Pokud bychom sestavili úplný plán a sestrojili graf pro vyhodnocení vlivných faktorů, dostali bychom stejný výsledek, jako u polovičního plánu, jak je patrné z obrázku 9-2: Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 142 9-2: Grafické určení vlivných faktorů v úplném plánu Obr. 9-2: Grafické určení – úplný plán Porovnáme-li grafy v obr. 9-1 a obr. 9-2 je zřejmé, že poloviční plán dává stejné hodnocení jako úplný plán. Znamená to tedy, že snížením počtu pokusů na polovinu nedošlo ke ztrátě informací a tím ke změně výsledků. Kdybychom však porovnali numerické hodnoty efektů faktorů a jejich interakcí v úplném a v polovičním plánu, zjistíme, že nejsou stejné. Navíc jsou v tabulce uváděny efekty pro s o u č e t, například A + BCDE, B + ACDE apod. Ve sloupci „faktor“ v tabulce 3 jsou uvedeny součty proto, že snížením počtu pokusů dochází k tomu, že některé posloupnosti znamének u interakcí faktorů jsou stejné. Například (podle tab.2) ABC - + + - + - - + - + + - + - - + DE - + + - + - - + - + + - + - - + Jsou-li u interakcí ABC a DE stejné posloupnosti znamének je jasné, že také efekt (zde počítaný znaménkovou metodou) je stejný. Součty efektů v tab. 3 jsou tedy uváděny proto, že vypočítaný efekt patří oběma interakcím. Neznamená to ale, že na každou připadá polo- vina! Znaménková me- toda Kolik celkového efektu připadá na jednotlivé sčítance nelze zjistit. Využívá se ale poznatek, že čím delší je „slovo“, tím menší má vliv. Snahou proto je dostat do kombinací krátké slovo (sólový faktor) s co nejdelším. To lze ovlivnit volbou definičních rovnic. * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 143 ŘEŠENÝ PŘÍKLAD 9-2 Mějme pět faktorů A, B, C, D, E. Faktor E je vedlejším faktorem. Faktor E je možné vyjádřit mnoha způsoby. Porovnejme tyto dva: a. E = AB, b. E = ABCD. Řešení příkladu Příslušné definiční rovnice jsou a. I = ABE b. I = ABCDE V případě a) máme plán 15 2  III , v případě b) plán 15 2  V . Tento druhý plán je lepší, neboť má řešení plánu V, takže při hledání zaměnitelných dvojic, například k A, máme a. A = BE b. A = BCDE V případě b) tvoří zaměnitelnou dvojici s A interakce více faktorů, která má proto menší podíl na celkovém efektu, u více než dvou faktorů dokonce tak malý, že se zanedbává a pracuje se jen (zde) s faktorem A. Tím se usnadňuje diskuse k vypočítanému efektu: přesto, že efekt náleží dvěma faktorům, podstatná část připadá na „čistý“ faktor a prakticky zanedbatelná část na interakci. * SHRNUTÍ KAPITOLY ČÁSTEČNÝ FAKTOROVÝ EXPERIMENT SE DVĚMA ÚROVNĚMI Po prostudování této kapitoly jste se dověděli, že u částečného faktorového experimentu se plán sestaví jen pro několik faktorů – to jsou hlavní faktory a ostatní – vedlejší faktory se vyjádří jako jejich kombinace, čímž se dosáhne snížení počtu pokusů. Seznámili jste se také s grafickou metodou pro určení vlivných faktorů v polovičním plánu a také víte, že volbou definiční rovnice lze ovlivnit kombinaci daných „slov“, protože se využívá poznatku, že čím delší je „slovo“, tím menší má vliv. Poznali jsme pojmy jako: hlavní faktory, vedlejší faktory, poloviční plány, zaměnitelné dvojice, definiční rovnice. Shrnutí kapitoly ŘEŠENÝ PŘÍKLAD 9-3 Pro faktory A, B, C, D byl sestaven poloviční plán. a. doplňte chybějící údaj v tabulce, Doplnění hodnoty Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 144 b. pomocí grafické metody rozhodněte, který faktor(y) je statisticky významný. Vypočtené hodnoty jsou v následující tabulce 5. efekty i iP A + BCD 1 3 35,7143 B + ACD -0,5 2 21,4286 C + ABD -4 1 D + ABC 3 4 50 AB + CD 9 6 78,5714 AC + BD 6 5 64,2857 AD + BC 17 7 92,8571 Tab. 5 Hodnoty efektů a pravděpodobností Řešení příkladu a. Chybějící hodnotu v tabulce vypočteme na základě vztahu (8-4)   m i Pi 5,0100   . Dostáváme   14,7 7 5,01100 1   P . b. Z grafu na obr. 9-3 vyplývá, že statisticky významné jsou interakce AD, BC a faktor C. Obrázek 9-3: Grafické hodnocení významnosti faktorů Obr. 9-3: Grafické hodnocení významnosti fak- torů * 0 20 40 60 80 100 -5 0 5 10 15 20 efekt P(i) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 145 ŘEŠENÝ PŘÍKLAD 9-4 Víme-li, že dvojice AB je zaměnitelná s CD, co platí pro efekty interakcí AB a CD ? Řešení příkladu Pro efekty interakcí AB a CD platí v případě zaměnitelných dvojic rovnost. * ŘEŠENÝ PŘÍKLAD 9-5 Pro faktory A, B, C, D byl sestaven částečný (poloviční) plán s generátorem D = ABC. Výsledky experimentu jsou v tabulce 6. a. Vypočtěte efekt jednotlivých faktorů a interakce trojic a čtveřice. b. Pomocí interakcí 3 a 4 odhadněte rozptyl efektu faktorů. c. Napište definiční rovnici a najděte všechny zaměnitelné dvojice. d. Proveďte grafické hodnocení efektu faktoru. A B C D = ABC Y ABC ABD BCD ACD ABCD - - - - 77 + - - + 67 - + - + 64 + + - - 51 - - + + 64 + - + - 53 - + + - 73 + + + + 67 Tab.6 Výsledky experimentu v polovičním plánu Poloviční plán Řešení příkladu a. V tabulce doplňme znaménka a vypočtěme efekty znaménkovou metodou:   BCDA ee  106773536451646777 4 1 ; ACDB ee  5,1 ; ABDC ee  5,0 ; ABCD ee  2 ; 129ABCDe b. Pokud se pokusy neopakují, pak 2 s se vypočte jako průměr druhých mocnin efektu nejvyšších interakcí. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 146       9,4075,1674 .4 5,3349 5 1295,1105,02 2 2 22222 2     ee s n s s s c. Po vyjádření faktoru D = ABC má definiční rovnice tvar: I = ABCD. Zaměnitelné dvojice jsou AB, CD; AC, BD; AD, BC. d. Sestavíme tabulku 7 a pak na osu x naneseme efekty faktorů a na osu y pravděpodobnosti dané vztahem:   m i Pi 5,0100   , mi ,...,2,1 Faktor Efekt i Pi A + BCD -20 1 7,14 B + ACD -3 2 21,42 C + ABD -1 3 35,71 D + ABC 4 6 78,57 AB + CD 1 4 50 AC + BD 3 5 64,28 AD + BC 26 7 92,85 Tab.7 Efekty faktorů v obou polovičních plánech Připomínáme, že v tabulce jsou uváděny efekty pro součet. Ve sloupci „faktor“ v tabulce jsou uvedeny součty proto, že snížením počtu pokusů dochází k tomu, že některé posloupnosti znamének u interakci faktorů jsou stejné. Obecně platí, že čím delší je slovo, tím menší má efekt. Obrázek 9-4: Grafické hodnocení významnosti faktorů Obr. 9-4: Grafické hodnocení významnosti fak- torů 0 20 40 60 80 100 -40 -20 0 20 40 efekt P(i) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 147 Z grafu vidíme, že mimo hlavní linii leží body zobrazující faktory interakcí AD, BC a faktor A s interakcí trojice BCD. Protože platí, že čím delší slovo, tím menší efekt faktor má, je statisticky významný faktor A a interakce dvojic AD, BC. * KONTROLNÍ TEST 9 9.1 U částečného faktorového experimentu se plán sestaví pro každý faktor. 9.2 Pro operace s faktory neplatí pro násobení komutativní zákon. 9.3 Je-li generátor plánu ve tvaru D= BC, pak definiční rovnice bude I=ABCD. 9.4 Jsou-li u interakcí ABC a DE stejné posloupnosti znamének, pak také efekt (počítaný znaménkovou metodou) je stejný. 9.5 Při sestavování polovičních plánů se jeden z faktorů vyjádří jako interakce všech ostat- ních. Ano či ne? 9.6 Vedlejší faktory se vyjadřují jako __________ hlavních faktorů. 9.7 Částečné faktorové plány lze rozdělit na plány s __________ snížením, plány s __________ snížením a plány __________. 9.8 Pro faktor A platí: AI = IA = ___, kde I je jednotkový faktor. 9.9 Dvojice faktorů, které tvoří stejné posloupnosti znamének se nazývají __________ 9.10 Numerické hodnoty efektů faktorů a jejich interakcí v úplném a v polovičním plánu __________ stejné. Doplňte 9.11 Napište poloviční plán pro faktory A, B, C, D. Generátor volte B=ACD. Vypočítejte efekt faktoru C, jsou-li výsledky pokusů, které se dvakrát opakovaly tyto: výsledky prvé série: 10,11,14,12,12,10,13,14 výsledky druhé série: 11,12,12,8,14,12,13,14. 9.12 Pro faktory A, B, C, D se má sestavit plán 24-1 . Generátor volte podle vlastního uvážení. Vypočítejte odhad s2 , 2 es , jestliže se prováděly dvě série (opakování) pokusů s výsledky: v prvé sérii: 10,11,11,8,9,10,11,10 ve druhé sérii: 9,10,10,9,8,11,12,9. 9.13 Pro faktory A, B, C, D byl sestaven poloviční plán. a) doplňte chybějící údaje v tabulce 8, b) pomocí grafické metody rozhodněte, který faktor je statisticky významný Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 148 efekty i iP A + BCD 1 B + ACD -8 C + ABD -10 D + ABC 4 AB + CD 9 AC + BD 7 AD + BC 5 ŘEŠENÍ KONTROLNÍHO TESTU 9 9.1 ne 9.2 ne 9.3 ano 9.4 ano 9.5 ne Ano či ne? 9.6 kombinace 9.7 nejnižším, nejvyšším, středové 9.8 A 9.9 zaměnitelné 9.10 nejsou Doplňte 9.11 1Ce 9.12 5,0 8 5,0.82 s 125,0 16 5,0.42 es 9.13 a. efekty i iP A + BCD 1 3 35,71 B + ACD -8 2 21,42 C + ABD -10 1 7,14 D + ABC 4 4 50 AB + CD 9 7 92,85 AC + BD 7 6 78,57 AD + BC 5 5 64,28 Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 149 b. Významné jsou faktory B, C. 0 20 40 60 80 100 -15 -10 -5 0 5 10 efekt P(i) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 150 10 TAGUCHIHO METODY: ZTRÁTOVÁ FUNKCE CÍLE KAPITOLY TAGUCHIHO METODY: ZTRÁTOVÁ FUNKCE Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  definovat ztrátovou funkci,  správně zvolit ztrátovou funkci pro různé typy tolerance,  graficky znázornit průběh ztrátové funkce Budete umět Získáte:  znalost vlastnosti ztrátové funkce Získáte Budete schopni:  vypočítat prakticky zaměřené úlohy, ve kterých se ztrátová funkce využívá. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny PRŮVODCE STUDIEM 13 Taguchiho metody (autorem je dr. Genichi Taguchi) lze rozdělit na metody používané přímo ve výrobním procesu (on line) a v předvýrobních etapách (off line). V kapitolách 10, 11 budeme hovořit pouze o metodách on line. Jejich základním prvkem je tzv. ztrátová funkce (loss function). V této kapitolem vysvětlíme její smysl, konstrukci a použití. V první části kapitoly je uvedena definice a vlastnosti ztrátové funkce, druhá část se zabývá ztrátovou funkci pro různé typy tolerance. V závěru kapitoly jsou uvedeny řešené příklady a samozřejmě Vás čekají i otázky typu „Ano či ne?“, otázky doplňovací a neřešené příklady. Vše jistě hravě zvládnete, pokud pečlivě prostudujete tuto kapitolu. Taguchiho metody jsou založeny na principu plánování experimentů za účelem dosažení bližších optimálních kvalitativních charakteristik pro specifické cíle. Jejich význam je často snižován akademickou obcí pro jejich technické nedostatky, které však mohou být zlepšeny užitím metodologie odpovědného povrchu – Response surface methodology. Taguchiho metody nejsou pouze statistickou aplikací plánování experimentů, ale zahrnují také integraci statistického plánování experimentů do inženýrského procesu. Skutečná síla Taguchiho metod přichází z jednoduchosti jejich uskutečnění. Často jsou aplikovány techniky v japonských výrobnách k zlepšení jejich produktu a procesů. Cílem není pouze optimalizovat rozhodující předmětnou funkci, tak, jak jsou často užívány v USA, ale též redukce citlivosti inženýrských plánů na nekontrolovatelné faktory či hluky. Spojení jakosti s náklady pomocí Tachuchiho ztrátové funkce (Taguchi loss function) bylo hlavní výhodou v jakostním inženýrství, stejně tak při schopnosti plánovat náklady. Tvrdí se, že Taguchiho metody přispěly až 80% japonským ziskům na jakosti. Taguchiho metodám se také říká Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 151 mohutné (silné) plánování. 10.1 Definice a vlastnosti ztrátové funkce DEFINICE 10-1 Dříve, než uvedeme definiční rovnici, graf a vlastnosti této funkce, si musíme důkladně uvědomit předpoklady, které by měly být splněny, chceme-li ztrátovou funkci použít. Vyslovíme je v jakýchsi čtyřech výchozích postulátech a je na každém, kdo chce dále uvedené metody používat aby se zamyslel, zda jsou v jeho podmínkách přijatelné: Předpo- klady ztrátové funkce 1. U každého výrobku je sledována jeho určitá charakteristika (např.rozměr, váha, mechanické, chemické, estetické nebo jiné vlastnosti), podle které posuzujeme jeho kvalitu. 2. Tato charakteristika má stanovenu jistou optimální hodnotu T, tzv.cílovou hodnotu (target value). 3. Nekvalita se projevuje odchylkami od T . 4. Jakákoliv odchylka od T představuje určitou finanční ztrátu, která se projeví u odběratele zvýšenými náklady na provoz, údržbu, opravy, ekologii a pod. Prvé tři předpoklady nejsou neobvyklé. Novým prvkem však je, že podle čtvrtého předpokladu nepovažuje Taguchi výrobky pohybující se v mezích tolerance za stejně kvalitní a bezztrátové. Naopak, jakákoliv odchylka od T přináší ztráty. Jejich vyčíslení je smyslem ztrátové funkce. Matematické vyjádření ztrátové funkce má tvar Rovnice ztrátové funkce    2 TYkYL  (10-1) T = cílová hodnota charakteristiky kvality, Y = skutečně dosažená úroveň charakteristiky kvality, L(Y) = ztráta způsobená odchylkou od T, k = konstanta. Grafem této funkce je parabola podle obr.10-1, hodnota parametru d představuje funkční tole- ranci. Obrázek 10-1: Ztrátová funkce Obr. 10-1: Ztrátová funkce Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 152 Z obr.10-1 je vidět, že jestliže Y dosáhne nebo překročí dolní toleranční hranici, tj. je-li dTY  resp. dTY  tzn. TYd  , pak   AYL  . Můžeme proto psát: 2 kdA  (10-2) Protože parametry d (funkční tolerance) A (mezní ztráta = ztráta při překročení d) jsou obvykle známy, lze použít rovnici (10-2) k výpočtu neznámé konstanty 2 d A k  . ŘEŠENÝ PŘÍKLAD 10-1 Napište rovnici ztrátové funkce, je-li funkční tolerance d = 5 a mezní ztráta A = 2 Řešení příkladu Podle vztahu (10-2) dostáváme 08,0 5 2 2 k a rovnice ztrátové funkce    2 08,0 TYYL  . Z hlediska teorie pravděpodobnosti je Y (skutečně dosažená hodnota ukazatele jakosti) náhodná proměnná, která má nejčastěji normální rozdělení  2 ,sYN . Často nás více než ztráta L(Y), odpovídající konkrétní odchylce Y od T, zajímá průměrná ztráta , kterou označíme E(L). Vzorec pro zjištění E(L) můžeme získat z rovnice (10- 1) tak, že vypočítáme střední hodnotu Průměrná ztráta       222 ksTYkETYkELE  , (10-3) za předpokladu, že E(Y) = T, což prakticky znamená, že průměr ze skutečně dosažených hodnot sledovaného ukazatele kvality Y je roven žádané hodnotě T. Je-li však      22 TYkksLETYE  (10-4) Máme tedy celkem tři modifikace ztrátové funkce: a. definiční rovnice    2 TYkYL  , b. rovnice pro výpočet konstanty k 2 kdA  , Modifikace ztrátové funkce Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 153 c. rovnice pro určení průměrné ztráty      222 ; TYkksLEksLE  . Ztrátovou funkci lze využít k mnohem komplexnějšímu vyčíslení nákladů na jakost tím, že uvážíme všechny ztráty související se zajišťováním jakosti, kde je zahrnuta cena za opravy, náklady na kontrolu, ztráty za zmetky, za nepřesnosti měření a nepřesnosti ve výrobě. Této problematice je věnována kapitola 11. Ztrátová funkce může být při řešení uvedených problémů aplikována nejen pro případ jediného ukazatele jakosti, ale i ve složitějších situacích, kdy Y je závislé na mnoha dalších faktorech X1,X2,...,Xk a dokonce i tehdy, když ukazatel jakosti nelze měřit, např.při posuzování estetických vlastností apod. * 10.2 Ztrátová funkce pro různé typy tolerance Protože se v následujících příkladech vyskytují různé typy tolerancí, uvedeme nejprve jejich klasifikaci. U různých typů tolerance jsou také příslušné grafy ztrátových funkcí. Podle toho, co je v dané situaci považováno za optimální cílovou hodnotu T, rozlišujeme tyto typy tolerance: DEFINICE 10-2 Ideálem je dosažení cílové hodnoty T. 1. tolerance typu N (Nominal) Obrázek 10-2: Symetrická N-tolerance Obr. 10-2: Symetrická N- tolerance Píšeme T  d, d = tolerance, (T-d, T+d) = toleranční interval. Tato tolerance nemusí být symetrická, jak ukazuje obr.10-3. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 154 Obrázek 10-3: Nesymetrická N-tolerance Obr. 10-3: Nesymetrická N- tolerance Zde je toleranční interval (T - d1,T + d2). Z grafu vidíme, že tolerance d1 a d2 jsou různé, stejně jako A1 a A2. Například nedodržení průměru nad d2 lze opravit, kdežto pod d1 nikoliv, takže ztráta A1 je větší než A2. DEFINICE 10-3 Tolerance typu S (smaller): Y je tím lepší, čím je menší. Ideálem je T = 0. Tolerance typu S (Smaller) Obrázek 10-4: S-tolerance Obr. 10-4: S- tolerance Příkladem veličiny Y s tolerancí S může být například drsnost povrchu, nebo nečistota v ovzduší, kde je stanovena jen horní přípustná hranice a samozřejmě platí, že čím menší hodnoty je dosaženo, tím lépe. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 155 DEFINICE 10-4 Tolerance typu L (larger): T je tím lepší, čím je větší. Ideálem je T . Tolerance typu L (Larger) V případě L tolerance se průměrná ztráta počítá podle vzorce   22 .. zy sdALE  , (10-5) kde  2 2 11 Yn sz . (10-6) Při konstrukci ztrátové funkce jsme vycházeli ze čtyř postulátů, jejichž splnění je nutnou podmínkou pro aplikace této funkce. Připomeňme, že podle čtvrtého postulátu přináší nedodržení cílové hodnoty T odběrateli ztráty. Nyní se zaměříme na finanční vyjádření těchto ztrát s použitím ztrátové funkce. Jedná se o její nejzákladnější použití. Další možné aplikace budou uvedeny v následujících kapitolách. ŘEŠENÝ PŘÍKLAD 10-2 Při výrobě hřídelí je předepsaný rozměr 150mm a tolerance je 4mm. Nedodržení tolerance způsobí ztrátu 40 Kč. Určete průměrnou ztrátu a porovnejte ztráty za nekvalitu u dvou výrobců: první se spokojí s dodržením tolerance, druhý usiluje o maximální přiblížení k optimální hodnotě T. Hřídel – dva výrob- ci Řešení příkladu Jsou známy tyto parametry: A (ztráta při překročení d) = 40 Kč, d (funkční tolerance) = 4mm, T (cílová hodnota) = 150mm. Pro ztrátovou funkci určíme nejprve konstantu k ze vztahu (10-2): 5,2 4 40 22  d A k . Průměrná ztráta za nedodržení T podle (10-3) bude:   22 5,2 sksLE  Protože nemáme k dispozici výsledky měření při kontrole hřídelí, je potřeba rozptyl od- hadnout. Usiluje-li druhý výrobce o to, aby co nejčastěji dosahoval hodnoty T =150 znamená to, že odchylky Y od této hodnoty budou pravděpodobně rozděleny podle Gaussovy křivky. Tedy nejčetnější je hodnota T = 150 a čím je odchylka Y od T větší, tím je hodnota méně četná. Směrodatnou odchylku zde odhadneme pomocí vztahu: 33,1 6 4.2 6 .2  tolerance s . Poznámka. Předpokládá se, že u normálního rozdělení je toleranční interval roven šestinásobku smě- Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 156 rodatné odchylky. První výrobce se spokojuje s dodržením tolerance což znamená, že v tolerančním intervalu (T - 4,T + 4) = (154, 146) může mít vyrobenou hodnotu v kterémkoliv místě se stejnými četnostmi. Říkáme, že Y má rovnoměrné rozdělení. Směrodatnou odchylku v tomto případě určíme ze vztahu 31,2 12 8 12 146154   s . Poznámka. U rovnoměrného rozdělení  baR , je rozptyl dán vztahem 12 )( 2 2 ab s   . Průměrné ztráty tedy budou: 1. výrobce:   34,1331,2.5,2 22  ksLE , 2. výrobce:   42,433,1.5,2 22  ksLE . Je vidět, že filozofie „stačí dodržovat toleranci“ není správná, neboť ztráty za nekvalitu jsou dokonce třikrát větší. Rovno- měrné rozdělení Z rovnice   2 2 s d A LE  je zřejmé, že průměrné ztráty za nekvalitu závisí nejen na rozptylu, ale také na A a d. Jestliže velikost rozptylu je určena dělníkem, pak parametry A a d stanoví konstruktér. Ten by měl navrhnou výrobek tak, aby byl robustní, tj.odolný vůči nepřesnostem výroby. Znamená to, že a. nedodržení T by mělo způsobit co nejmenší ztrátu, jinými slovy, A by mělo být co nejmenší. Je-li zde A = 40 a sníží se o 50%, bude při stejném s = 1,33 25,1 4 20 22  d A k E(L) = k.s2 = 1,25 . 1,332 = 2,21 Kč/ks. Co nej- menší hodnota parametru A b. výrobek by měl být funkční v široké toleranci, tedy mělo by být dosti velké d. Jeli d = 8, pak konstanta 2 8 40 k a při s = 1,33 bude E(L) = k.s2 = 0,625.1,332 = 1,1 Kč/ks. Co nej- menší hodnota parametru d Otázka správného stanovení tolerance je důležitým předpokladem použití ztrátové funkce. Rozptyl lze ovšem snížit i v případě, že odchylky Y od T mají žádané normální rozdělení. Uvažujme například o snížení rozptylu 22 33,1s o 30% tj. na 1,332 . 0,70, přičemž toto zlepšení stojí 50 haléřů na kus. Snížení rozptylu přinese menší ztráty za nekvalitu. Pro k = 2,5: E(L) = 2,5 . 1,332 . 0,70 = 3,096 Kč/ks. K tomu je nutno připočítat náklady na snížení rozptylu, takže celkově bude E(L) = 3,096 + 0,50 = 3,596 Kč/ks. To je stále méně než při rozptylu 22 33,1s takže lze tuto úpravu doporučit. * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 157 SHRNUTÍ KAPITOLY TAGUCHIHO METODY: ZTRÁTOVÁ FUNKCE Po prostudování této kapitoly jste získali informace o ztrátové funkci. Také víte, že u každého výrobku je sledována jeho určitá charakteristika, podle které posuzujeme jeho kvalitu. Tato charakteristika má jistou optimální hodnotu a nekvalita se projevuje odchylkami od této hodnoty. Jakákoliv odchylka od této hodnoty představuje určitou ztrátu, která se projeví u odběratele zvýšenými náklady na provoz apod. Podle toho, co je v dané situaci považováno za optimální cílovou hodnotu T, rozlišujeme tři typy tolerance: 1. Tolerance typu N (nominal): ideálem je dosažení cílové hodnoty T. 2. Tolerance typu S (smaller): Y je tím lepší, čím je menší. Ideálem je T=0. 3. Tolerance typu L (larger): T je tím lepší, čím je větší. Ideálem je T . Shrnutí kapitoly ŘEŠENÝ PŘÍKLAD 10-3 U vyráběných hřídelí se sleduje průměr a délka, přičemž průměr má být T1 = 25  1 a délka T2 =100  2. Nedodržení tolerance pro průměr stojí 40 Kč, pro délku 30 Kč. K dispozici jsou výsledky kontroly deseti hřídelí. Výsledky kontroly pro průměr: 25.1, 25, 25, 24.9, 25.1, 25, 24.9, 25, 25.1, 24.9 Výsledky kontroly pro délku: 99.9, 99.9, 99.8, 100.2, 100, 100, 100.1, 98, 99.9, 100.2 Porovnejte kvalitu výroby při dodržování sledovaných rozměrů. Hřídel Řešení příkladu Průměr: T1 = 125  , A1 = 40, d1 = 1        006,0259,24...2525251,25 10 1 2222 s 24,0006,0 1 40 )( 2 LE Kč/ks Délka: T2 = 100  2, A2 = 30, d2 = 2      02,01002,100...1009,99 10 1 222 s 15,002,0 2 30 )( 2 LE Kč/ks Na základě výsledků lze konstatovat, že lepší kvalita je při výrobě délek. Celkové ztráty za nekvalitu jsou 0,24 + 0,15 = 0,39 Kč/ks. * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 158 ŘEŠENÝ PŘÍKLAD 10-4 Při výrobě bubnů automatických praček byla předepsána tolerance 30 -1, 30+4. Nedodržení dolní tolerance stojí 50 Kč, u horní tolerance 100 Kč, neboť buben nelze na- montovat. Vypočítejte ztrátu za nekvalitu u pracovníků A a B, máte-li k dispozici tyto výsledky kon- troly: Pracovník odchylka A 0, 0, -1, 3, 0, 4, 2, -1, 0, 1, 2, 4 B -1,-1, 0, 0, 0, 3, 2, -1, 1, 2, 0 Automatické prač- ky Řešení příkladu Parametry: A1 = 50, A2 = 100, d1 = -1, d2 = 4. Pracovník A:                    222222 2 22 21 421243 4 100 11 1 50 12 1 )(LE   375,341 LE Kč/ks Pracovník B:                      2222 2 222 22 2123 4 100 111 1 50 11 1 )(LE   864,232 LE Kč/ks Pracovník B odvádí kvalitnější práci než pracovník A. * ŘEŠENÝ PŘÍKLAD 10-5 Kuličky do ložisek se vyrábějí na dvou pracovištích: Pracoviště A zajišťuje průměr kuliček 4,0T . Pracoviště B zodpovídá za požadovanou tvrdost kuliček 1T . Denně se vyrobí 50000 kuliček, cena jedné je 0,60 Kč. Při nedodržení kterékoliv tolerance se kulička vyřadí. Při kontrole byly získány tyto odchylky od předepsaných hodnot: Odchylky od průměru: -0.3, 0.1, 0.2, 0, 0, -0.2, -0.1, 0, 0.4, 0.1, -0.1, 0, 0, 0.1, -0.2 Výsledky kontroly pro délku: 0, 0, 1, -0.8, -0.8, 0, 0.6, 0.7, 0, -0.3, -0.2, 0, 0, 1, 0.2 Posuďte úroveň kvality těchto dvou pracovišť. Ložiska Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 159 Řešení příkladu 1. Průměr kuliček Parametry: A = 0,6; d = 0,4. Rozptyl při kontrole průměrů      028,0 15 42,0 2,0...1,03,0 15 1 2222 s Průměrné ztráty za nekvalitu (Kč/ks): 105,0028,0. 4,0 6,0 )( 2 2 2  s d A LE Kč/ks Denní ztráta za nekvalitu je 50 000 . 0,105 = 5 250 Kč. 2. Tvrdost kuliček. Parametry: A = 0,6 ; d = 1 Rozptyl při kontrole tvrdosti (počítá se s odchylkami) 2 2 21 0 ... 0, 2 0, 287 15 s       Průměrné ztráty za nekvalitu (Kč/ks) 172,0287,0 1 6.0 )( 2 LE Kč/ks Denní ztráty jsou 50 000 . 0,172 = 8 600 Kč. * ŘEŠENÝ PŘÍKLAD 10-6 Při povrchové úpravě pístů je maximální povolená drsnost povrchu 10 tis.mm. Při překročení této tolerance je povrch znovu upraven nákladem 200 Kč. Povrch upravují dva pracovníci. Posuďte úroveň jejich práce na základě výsledků kontroly: Pracovník povrch 1 0, 1, 9, 6, 10, 2, 3, 0, 9 2 3, 2, 4, 4, 5, 2, 4, 6, 5, 3 Písty Řešení příkladu Parametry: A = 200, d = 10 (S-typ tolerance) 1. pracovník: 9 12 s ( 02 + 12 + 92 + 62 + ... + 92 ) = 34,67 34,6967,34 10 200 .)( 2 2 2  s d A LE   34,69LE Kč/ks. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 160 2. pracovník: 10 12 s (32 + 22 + 42 + ... + 52 + 32 ) = 16   3216. 10 200 2 LE Kč/ks. Druhý pracovník odvádí kvalitnější práci. * ŘEŠENÝ PŘÍKLAD 10-7 Výrobci horolezeckých lan je stanovena dolní hranice pevnosti lana v tahu na 300 kg. Ztráta při překročení této hranice je 50 Kč na metr. Týdně se vyrobí 100 000 m. Porovnejte dvě technologie výroby, máte-li k dispozici tyto údaje: technologie pevnost lana 1 305, 350, 350, 410, 310, 300, 350, 400 2 305, 301, 308, 306, 300, 320, 310, 310, 320, 325 Horolezecká lana Řešení příkladu Parametry: A = 50, d = 300. Jedná se o L - typ tolerance. 1. technologie Rozptyl na základě vztahu (10-6): 6 222 2 1 10.62,8 400 1 ... 350 1 305 1 8 1        s . Průměrná ztráta je dána vztahem (10-5):    62 1 10.62,8.300.50LE 38,79 Kč/m. 2. technologie Rozptyl: 5 222 2 2 10.03,1 400 1 ... 301 1 305 1 10 1        s . Průměrná ztráta:    52 2 10.03,1.300.50LE 46,76 Kč/m. Můžeme tedy říci, že první technologií se vyrábí lana s pevností v průměru větší E1= 346,88 kg , E2 = 310,5 kg a s menším rozptylem ,10.62,8 62 1  s 52 2 10.03,1  s , proto také u první technologie jsou menší ztráty za nekvalitu E(L1) = 38,79 Kč/m, E(L2) = 46,76 Kč/m. * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 161 KONTROLNÍ TEST 10 10.1 Matematické vyjádření ztrátové funkce má tvar     2 L Y k Y T  . 10.2 Příkladem veličiny Y s tolerancí typu S může být pevnost lana. 10.3 U každého výrobku je dána určitá charakteristika, která má jistou optimální hodnotu a nekvalita se projevuje odchylkami od této hodnoty. 10.4 U tolerance typu N, je ideálem dosažení menší hodnoty než je cílová hodnota T. 10.5 Grafem ztrátové funkce je parabola. Ano či ne? 10.6 Jakákoliv odchylka od cílové hodnoty T přináší __________ . 10.7 U každého výrobku je sledována jeho určitá __________, podle které posuzujeme jeho kvalitu. 10.8 Matematické vyjádření ztrátové funkce má tvar __________ 10.9 Podle toho,co je v dané situaci považováno za optimální cílovou hodnotu T, rozlišujeme tyto typy tolerance: __________, __________, __________. 10.10 U tolerance typu S, je ideálem dosažení cílové hodnoty T = __________. Doplňte 10.11 U určitého výrobku se sleduje průměr a hmotnost, přičemž průměr má být T1 = 20cm  1 a hmotnost T2 =100g  2. Nedodržení tolerance pro průměr stojí 20 Kč, pro hmotnost 30 Kč. K dispozici jsou výsledky kontroly deseti výrobků. Výsledky kontroly pro průměr: 20.1, 20, 20, 19.9, 20.1, 20, 19.9, 20, 20.1, 19.9. Výsledky kontroly pro hmotnost: 99.9, 99.9, 99.8, 100.2, 100, 100, 100.1, 9.8, 99.9, 100.2 Porovnejte kvalitu výroby při dodržování sledovaných rozměrů. 10.12 Při výrobě odlučovačích filtrů je stanoveno maximální možné procento propustnosti 10%. Kontrola filtrů u 2 výrobců přinesla tyto výsledky: Podnik % propustnosti A 3, 9, 9, 7, 1 B 8, 8, 1, 1, 2, 5. Překročení tolerance stojí u podniku A 600 Kč a u podniku B 700 Kč. Který výrobce je kvalit- nější? Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 162 ŘEŠENÍ KONTROLNÍHO TESTU 10 10. 1 ano 10. 2 ne 10. 3 ano 10. 4 ne 10. 5 ano Ano či ne? 10. 6 ztráty 10. 7 charakteristika 10. 8     2 L Y k Y T  10. 9 N (nominal), S (smaller), L (larger) 10. 10 0 Doplňte 10. 11 Průměr:   0,12E L  Kč/ks; Hmotnost:   0,15E L  Kč/ks 10. 12 Podnik A:   265,2E L  Kč/ks; Podnik B:   185,5E L  Kč/ks Řešte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 163 11 TAGUCHIHO METODY: CELKOVÉ NÁKLADY NA JAKOST CÍLE KAPITOLY TAGUCHIHO METODY: CELKOVÉ NÁKLADY NA JAKOST Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  definovat vztahy pro výpočet celkových nákladů na jakost,  odpovědět na otázku, jak často se má provádět kontrola, jestliže se neprovádí 100% kon- trola Budete umět Získáte:  znalost postupu při konstrukci regulačního diagramu Získáte Budete schopni:  správně odhadnout průměrný počet výrobků mezi dvěma poruchami,  definovat pojem regulační diagram. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 4 hodiny. PRŮVODCE STUDIEM 14 V předcházející kapitole jsme se seznámili s Taguchiho metodami a s pojmem ztrátová funkce. V této kapitole se dovíme něco o celkových nákladech na jakost a regulačních diagramech. Kapitola je členěna do tří částí. První část je věnována monitorování nákladů na jakost, ve druhé části je uveden vztah pro výpočet celkových nákladů na jakost, jestliže se provádí 100% kontrola procesu, část třetí je věnována vztahu pro celkové náklady na jakost, jestliže se provádí kontrola procesu po n výrobcích a v části čtvrté jsou definovány regulační diagramy. Základní vztah nebyl Taguchim odvozen, ale navržen. Zachycuje autorovy zkušenosti, které vyjádřil matematickými prostředky. V této kapitole opět najdete řešené i neřešené příklady. DEFINICE 11-1 Zabezpečování jakosti není pouze ryze technickým a organizačním problémem, ale i důležitou ekonomickou otázkou, je tedy klíčovým prvkem managementu jakosti. Každý výrobce produkuje své výrobky za spotřeby určitých výrobních nákladů, které posléze umístí na trh za cenu, která mu tyto náklady nejen pokryje, ale zabezpečí i určitý zisk. Pomineme-li mezičlánek různých prodejních organizací, pořizovací cena výroku se pro uživatele stává první investicí, jejíž vynaložení je nutné, aby výrobek uživateli přinášel pozitivní efekty. Použí Podstata a význam ekonomiky jakost Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 164 Používání výrobku s sebou přináší také další výdaje – provozní náklady, např. pohonné hmoty, elektřina, jednotlivé části výrobku, které je třeba v průběhu života vyměňovat. Patří sem také ztráty z nedisponibility výrobku a náklady na servis. Součet těchto položek představuje tzv. náklady na životní cyklus. V nákladech na výrobek se dále uvažují náklady na jakost. Vhodnou péčí o jakost můžeme dosáhnout při stejné ceně snížení nákladů na výrobek a tím také růst zisku. Zvyšování jakosti bude z pohledu zákazníků tak atraktivní, že budou ochotni akceptovat i vyšší ceny, a snížení provozních nákladů a zejména ztrát z nedisponibility každý zákazník rád uvítá. Rámcem ekonomiky jakosti je především monitorování nákladů na jakost, sledování přínosů zlepšování jakosti a také tvorba cen produktů v závislosti na jejich jakosti. Pomocí monitoringu jsme schopni zjistit velikost ztrát vyvolaných nedostatky v jakosti, sledovat vliv jakosti na výsledky podnikání a odhalovat ty produkty podniku, které jsou díky jakosti nositeli prosperity. i 11.1 Monitorování nákladů na jakost Pojem „náklady na jakost“ může mít několik významů, především výdaje spojené přímo se zajišťováním, případně zlepšováním jakosti, např. výdaje na nákup měřící techniky, nebo také může zahrnovat neproduktivní výdaje, jakými jsou ztráty z neshodných výrobků. Z praktického hlediska je vhodné náklady na jakost rozdělit do tří skupin: - náklady na jakost u výrobce, - náklady na jakost u uživatele, - společenské náklady na jakost. PRŮVODCE TEXTEM V této studijní opoře se budeme věnovat nákladům na jakost u výrobce. DEFINICE 11-2 Náklady na jakost u výrobce jsou výdaje vynaložené výrobcem a spojené s prevencí, hodnocením a vadami, aby bylo dosaženo požadavků jakosti v průběhu marketingu, vývoje, zásobování, výroby, instalace a užití. Jejich monitoring představuje velice účinný nástroj managementu jakosti, protože má možnosti odkrývání všech příležitostí ke zlepšování. Popišme nyní způsoby monitoringu s využitím 1) tzv. PAF modelů, 2) aplikaci modelu tzv. procesních nákladů, 3) využití Taguchiho ztrátové funkce. Náklady na jakost u výrobce Ad1) PAF modely (Prevention, Appraisal, Failure) Tento model je založený na tom, že se v podniku všechny nákladové položky spojené s jakostí rozdělují do čtyř skupin: náklady na interní vady (vznikají uvnitř firmy v důsledku vad při plnění požadavků na jakost, nedostatky jsou odhaleny ještě před odesláním k zákazníkovi), náklady na externí vady (zde patří reklamace, garanční servis, manipulační náklady, slevy z ceny soudní spory, ztráta trhu a důvěry zákazníků) náklady na hodnocení (jsou to zejména náklady na měření spokojenosti zákazníků, mě- PAF modely Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 165 řící techniku, software, certifikace, náklady na provoz podnikových i externích zkušeben a labo- ratoří) náklady na prevenci (tato skupina nákladů na jakost by měla vykazovat trvalý růst, patří sem zjišťování požadavků zákazníka, rozvoj systému jakosti, školení, poradenské firmy, plánování jakosti). Ad2) Model procesích nákladů Jedná se o vyšší stupeň monitoringu, který je založen na tom, že se jednotlivé skupiny nákladů nesledují podle konkrétních výrobků, ale výhradně pro určité procesy. Za proces se považuje soubor činností, které transformují hmotné resp. informační vstupy na hmotné a informační výstupy. Tyto náklady se dělí na náklady na shodu, což jsou skutečné náklady na přeměnu vstupů na výstupy, a na náklady na neshodu jako náklady na nevyužitý čas, materiál a kapacity, spojené se vznikem neshod uvnitř procesu. Model procesních nákladů Ad 3) Taguchiho metoda Otázka zvyšování jakosti výrobků je důležitá, ale musíme také brát v úvahu druhou stránku věci, tj. náklady spojené se zajišťováním této jakosti. Jedním ze způsobů minimalizace nákladů na jakost je Taguchiho metoda. Touto problematikou se zabývají kapitoly 11.2 a 11.3. Taguchiho metoda 11.2 Provádí se 100% kontrola procesu DEFINICE 11-3 Provádí-li se 100 % kontrola, pak celkové náklady na jakost určíme ze vzorce 100% kontrola procesu 2 02 s d A R Q L  (11-1) Q = roční náklady na 100 % kontrolu, R = roční produkce v kusech, d = funkční tolerance, vymezující přípustné odchylky od jisté ideální hodnoty, ve které je výrobek ještě vyhovující, A = ztráta při překročení tolerance d,       2 1 2 23 2 12 2 0 ... 1 1    nn yyyyyy n s . PRŮVODCE TEXTEM Aplikace vztahu (11-1) je v následujícím příkladu. ŘEŠENÝ PŘÍKLAD 11-1 Náklady na 100% automatickou kontrolu jsou 25 000 Kč za rok. Roční produkce je 4 000 000 kusů, tolerance je 9 a její překročení stojí 5 Kč. Určete celkové náklady na jakost. Automatická kon- trola Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 166 Řešení příkladu Pomocí výše zavedeného označení máme: Q = 25 000 Kč R = 4 000 000 ks, d = 9, A = 5 Kč, 12 0 s . Dosadíme do vztahu (11-1) a dostáváme: 068,01. 9 5 4000000 25000 2 L Kč/ks. Roční náklady na jakost jsou 4 000 000 . 0,068 = 272 000 Kč. * 11.3 Kontrola procesu se provádí po n jednotkách DEFINICE 11-4 Pokud se neprovádí 100% kontrola a mezi dvěma kontrolami je n-výrobků, určíme celkové náklady pomocí vzorce 2 2 2 2 2 2 2 1 3 ms d A z n u D d AD d A u C n B L          (11-2) A = ztráta při překročení tolerance d, B = cena kontroly výrobku, C = cena opravy stroje (linky), n = kontrolní interval, u = průměrný počet výrobků mezi opravami (poruchami), d = funkční tolerance, vymezující přípustné odchylky od jisté ideální hodnoty, ve které je výrobek ještě vyhovující, D = výrobní tolerance, která je obvykle podnikovým zpřísněním funkční tolerance, z = počet výrobků zhotovených během kontroly, n B = cena kontroly na kus, u C = cena opravy na kus, 3 2 2 D d A = ztráty způsobené nepřesností výroby,         z n u D d A 2 12 2 = ztráty za zmetky, Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 167 2 2 ms d A = ztráty způsobené nepřesností měření. Je třeba říci, že základní vzorec (11-1) nebyl Taguchim odvozen, ale navržen. Můžeme říci, že vzorec je matematickým vyjádřením dlouholetých zkušeností G. Taguchiho, představuje autorovy zkušenosti, vyjádřené matematickými prostředky. Umožňuje také po derivaci podle určité proměnné a jejím položením nule najít optimální hodnoty některých parametrů. Jeho jednotlivé části však mají matematické jádro: tři z pěti sčítanců vycházejí ze ztrátové funkce. Diskutovat lze jistě k celkové skladbě vztahu (11-1) i ke způsobu výpočtu jednotlivých položek. Dále uváděné vzorce (11-3) – (11-5) jsou však již odvozené z těchto výchozích a diskuse k jejich tvaru je bezpředmětná. V případě, že se neprovádí 100% kontrola, vyvstávají tyto přirozené otázky: 1. Jak často kontrolovat? 2. S jakou přesností kontrolovat? DEFINICE 11-5 Uvedené otázky jsou řešeny v následujících vzorcích. Ze vztahu (11-1), který parciálně derivujeme podle n resp. D a derivaci položíme rovnu nule, dostaneme optimální kontrolní interval Optimální kontrolní interval 0 0* 2 D d A Bu n  (11-3) DEFINICE 11-6 a optimální provozní toleranci Optimální provozní tolerance 4 0 22 0* 3 Au dCD D  (11-4) DEFINICE 11-7 Průměrný počet výrobků mezi dvěma poruchami (opravami) odhadujeme vztahem Průměrný počet výrobků 02 0 2* u D D u  (11-5) Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 168 11.4 Regulační diagramy PRŮVODCE STUDIEM 15 Hlavním nástrojem statistické regulace výrobního procesu jsou regulační diagramy (Steward, 1926). Jejich posláním je nepřetržitě monitorovat sledované ukazatele a včas upozornit na zhoršující se stav. To umožní předcházet defektům ve výrobě. I když sledovaným ukazatelem může být podle povahy procesu téměř cokoliv, jsou jisté požadavky, které by měl splňovat. Základním požadavkem je (alespoň pro zde uváděné typy RD), že má normální rozdělení. DEFINICE 11-8 U sledovaného technologického procesu se hodnotí: a. schopnost udržet předepsanou (cílovou) hodnotu, b. míra kolísání (variabilita) kolem cílové hodnoty. Proto se vždy kombinují dva regulační diagramy, každý pro jeden z uvedených atributů. Nejběžnější jsou RD pro dvojice (průměr x , rozpětí R), označovaný dále RD Rx, a (průměr, směrodatná odchylka), tj. RD  sx, . V tomto textu uvádíme regulační diagram pro dvojice (průměr x , rozpětí R). Při konstrukci RD se postupuje v těchto krocích: a. Shromažďují se data (vzorky) v časech t = 1,2, …, m (první sloupec tab.1). b. Z každého vzorku se vypočítají potřebné charakteristiky, např. u RD  Rx, to bude průměr x a rozpětí minmax xxR  . c. Vypočítají se a v grafu znázorní tři údaje: hodnota, která je považována za optimální a také meze, které by sledovaný znak neměl překročit. d. V grafu se znázorňují průměry (svislá osa) odpovídající jednotlivým časům (vodorovná osa). Tím je sestrojen RD x . Podobně se sestrojí RD(s). e. Sleduje se vývoj parametrů a podle zásad o vyhodnocování RD se přijímají potřebná opatření. Jejich podstatu lze charakterizovat takto: parametr by měl vykazovat náhodné kolísání kolem předepsané hodnoty ve vymezených mezích. Jak se počítají tyto meze a předepsaná hodnota, je uvedeno dále. Konstrukce regu- lačních diagramů Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 169 Osa x Osa y i = čas Průměr ix Rozpětí Ri nxxx 11211 ,...,, 1 x1 R1 nxxx 22221 ,...,, 2 x2 R2 nxxx 33231 ,...,, 3 x3 R3 mnmm xxx ,...,, 21 m xm Rm Tab.1 Vzorky a charakteristiky pro konstrukci RD( x ,R) Následující obrázek zachycuje základní čáry RD(R). Obrázek 11-1: Základní čáry RD(R) Obr. 11-1: Základní čáry RD (R) t = 1 t = 2 … t = m 11x 21x 1mx 12x 22x 2mx … … … nx1 nx2 mnx 1R 2R mR Tab.2 Vzorky pro konstrukci RD(R) Označení v grafu: UCL = horní regulační mez (upper control limit), LCL = dolní regulační mez (lower control limit), CL = střední přímka (central line). Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 170 Při použití softwaru musíme vědět: 1. jaký typ RD použít, 2. jak volit parametry RD, a. velikost vzorku (n), b. frekvence vzorkování (h), c. šířka regulačního pásma (L), 3. jak vyhodnotit průběh RD. Výpočet regulačních mezí provádět nebudeme. Přesto je dobré vědět, jak se počítají a to zejména proto, že z výpočtu je zřejmé, za jakých podmínek lze daný RD použít. DEFINICE 11-9 Regulační diagram RD Rx, U RD(R) se počítá rozpětí R. Proto se při výpočtu regulačních mezí RD( x ) využije znalost této hodnoty. a. Pro regulační diagram RD( x ) je RAxLCL 2 , RAxUCL 2 , xCL  kde   m i ix m x 1 1 je průměr z průměrů vzorků, Regulační diagram pro průměr   m i iR m R 1 1 je průměr z rozpětí vzorků. b. Pro regulační diagram RD(R) je RDUCL 4 , RDLCL 3 , RCL  . Konstanty A2, D3, D4 jsou v tabulce 3. n A2 A3 B3 B4 D3 D4 d2 2 1,88 2,550 3,267 3,267 1,128 3 1,023 1,954 2,568 2,574 1,693 4 0,720 1,628 2,265 2,282 2,039 5 0,577 1,427 2,089 2,114 2,326 6 0,483 1,267 0,330 1,970 2,004 2,534 7 0,419 1,182 0,118 1,892 0,076 1,924 2,704 8 0,373 1,029 0,185 1,815 0,136 1,864 2,847 9 0,337 1,032 0,239 1,761 0,184 1,816 2,970 Regulační diagram pro rozpětí Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 171 10 0,308 0,975 0,284 1,716 0,223 1,777 3,078 11 0,285 0,927 0,321 1,679 0,256 1,744 3,173 12 0,265 0,886 0,354 1,646 0,283 1,717 3,258 13 0,249 0,850 0,382 1,618 0,307 1,693 3,336 14 0,235 0,817 0,406 1,594 0,328 1,672 3,407 15 0,223 0,789 0,428 1,572 0,347 1,653 3,472 16 0,212 0,763 0,448 1,552 0,363 1,637 3,532 17 0,203 0,739 0,465 1,534 0,378 1,622 3,558 18 0,194 0,718 0,482 1,518 0,391 1,608 3,640 19 0,187 0,698 0,497 1,503 0,403 1,597 3,689 20 0,080 0,680 0,510 1,490 0,415 1,585 3,735 21 0,173 0,663 0,523 1,477 0,425 1,575 3,778 22 0,167 0,647 0,534 1,466 0,434 1,566 3,719 23 0,162 0,633 0,545 1,455 0,443 1,557 3,858 24 0,157 0,619 0,555 1,445 0,451 1,548 3,859 25 0,153 0,606 0,565 1,435 0,459 1,541 3,931 Tab.3 Konstanty pro výpočet LCL a UCL ŘEŠENÝ PŘÍKLAD 11-2 Vypočítejte UCL, LCL a CL pro RD( x ) a RD(R), je-li dáno: i x R 1 9,9 9,9 11 9,8 10,15 1,2 2 9,1 9,8 9,9 11,2 10 2,1 3 9,6 9,4 10,7 9,9 9,9 1,3 4 10,4 9,4 9,2 9,9 9,725 1,2 5 9,9 10,6 9,6 10 10,03 1 6 10,3 9,8 9,7 9,9 9,925 0,6 7 10,2 11,1 9,6 10 10,23 1,5 suma 69,96 8,9 Tab.4 Vzorky pro konstrukci RD Rx, Řešení příkladu a. Regulační diagram RD( x ): 994,9 1 1   m i ix m x Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 172 271,1 1 1   m i iR m R dolní regulační mez: 915,0271,1.720,0994,92  RAxLCL horní regulační mez: 909,10271,1.720,0994,92  RAxUCL střední přímka: 994,9 xCL b. Regulační diagram RD(R): horní regulační mez: 900,2271,1.282,24  RDUCL dolní regulační mez: 0271,1.03  RDLCL střední přímka: 271,1 RCL * SHRNUTÍ KAPITOLY TAGUCHIHO METODY: CELKOVÉ NÁKLADY NA JAKOST Tato kapitola nás provedla problematikou týkající se celkových nákladů na jakost a byly zde také uvedeny základní informace týkající se regulačních diagramů. Základní vzorec pro celkové náklady na jakost při 100% kontrole procesu nebyl Taguchim odvozen, ale navržen. V tomto vztahu jsou zachyceny autorovy zkušenosti, které vyjádřil matematickými prostředky. V případě, že se neprovádí 100% kontrola procesu, pak je třeba zjistit jak často se má kontrola provádět a s jakou přesností. Regulační diagramy jsou hlavním nástrojem statistické regulace výrobního procesu. Jejich hlavním úkolem je sledovat dané ukazatele a včas upozornit na případně problémy či zhoršující se stav výrobního procesu. Shrnutí kapitoly ŘEŠENÝ PŘÍKLAD 11-3 Lis vyrábí při jednom zdvihu 8 ks výlisků najednou. Cena jednoho je 0,5 Kč. Kontrola se provádí jednou za hodinu vždy u jednoho výrobku dané série tak, že je-li jeden výrobek vadný, vyřadí se všech 8, zastaví se lis a provede se jeho seřízení nákladem 70 Kč. Funkční tolerance je 10 a počáteční výrobní tolerance 4. Za hodinu se vyrobí 480 ks, počet pracovních hodin za rok je 2000. Kontrola trvá 2 min a její cena je 10 Kč. Chybu měření neuvažujeme, počáteční průměrný interval mezi opravami je 4 hodiny. Vypočítejte celkové náklady na jakost, stanovte optimální kontrolní režim a jeho finanční přínos. Lis Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 173 Řešení příkladu Parametry: A = 8.0,5 = 4 Kč B = 10 Kč C = 70 Kč Do= 4 tis. mm d = 10 tis. mm no = 480 ks 162. 60 480 z uo = 4.480 = 1920 ks Dosazením uo, no a Do do vztahu (11-2) vypočítáme celkové náklady na jakost Lo pro vstupní parametry: 356,0 1920 4 ).16 2 1480 ( 10 4 3 4 10 4 1920 70 480 10 2 2 2 20   L 0L = 0,356 Kč/ks. Nyní určíme optimální parametry kontroly a. Podle vztahu (11-3) je optimální kontrolní interval 2409,244 4 10 4 10.1920.2..2*  o o D d A Bu n výrobků, tzn. kontrolu přibližně každou 2 1 hodinu. b. Podle vztahu (11-4) je optimální provozní tolerance 257,2 1920.4 10.4.70.3 . ...3 4 22 4 22 *  o o uA dDC D c. Podle vztahu (11-5) vypočteme průměrný počet výrobků mezi dvěma poruchami 480 4 2 1920 2 2 2 0 2* 0  D D uu výrobků. d. Náklady na jakost při optimálních parametrech jsou dány vztahem (11-1) 287,0 480 2 ).16 2 1240 ( 10 4 3 2 . 10 4 480 70 240 10 ). 2 1 ( 3 2 2 2 2 2** 2 2* 2*       L u D z n d AD d A u C n B L Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 174 Finanční přínos při optimálních parametrech: rozdíl  LL0 0,356 – 0,287 = 0,069 Kč na 1 výrobku, za 1 rok dostáváme úsporu 0,069.480.2000 = 66 240 Kč. * ŘEŠENÝ PŘÍKLAD 11-4 Při nástřiku karosérií automobilů je kontrolována síla nátěru. Předepsaná hodnota je 0m  0,010 mm. Síla však závisí na hustotě barvy, kde je tolerance 4 poise. Při nedodržení síly nátěru se lak přebrušuje nebo přestříkává, což v průměru stojí 70 Kč. Je zjištěno, že změna viskozity o jednotku mění sílu nátěru o 0,5tis.mm, takže b = 0,5. Průměrný interval mezi opravami je 10 000m2 , cena opravy stříkacího automatu je 400 Kč, z = 50 m2 . Počáteční kontrolní interval je 5000 m2 , cena kontroly je 100 Kč. Stanovte optimální kontrolní interval. Síla nátěru Řešení příkladu Parametry: A (ztráta při nedodržení tolerance) = 70 Kč, B (cena kontroly) = 100 Kč, C (cena opravy) = 400 Kč, do (funkční tolerance nátěru) = 0,010 mm, Do (počáteční výrobní tolerance viskozity) = 4 poise, no (počáteční kontrolní interval viskozity) = 5000 m2 , uo (počáteční průměrná nastříkaná plocha mezi opravami), uo = 10000 m2 , z (nastříkaná plocha během kontroly) = 50 m2 , sm se neuvažuje. Funkční tolerance pro X (viskozita):  5,0 010,00 b d d 20 μm. Náklady na jakost pro dané parametry vypočteme ze vztahu (11-2) 2 2 2 2 2 2 2 1 3 ms d A z n u D d AD d A u C n B L          707,150 2 15000 10000 4 20 70 3 4 20 70 10000 400 5000 100 2 2 2 20         L 0L 1,707 Kč/m2 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 175 Optimální kontrolní interval: 0 0* 2 D d A Bu n  , 845 4 20 . 70 100.10000.2* n . Optimální výrobní tolerance: 4 0 22 0* 3 Au dCD D  , 2 2 * 4 3.400.4 .20 1,82 2 70.10000 D    Očekávaná nastříkaná plocha mezi opravami: 02 0 2* u D D u  , 2 2 2 .10000 2500 4 u   m2 . Náklady na jakost při optimálních parametrech kontroly: 2 2 *2* 2 2* 2* 2 1 3 ms d A z n u D d AD d A u C n B L            , 644,050 2 1845 2500 2 20 70 3 2 . 20 70 2500 400 845 100 2 2 2 2         L Úspora v tomto případě je:  LL0 1,707 – 0,644 = 1,063 Kč/m2 . Jestliže se denně nastříká 8000 m2 , je úspora za den 8000.1,063 = 8504 Kč. * KONTROLNÍ TEST 11 11.1 Jestliže se provádí 100% kontrola, pak celkové náklady na jakost jsou dány vztahem 2 02 s d A R Q L  . 11.2 Základní vzorec pro výpočet celkových nákladů na jakost byl Taguchim odvozen a matematicky dokázán. 11.3 U sledovaného technologického procesu se hodnotí jeho schopnost udržet cílovou hodnotu a míra kolísání kolem cílové hodnoty. 11.4 Rozpětí daného souboru dat je dáno vztahem: xxR  max . 11.5 Regulační diagram RD Rx, označuje regulační diagram pro průměr a rozpětí. Ano či ne? Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 176 11.6 Ve vztahu pro celkové náklady na jakost 2 02 s d A R Q L  , se 2 0s __________. 11.7 V případě, že se neprovádí 100% kontroly výrobního procesu, pak se zabýváme tím, jak často __________ a s jakou __________. 11.8 Průměrný počet výrobků mezi dvěma opravami odhadujeme vztahem __________. 11.9 Hlavním nástrojem statistické regulace výrobního procesu jsou __________ __________. Doplňte 11.10 Nejběžnější regulační diagramy jsou pro dvojice: průměr a __________; a průměr a __________ __________. ŘEŠENÍ A ODPOVĚDI 11.1 ano 11.2 ne 11.3 ano 11.4 ne 11.5 ano Ano či ne? 11.6       2 1 2 23 2 12 2 0 ... 1 1    nn yyyyyy n s 11.7 kontrolovat, přesností 11.8 02 0 2* u D D u  11.9 regulační diagramy 11.10 rozpětí, směrodatná odchylka Doplňte Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 177 12 HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ CÍLE KAPITOLY HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ Po úspěšném a aktivním absolvování této KAPITOLY Budete umět:  Pojem způsobilosti výrobního procesu.  Jaké jsou cíle hodnocení způsobilosti.  Jak se provádí výběr vhodného ukazatele.  Předpoklady hodnocení způsobilosti.  Atributy způsobilosti procesu.  Měřitelné charakteristiky kvality.  Indexy způsobilosti. Budete umět Budete schopni:  Vysvětlit, co je způsobilost procesu a jaké jsou cíle hodnocení způsobilosti.  Správně vybrat vhodné ukazatele způsobilosti.  Vyhodnotit předpoklady hodnocení způsobilosti.  Použít měřitelné charakteristiky kvality a indexy způsobilosti. Budete schopni ČAS POTŘEBNÝ KE STUDIU Celkový doporučený čas k prostudování KAPITOLY je cca 3 hodiny. PRŮVODCE STUDIEM 16 Způsobilostí výrobního (též technologického) procesu (anglicky „process capability“) se rozumí jeho schopnost trvale dosahovat předem stanovená kritéria kvality. Je žádoucí vyjadřovat způsobilost kvantitativně, tedy nějakým číselným ukazatelem. Při konstrukci těchto ukazatelů máme určité představy o jejich vlastnostech. Z hlediska výpočtového mezi ně patří zejména jednoduchost, dále srozumitelnost, dobrá vypovídací schopnost, názornost. Dalším požadavkem je široká upotřebitelnost, což znamená co nejméně omezujících podmínek pro jejich použití, stručně řečeno, univerzálnost. Z tohoto hlediska je potřeba říci, že takový univerzální ukazatel se jen těžce hledá a i když existuje poměrně mnoho ukazatelů pro posuzování způsobilosti procesu, každý z nich je použitelný pouze tehdy, jsou-li splněny určité konkrétní předpoklady. Ukazatel způsobilosti musí být samozřejmě konstruován tak, aby hodnotil všechny stránky způ- sobilosti. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 178 12.1 Co je způsobilost procesu Způsobilostí výrobního procesu (process capability) se rozumí jeho schopnost trvale dosahovat předem stanovená kritéria kvality. Je žádoucí vyjadřovat způsobilost kvantitativně, tedy nějakým číselným ukazatelem. Při konstrukci těchto ukazatelů máme určité představy o jejich vlastnostech. Z hlediska výpočtového mezi ně patří zejména jednoduchost, dále srozumitelnost, dobrá vypovídací schopnost, názornost. Dalším požadavkem je široká upotřebitelnost, což znamená co nejméně omezujících podmínek pro jejich použití, stručně řečeno, univerzálnost. Z tohoto hlediska je potřeba říci, že takový univerzální ukazatel se jen těžce hledá a i když existuje poměrně mnoho ukazatelů pro posuzování způsobilosti procesu, každý z nich je použitelný pouze tehdy, jsou-li splněny určité konkrétní předpoklady. Způsobilost proce- su Ukazatel způsobilosti musí být samozřejmě konstruován tak, aby hodnotil všechny stránky způ- sobilosti. Ukazatel způsobi- losti 12.2 Jaké jsou cíle hodnocení způsobilosti Při kvantitativním hodnocení způsobilosti technologického procesu se obvykle sledují tyto dva cíle : Cíle hod- nocení 1. Schopnost procesu udržet cílovou hodnotu T (anglicky „target value“) ukazatele kva- lity. Udržet cílovou hodnotu 2. Přiměřená variabilita dosahovaných hodnot kolem cílové hodnoty. Přiměřená variabilita PRŮVODCE TEXTEM V dalším textu se pokusíme ukázat dva nejpoužívanější ukazatele způsobilosti s jejich klady a zápory a s podmínkami jejich použití. 12.3 Jak se provádí výběr vhodného ukazatele Prvním kriteriem, podle kterého se rozhodujeme a které dělí ukazatele způsobilosti na dvě skupiny je skutečnost, zda se sleduje jeden nebo více ukazatelů kvality. U jednoho pak, je-li to atribut, tedy neměřitelná charakteristika, nebo měřitelná veličina. První kritérium Měřitelné charakteristiky jsou reprezentovány výsledky měření (dále jen měření) výrobku nebo výrobního procesu. Tato měření, která jsou ze statistického hlediska výběrovým souborem, mají ve většině případů normální rozdělení. Předpoklad normality je, jak uvidíme dále, zásadní a musí být ověřen. Podle toho, zda je či není splněn, se pak volí vhodný ukazatel ze skupiny měřitelných. Schematicky můžeme rozdělit ukazatele kvality takto: Nejprve se vybírá index podle počtu znaků kvality, které se sledují: Měřitelné charakte- ristiky Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 179 Počet ukazatelů kvality Jeden znak Více než jeden znak - normálně rozdělené, i vzájemně závislé znaky - nezávislé znaky, rozdělení libovolné, Počet ukazatelů kvality Jeden znak kvality Měřitelné znaky Atributy Normální rozdělení Nenormální rozdělení Jeden znak kvality 12.4 Předpoklady hodnocení způsobilosti Každý z dále uváděných ukazatelů způsobilosti je spolehlivě použitelný pouze při splnění určitých předpokladů. Tyto předpoklady lze rozdělit na a) obecné b) specifické Předpo- klady hodnocení Obecné předpoklady jsou ty, které musí být splněny vždy, u všech používaných indexů způsobilosti. Jsou uvedeny v této kapitole. Obecné předpokla- dy Specifické předpoklady jsou ty, které jsou požadovány u jednotlivých indexů způsobilosti, vedle obecných předpokladů, navíc. Budou uvedeny současně s definicí každého ukazatele způsobilosti i se zdůvodněním, proč jsou požadovány. Splnění obecných i specifických předpokladů je nutné ověřit, nejčastěji testem. Obecné předpoklady, které musí být splněny při výpočtu jakéhokoliv indexu způsobilosti, jsou (zejména) tyto: a) proces je stabilizován b) data jsou nezávislá, bez odlehlých pozorování a v dostatečném rozsahu c) je stanovena správně tolerance Jestliže kterákoliv z těchto podmínek není splněna, neměl by být počítán žádný z indexů způsobilosti. Při nedodržení této zásady jsou vypočítané hodnoty indexů buď velmi nespolehlivé (nadhodnocené resp.podhodnocené - podle toho, co nebylo splněno) nebo i nesmyslné (např. extrémně velké při špatné toleranci, záporné a pod.). Proces je stabilizován (je pod statistickou kontrolou) tehdy, jestliže všechny hodnoty sledovaného ukazatele kvality leží uvnitř regulačních mezí příslušného regulačního diagramu. Z uvedeného je zřejmé, že dříve, než se začne s hodnocením způsobilosti, měl by být zaveden do provozu (je-li to technicky možné) regulační diagram. Ten sleduje nepřetržitě vývoj klíčových parametrů v čase. Specifické předpokla- dy 12.5 Atributy Pro atributy se způsobilost procesu vyjadřuje procentem výrobků, které vyhovují požadovanému ukazateli kvality. Označíme-li relativní četnost špatných výrobků vyrobkuhsledovanycpocetcelkovy isledovanymmezivyrobkucichnevyhovujipocet V ___ ____  Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 180 pak způsobilost C bude procento vyhovujících výrobků C = 100(1–V). U tohoto ukazatele není stanovena obecně platná minimální hodnota C. Donedávna přijímaná úroveň byla 98-99%, dnes začíná převažovat přísný požadavek 3ppm (3 špatné výrobky na milion kusů). 12.6 Měřitelné charakteristiky kvality V současné době se prakticky výhradně používá při posuzování způsobilosti procesů třída ukazatelů, nazývaných indexy způsobilosti („capability index“). O třídě hovoříme proto, že existuje mnoho typů indexů způsobilosti, které se liší způsobem výpočtu, vlastnostmi i podmínkami použitelnosti. Princip jejich konstrukce je však stejný: vždy jde o poměr předepsané přesnosti a skutečně dosahované přesnosti výroby. Předepsaná přesnost je dána tolerancí a cílovou hodnotou. Označme: Indexy způsobi- losti USL = horní toleranční hranice (Upper Specification Limit), USL LSL = dolní toleranční hranice (Lower Specification Limit), LSL T = cílová hodnota (Target Value), T Pak toleranční interval bude (LSL,USL), jeho délka USL - LSL a střed intervalu MSL je: )(2/1 LSLUSLMSL  . Specifikace výrobního procesu je určena trojicí (LSL,T, USL). Skutečně dosahovaná přesnost je vyjádřena rozptylem. Je známo, že má-li soubor normální rozdělení 2( , )N   , pak podle „pravidla 3 sigma“ leží v intervalu ( 3 , 3 )     99,73 % hodnot, tj. prakticky všechny. Délka tohoto intervalu je 6 . Na obr.1 jsou znázorněny dva případy normálního rozdělení s různými rozptyly. Pro jeden jsou všechny hodnoty v toleranci, kdežto pro druhý je část mimo. Porovnáním délky tolerančního intervalu (LSL, USL) a intervalu 6 , získáme představu o poměru předepsané a skutečně dosahované přesnosti. Na tomto principu jsou také konstruovány indexy způsobilosti: délka intervalu, kde mají být všechny hodnoty způsobilost = délka intervalu kde jsou všechny hodnoty Specifikace výrobního pro- cesu Obrázek 12-1: Tolerance a dva různé rozptyly Obr. 12-1: Tolerance a dva různé rozptyly Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 181 12.7 Index Cp Nejstarší index způsobilosti je označován Cp a definován vztahem Index Cp 6 USL LSL Cp     (12-1) Vzhledem k tomu, že směrodatná odchylka  základního souboru většinou není k dispozici, je nahrazena výběrovou směrodatnou odchylkou s. Tím místo indexu Cp podle (12-1) máme jeho odhad ˆ 6. USL LSL C p s   (12-2) Připomeňme, že pravidlo 3 , na kterém je vzorec (12-1) postaven, platí pouze pro normální rozdělení. To je závažný poznatek, který prakticky znamená, že pokud měření nemají normální rozdělení, nelze hodnotit způsobilost podle (12-1). Je proto velmi důležité rozhodnout pokud možno spolehlivě, má-li soubor normální rozdělení či nikoliv. K tomu je nutné - mít dostatečně velký soubor - použít spolehlivý test na normalitu - odstranit ze souboru odlehlé hodnoty Není-li normalita potvrzena, přirozeně se nabízí otázka, jak postupovat dále a existují -li vůbec vhodné nástroje. Zde pouze konstatujeme, že nelze použít klasické prostředky, avšak existují speciální metody pro tuto situaci. V případě, že je normalita potvrzena, je možné Cp počítat. Vážným nedostatkem indexu Cp je, že vůbec nehodnotí, jak je proces centrován, tedy jaký je vztah předepsané hodnoty T a průměrné hodnoty  . Velmi názorně je to vidět z Obr.3, kde je pět různých výrobců: 1.výrobce je nejlepší, neboť nejčastěji vyrábí předepsanou hodnotu T a nepřekračuje toleranci. 2. a 3. výrobce sice nikdy nedosahuje hodnotu T (vychyluje se vlevo resp. vpravo), ale alespoň nepřekračuje toleranci. 4. a 5. výrobce nejenže nedosahuje nikdy T, ale navíc překračuje toleranci (vlevo resp. vpravo). Je tedy každý výrobce jiný a přesto, vypočítáme-li index Cp, bude ve všech případech stejný, neboť délka tolerančního intervalu USL-LSL je stejná pro všechny a směrodatná odchylka s ve jmenovateli vzorce (12-1) bude také stejná, protože zákonem rozdělení je ve všech případech tatáž Gaussova křivka, jen s jinou polohou vrcholu. Můžeme tedy konstatovat, že Cp posuzuje pouze jeden ze dvou cílů hodnocení způsobilosti a to míru využití tolerance. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 182 Obrázek 12-2: Pět různých výrobců a stejné Cp Obr. 12-2: Pět různých výrobců a stejné Cp Shrneme li dosud uvedené poznatky, dostáváme tyto specifické podmínky pro použití Cp: a) měření má rozdělení 2( , )N   b) T  (proces je centrován) 12.8 Index CpK Snaha o zavedení obecnější charakteristiky způsobilosti než Cp vedla ke konstrukci indexů KPM 3 pU USL C      (12-3) 3 pL LSL C      (12-4) min{ , }pK pU pLC C C (12-5) Tento index má jen jednu specifickou podmínku použití a to normální rozdělení sledovaného ukazatele kvality. ŘEŠENÝ PŘÍKLAD 12-1 Ověřte si, že vzdaluje-li se μ od T , zhoršuje se CpK, pokud se nemění. Parametry procesu jsou: LSL = 10, USL = 18, T = 14 (symetrická tolerance; píšeme také T = MSL). Symetrická tolerance Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 183 Řešení příkladu a) 14T   : 18 14 2 23. 3. 3 pU USL C        také 14 10 2 23. 3. 3 pL LSL C        Je tedy pro T : CpU = CpL = CpK = 2 b) 15:  18 15 1,5 3. 3.(2/3) pU USL C        15 10 2,5 3. 3.(2/3) pL LSL C        Zde, protože T  , je pUpL CC  a CpK = min{1,5;2,5} = 1,5 c) 16:  18 16 1 3. 3.(2/3) pU USL C        16 10 3 3. 3.(2/3) pL LSL C        CpK = 1 d) 17, 0,25   (snížení směrodatné odchylky) 18 17 1,33 !!! 3. 3.0,25 pU USL C        Pokud by CpU resp. CpL vycházelo záporné, pokládá se CpK = 0. To nastane v případě, že průměrná hodnota  je mimo toleranční interval. * ŘEŠENÝ PŘÍKLAD 12-2 Ověřte si, že je-li  mimo toleranci, vychází CpU (resp. CpL) záporné. Parametry procesu jsou: LSL = 10, USL = 18, T = 14, 20  , 2/3  . Indexy pro μ mimo toleranci Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 184 Řešení příkladu Zde 20  , tedy mimo horní toleranci, takže CpU < 0. Skutečně 18 20 1 23. 3. 3 pU USL C         Proto se pokládá CpK = 0, i když 20 10 5 2 3. 3 pLC    . * SHRNUTÍ KAPITOLY HODNOCENÍ ZPŮSOBILOSTI VÝROBNÍCH PROCESŮ V této kapitole jste studovali problematiku způsobilosti výrobního procesu (process capability). Tou se rozumí jeho schopnost trvale dosahovat předem stanovená kritéria kvality. Naučili jste se vyjadřovat způsobilost kvantitativně, tedy příslušným číselným ukazatelem. Při konstrukci těchto ukazatelů jsme měli určité představy o jejich vlastnostech. Z hlediska výpočtového mezi ně patří zejména jednoduchost, dále srozumitelnost, dobrá vypovídací schopnost, názornost. Dalším požadavkem je široká upotřebitelnost, což znamená co nejméně omezujících podmínek pro jejich použití, stručně řečeno, univerzálnost. Ukazatele způsobilosti jsou samozřejmě konstruovány tak, aby hodnotily všechny stránky způsobilosti výrobního procesu. Shrnutí kapitoly ŘEŠENÝ PŘÍKLAD 12-3 Ověřte si, že vzdaluje li se  od T (nabývá hodnot 50, 57.5 resp. 61) a současně se zmenšuje  (nabývá hodnot 5, 2.5 resp. 1,33), zůstává CpK nezměněno. Specifikace procesu je : USL = 65, LSL = 35, T = 50. Řešení příkladu a) 5,50   65 50 1 3.5pUC    , 50 35 1 3.5pLC    ; CpK = 1 b) 5.2,5.57   65 57,5 1 3.2,5 pUC    , 57,5 35 3 3.2,5 pLC    ; CpK = 1 Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 185 c) 61, 4/3   65 61 1 3.1,33 pUC    , 61 35 6,5 3.1,33 pLC    ; CpK = 1 * ŘEŠENÝ PŘÍKLAD 12-4 Vypočítejte index Cpm, který je definován vztahem 6. pm USL LSL C    pro parametry procesu jsou: 14,3/2  T . USL = 18, LSL = 10. Parametr 2 2 2( )T     takže pmC 2 2 ˆ 6. 6. ( ) pm USL LSL USL LSL C T         Řešení příkladu 18 10 2 6.(2/3)pmC    Poznámka: Odhad 2ˆ je možné počít přímo z dat 12 2ˆ ( ) 1 x Tin    * ŘEŠENÝ PŘÍKLAD 12-5 Je dána specifikace procesu : LSL = 10, USL = 18, T = 14. Směrodatná odchylka je 2/3.  Vypočítat Cpm pro T a T a porovnat s Cp. Řešení příkladu a) T14 2 )1414()3/2(6 1018 )(.6 2222        T LSLUSL Cpm  Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 186 2 )3/2.(6 1018 .6       LSLUSL Cp Pro T je tedy Cp = Cpm. b) 15 T   2 2 2 2 18 10 1,11 6. ( ) 6 (2/3) (15 14) pm USL LSL C T           Cp = 2 ( beze změny). Pro T  je tedy ppm CC  . * ŘEŠENÝ PŘÍKLAD 12-6 Počítejte Cpm opět pro zhoršující se  a zlepšující se . Porovnejte Cpm a CpK. Specifikace procesu: USL = 65, LSL = 35, T = 50. Řešení příkladu a) 5,50   : 2 2 2 2 65 35 1 6. ( ) 6 5 (50 50) pm USL LSL C T           b) 57.5, 2.5   65 35 0,632 2 2 2 26. ( ) 6 2,5 (57,5 50) pm USL LSL T C            c) 61, 4/3   2 2 2 2 65 35 0,448 6. ( ) 6 (4/3) (61 50) pm USL LSL T C            Z předchozích příkladů je vidět, že zatímco CpK se při zhoršujícím se  nemění „díky“ zmenšování  , index Cpm zhoršení průměru  zaznamenal. * Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 187 ŘEŠENÝ PŘÍKLAD 12-7 Vypočtěte CpK a Cpm, je-li μ = 17, σ = 2/3, T = 17. Toleranční meze jsou LSL = 10, USL = 18. Řešení příkladu CpK = 0.5; Cpm = 2 (!). * ŘEŠENÝ PŘÍKLAD 12-8 Vypočítejte CpKa Cpm pro dva odlišné výrobní procesy: a) Malý rozptyl, ale špatné centrování procesu. Specifikace: LSL = 35, T = 50, USL = 65. Charakteristiky: 5.2,57   b) Velký rozptyl, ale dobré centrování. Specifikace: LSL = 12, T = 14, USL = 18. Charakteristiky: 14, 0.75   Porovnejte v obou případech CpK a Cpm. Řešení příkladu a) Indexy vychází : CpK = 1.06 a Cpm = 0.67. Uspokojivá hodnota CpK je výsledkem malého rozptylu. Skutečnost, že proces není centrován, se však u tohoto indexu výrazněji neprojevila. b) Indexy vychází: CpK = 0.88 a Cpm = 1.33. Zde obráceně velký rozptyl se neprojevil u indexu Cpm, ale naopak výrazně poznamenal CpK. * ŘEŠENÝ PŘÍKLAD 12-9 Pro dané výsledky měření vypočítejte indexy Cp, CpK, Cpm: 143, 200, 160, 181, 148, 178, 162, 215, 161, 141. Specifikace procesu: USL = 240, LSL = 100 a T = 170. Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 188 Řešení příkladu μ = 168.9, σ = 24.49, τ = 24.51, Cp = 0.953, CpK = 0.938, Cpm = 0.952 * KONTROLNÍ OTÁZKY 1. Jaká hodnota indexu způsobilosti je vždy nevyhovující? (menší než 1) 2. Jaké dva atributy hodnotí každý index způsobilosti? (centrování a variabilitu procesu) 3. Jaká je společná podmínka pro použití indexů Cp a CpK? (normality sledovaného znaku) 4. Co je to způsobilost procesu? (schopnost trvale dosahovat předepsané ukazatele kvality) 5. Vyjmenujte dva typy podmínek pro hodnocení způsobilosti. (obecné a specifické) 6. Vyjmenujte obecné podmínky hodnocení způsobilosti. (proces je stabilní, data jsou nezávislá, bez odlehlých pozorování a v dostatečném rozsahu, tolerance je stanovena správně) 7. Jak se hodnotí způsobilost u atributů? (podíl nevyhovujících ku všem výrobkům) 8. Čím je určena specifikace výrobního procesu? (specifikace výrobního procesu je určena trojicí LSL, T, USL) 9. Co je pravidlo 3 sigma? (podle „pravidla 3 sigma“ leží v intervalu ( 3 , 3 )     99,73 % hodnot náhodné veličiny, která má normální rozdělení) 10. Napište vzorec pro výpočet indexů Cp, CpK a Cpm. 11. Kdy se index Cpm rovná indexu Cp? (je-li τ =μ ) 12. Nakreslete situaci, kdy je proces vycentrován, ale má příliš velkou variabilitu. 13. Nakreslete situaci, kdy má proces vyhovující variabilitu, ale není vycentrován. 14. Nakreslete situaci, kdy je proces nevyhovující z důvodu variability i centrování. Kontrolní otázky Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 189 SHRNUTÍ MODULU STATISTICKÉ METODY PRO EKONOMY Shrnutí modulu, stejně jako shrnutí každé kapitoly, by mělo být hutné, výstižné, přehledně struk- turované. Mělo by korespondovat s cíli, které byly uvedeny. Shrnutí by jasně mělo deklarovat: Umím to, to a to. Shrnutí modulu KLÍČOVÁ SLOVA MODULU ... …, …, … (kopírujte ze všech kapitol) Klíčová slova DALŠÍ ZDROJE BISSEL, B.: Statistical methods for SPC and TQM. London: Chapman and Hall, 1994. HÁTLE, J., LIKEŠ, J.: Základy počtu pravděpodobnosti a matematické statistiky. 2.vyd. Praha: SNTL, 1974. HINDLS, R., HRONOVÁ, S., SEGER, J.: Statistika pro ekonomy. 1.vyd. Praha: Professional Publishing, 2002. ISBN 80-86419-26-6. KAŇKA, M. Vybrané partie z matematiky pro ekonomy. 1.vyd. Praha:VŠE, 1998. ISBN 80- 7079-537-9. RAMÍK, J., ČEMERKOVÁ, Š.: Statistika B. 2. rozš. a upr. vyd. Karviná: SU OPF, 2000. ISBN 80-7248-099-5. RAMÍK, J., ČEMERKOVÁ, Š.: Kvantitativní metody B: statistika:distanční studijní opora. 1.vyd. Karviná: SU OPF, 2003. ISBN 80-7248-198-3. SEGER, J., HINDLS, R.: Statistické metody v ekonomii. 1.vyd. Jinočany: H&H, 1993. ISBN 80-85787-26-1. SEGER, J., HINDLS, R., HRONOVÁ, S.: Statistika v hospodářství. 1.vyd. Praha: ETC Publishing, 1998. ISBN 80-86006-56-5. TOŠENOVSKÝ, J., NOSKIEVIČOVÁ, D.: Statistické metody pro zlepšování jakosti..1.vyd. Ostrava: Montanex, a.s., 2001. ISBN 80-7225-040-X. TOŠENOVSKÝ, J., DUDEK, M.: Základy statistického zpracování dat..1.vyd. Ostrava: VŠB, 2001. ISBN 80-248-0006-3. Další zdroje Jaroslav Ramík – Radmila Stoklasová – Josef Tošenovský , Statistické metody pro ekonomy 190 SEZNAM POUŽITÝCH ZNAČEK, SYMBOLŮ A ZKRATEK INFORMATIVNÍ, NAVIGAČNÍ, ORIENTAČNÍ KE SPLNĚNÍ, KONTROLNÍ, PRACOVNÍ Průvodce studiem Kontrolní otázka Průvodce textem, podnět, otázka, úkol Samostatný úkol Shrnutí Test a otázka Tutoriál Řešení a odpovědi, návody Čas potřebný k prostudování Korespondenční úkoly Nezapomeň na odměnu a odpočinek VÝKLADOVÉ NÁMĚTY K ZAMYŠLENÍ, MYŠLENKOVÉ, PRO DALŠÍ STUDIUM K zapamatování Úkol k zamyšlení Řešený příklad Část pro zájemce Definice Další zdroje Věta