Statistické zpracování dat 2.přednáška Mgr. Radmila Krkošková, Ph.D. •Co je analýza rozptylu - ANOVA •ANOVA v marketingu a managemetnu •Jednofaktorová ANOVA •Míry závislosti: determinační a korelační poměr •Použití ANOVA v případových studiích • Téma: Analýza rozptylu 2 •Analýza rozptylu - ANOVA – • z anglického ANalysis Of Variance • (Jednofaktorová = One-way) • • •ANOVA je rozšířením parametrických (a neparametrických) testů hypotéz na více než 2 výběry Co je analýza rozptylu? 3 1.Ovlivňuje kvalitativní faktor kvantitativní hodnoty znaku? • •2. Pochází k ( ³ 3 ) vzorků ze stejné populace? • •Příklady: •(1) Má věk respondentů vliv na konzumaci daného nápoje? • •(2) Ovlivňuje vzdělání respondentů jejich názor na poslance v parlamentu? ANOVA řeší 2 problémy (dvojí interpretace): 4 •Firma chce na trhu se sycenými nealkoholickými nápoji uplatnit svůj novy výrobek (nápoj K) •Na fakultě je bufet a několik prodejních automatů s nealko nápoji •Fakulta má cca 4000 studentů a 400 zaměstnanců •Byl vytvořen dotazník a na jehož základě byla získána data - vzorek 100 studentů a zaměstnanců • • Marketingová studie 1 5 Dotazník 6 •Znak X tzv. faktor - věk studentů • (18 až 22 let: k = 5) • •Znak Y - konzumace limonády • (počet lahví/týden - kvantitativní data) • •H0: Věk nemá na konzumaci limonád vliv • (jinak řečeno: skupiny vytvořené podle věku pocházejí z jediné populace Þ mk =m0) •H1: „opak H0“ • • Příklad 1 7 • •Idea: • • Čím větší variabilita (tj. rozptyl) mezi skupinami, tím větší vliv faktoru!!! • • Příklad 1 8 • 9 Počet vypitých limonád roste s věkem?! •Krok 1. •Uspořádání dat a výpočty •X – kvalitativní znak (faktor), Y - kvantitativní znak • • • •Stanovení nulové hypotézy •H0: mi =m0 pro všechna i =1,2,…,k • Jednofaktorová ANOVA - postup 10 •Celkový součet čtverců: • • •Meziskupinový součet čtverců: • • •Vnitroskupinový součet čtverců: • • Krok 2. Výpočet 11 •Základní vztah ANOVA: • • •Výpočet testového kritéria: • Krok 2. Výpočet 12 •Jestliže platí: F > F1-a(k-1,n-k) pak •H0 zamítáme (faktor má vliv) •jinak H0 nezamítáme (faktor nemá vliv), •přitom F1-a(df1,df2) je kritická hodnota Fisherova rozdělení • (tabelováno pro různé hodnoty df1,df2 a a). • Krok 3. Testování 13 14 Alternativně: Pro hodnotu kritéria F vypočítáme p-hodnotu (signifikanci) Jestliže platí: p-hodnota < a pak H0 zamítáme (faktor má vliv) jinak H0 nezamítáme (faktor nemá vliv) Předpoklad ANOVA: normálně rozdělený znak Y Řešení příkladu v Excelu Data®Analýza dat ®ANOVA: Jeden faktor… p-hodnota = 0,847 > 0,05 Þ H0 nezamítáme,tzn.věk nemá na konzumaci limonád vliv! Těsnost závislosti v ANOVA 16 Faktor X má k kategorií, sledovaný znak Y je kvantitativní Poměr korelace P: kde Sy - celkový součet čtverců Sy,m - meziskupinový součet čtverců Těsnost závislosti v ANOVA 17 Poměr determinace P 2 Čím je P bližší k 1, tím je závislost sledovaného znaku na daném faktoru silnější, čím je blíže k 0, tím je závislost slabší. •Průzkum spokojenosti zákazníků v supermarketech v ČR (Spokojenost v Hypernově, TESCO) •Průzkum obliby výrobku/služby (Obliba Coca Coly) •7 bodové hodnoticí škály (spokojenosti) •Byl vytvořen dotazník a na jehož základě byla získána data - vzorek 200 zákazníků • Studie spokojenosti / oblíbenosti 18 •Znak X - faktor – věková kategorie zákazníků (1 až 5) • (1=18až21, 2=22až29, 3=30až44, 4=45až59, 5=60+) • •Znak Y - postoj na škále • 1= velmi nespokojen až 5= velmi spokojen např. k otázkám: • (1) Celková spokojenost • (2) Příjemná obsluha • (3) Čistota prodejen • Spokojenost v supermarketech Hypernova 19 • • H0: věk nemá na spokojenost k otázce vliv • • H1: „opak H0“ • Hypotéza ke spokojenosti v supermarketech Hypernova 20 •1. Znak X - faktor – vzdělání zákazníků (1 až 7) • (1=Z, 2=Z+, 3=SOU, 4=SOU+, 5=SŠ, 6=SŠ+, 7=VŠ) •2. Znak X - faktor – příjem zákazníků(1 až 9) • (1=6000Kč, 2=6001Kč až10000Kč,…,9 =24000Kč a více) •Znak Y - na škále 1= velmi nespokojen až 5= velmi spokojen např. k následujícím otázkám: • (1) Spokojenost s cenou nápoje • (2) Spokojenost s prestiží nápoje • (3) Spokojenost s kvalitou nápoje • Obliba Coca Coly 21 Hypotéza k oblíbenosti Coca Coly 22 H0: věk nemá na spokojenost k otázce vliv H1: „opak H0“ •Sociologický průzkum voličů v ČR •Průzkum názorů a postojů • (5 a 7 bodové hodnoticí škály: od zcela nesouhlasím po zcela souhlasím) •Populace 7 mil. voličů •Byl vytvořen dotazník a na jeho základě byla získána data - vzorek 1000 voličů - občanů ČR nad 18 let • Sociologická studie 23 •Znak X - faktor - vzdělání voličů (ot. 15) • (k = 4: 1=základní, 2=vyučen, 3=maturita, 4=VŠ) • •Znak Y - postoj na škále 1= velmi nesouhlasím až 5= velmi souhlasím např. k následujícím otázkám: • • Sociologická studie 24 • • (1) Lidé, které volíme do parlamentu jsou darebáci (ot. 8g) • • (2) Stát má lidem zajistit práci (ot. 8n) • • (3) Rodina je základem společnosti (ot. 12g) • Sociologická studie 25 • • • H0: vzdělání nemá na postoj k otázce vliv • • H1: „opak H0“ • • • Hypotéza k sociologické studii 26 •Data®Analýza dat ®ANOVA: Jeden faktor… • Řešení sociologické studie v Excelu 27 p-hodnota = 0,015 < 0,05 Þ H0 zamítáme, tzn.vzdělání má na postoj k otázce (1) vliv! •X - kvalitativní znak (faktor), • •Y - kvantitativní nebo ordinální znak • • •T - testové kritérium • • • • Kruskal – Wallisova ANOVA 28 Kruskal – Wallisova ANOVA 29 Příklad byty: Má počet pokojů vliv na cenu bytu? 30 •Výpočet testového kritéria pomocí vzorce: • • Příklad byty: Má počet pokojů vliv na cenu bytu? 31 Výpočet p-hodnoty pomocí funkce CHIDIST(T;k – 1) =CHIDIST(22,05;4) = 0,0002 Nulovou hypotézu zamítáme! Faktor Počet pokojů má vliv na Cenu! Závěr přednášky 32 Děkuji Vám za pozornost!!!