ANALÝZA ROZPTYLU
Mgr. Jiří Mazurek, Ph.D.


Analýza rozptylu (ANOVA)
•Často používaná metoda v marketingovém výzkumu i jiných oblastech datové analýzy.
•Metoda umožňuje posoudit vliv různých úrovní/kategorií nějakého kvalitativního nebo
kvantitativního znaku na kvantitativní veličinu.
•ANOVA testuje, zda existují rozdíly v populačních průměrech kvantitativního znaku, které náleží
různým úrovním znaku kvalitativního.
•Například dovoluje hodnotit účinky různých reklamních kampaní na velikost tržeb z prodeje
konkrétního produktu. Různé reklamní kampaně v tomto případě reprezentují různé kategorie
sledovaného kvalitativního znaku (znak = reklamní kampaň). Velikost tržeb je pak zmíněný
kvantitativní znak.

Aplikace ANOVY
•Nejdůležitější aplikací ANOVY je test rovnosti tří a více výběrových průměrů. •Máme-li dva
(výběrové) soubory, testujeme rovnost jejich středních hodnot pomocí Studentova t-testu.
•Máme-li však tři a více souborů, musíme použít ANOVU.

Základní idea ANOVY
•Matematicky spočívá základní myšlenka analýzy rozptylu v rozkladu celkového rozptylu
kvantitativního znaku na dílčí rozptyly příslušející jednotlivým vlivům, které tuto variabilitu
způsobují. •Kromě dílčích rozptylů je složkou celkového rozptylu také reziduální rozptyl, způsobený
nepostiženými vlivy.

Rozdělení ANOVY
•Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou
analýzu rozptylu. •Hovoříme také o jednoduchém a dvojném třídění, případně o tříděních vyšší úrovně
(trojném, čtverném a podobně).
•

JEDNOFAKTOROVÁ ANOVA


Rozdělení podle statistického znaku


Princip výpočtu
•Metoda analýzy rozptylu ANOVA spočívá v tom, že se celková variabilita měřená součtem čtverců
odchylek zjištěných hodnot od celkového průměru rozdělí na variabilitu uvnitř jednotlivých výběrů a
na variabilitu mezi jednotlivými výběry.
•Analýza rozptylu je statistickým testem.
•ANOVA má stejně jako i jiné statistické testy předpoklady svého použití. V případě ANOVA se
předpokládá, že každý z k náhodných výběrů, s nimiž pracujeme, pochází z populace řídící se
normálním rozdělením, že tato normální rozdělení mají stejný rozptyl a výběry jsou nezávislé.

ANOVA


ANOVA


Postup testování: nulová hypotéza
•Testujeme nulovou hypotézu
•
•
•Zkoumáme, zda střední hodnota (průměr) všech výběrů pochází ze stejné základní populace
(základního souboru), což vzhledem k předpokladům učiněným pro ANOVA znamená, že si klademe otázku,
zda střední hodnoty jsou stejné, respektive zda efekty jsou nulové.
•Alternativní hypotéza je negací nulové hypotézy.

Postup testování: testové kritérium


Postup testování: testové kritérium


Postup testování: testové kritérium
•Platí:
•
•V anglické literatuře nebo v softwarech je možné se setkat i s následujícím označením:
•Sy = SD (D z angl. Difference),
•Sy,m = ST (T z angl. Treatment),
•Sy,v = SR (R z angl. Residual).
•

Postup testování: testové kritérium
•Pro ověření nulové hypotézy použijeme statistiku:
•
•
•
•
•která má při platnosti nulové hypotézy Fisherovo rozdělení Fk-1,n-k.

Postup testování: kritická hodnota, výsledek


Výpočet pomocí statistických programů
•ANOVA tabulka
•
Zdroj proměnlivosti
Součty čtverců odchylek
Počty stupňů volnosti
Průměrné čtverce
Testové kritérium F
Faktor x
(meziskupinová variabilita)
Sym
k – 1
Sym /(k – 1)
F
Reziduální
(vnitroskupinová variabilita
Syv
n – k
Syv / (n – k)

Celkový
Sy
n – 1

Korelační poměr
•Na otázku „Jak silná je vazba mezi nezávislou nominální proměnnou a proměnnou číselnou?“, odpovídá
hodnota korelačního poměru.
•

Poměr determinace
•Pokud hodnotu korelačního poměru umocníme, dostáváme poměr determinace P2. •Hodnoty determinačního
poměru blízké 1 svědčí o vysoké závislosti mezi proměnnými. •Poměr determinace nabývá hodnot z
intervalu [0,1]. Čím těsnější je závislost Y na X, tím více se hodnota poměru determinace blíží k
jedné, tím více se také meziskupinový součet čtverců blíží k celkovému součtu čtverců, přičemž
vnitroskupinový součet čtverců se blíží k nule. Naopak, čím více se poměr determinace blíží k 0,
tím menší část z celkového součtu čtverců připadá na meziskupinový součet čtverců, a tím menší je
závislost znaku Y na X.

Příklad 1
P1
P2
P3
49
50
50
48
50
50
50
51
52
47
49
52
51
50
51
Následující tabulka udává počet zákazníků, kteří navštívili 3 pobočky
telefonního operátora během 5 pracovních dní. Našim úkolem je otestovat
nulovou hypotézu, že průměrný počet zákazníků byl ve všech pobočkách stejný.
Tuto úlohu si vyřešíme „ručně“ i s pomocí Excelu. Určíme i korelační poměr a
Poměr determinace.

Řešení
Anova: jeden faktor
Faktor
Výběr
Počet
Součet
Průměr
Rozptyl
Anova: jeden faktor
Faktor
Výběr
Počet
Součet
Průměr
Rozptyl
H1
5
245
49
2,5
H2
5
250
50
0,5
H3
5
255
51
1
ANOVA
Zdroj variability
SS
Rozdíl
MS
F
Hodnota P
F krit
Mezi výběry
10
2
5
3,75
0,054310001
3,885293835
Všechny výběry
16
12
1,333333333
Celkem
26
14

Příklad 2
•Následující tabulka reprezentuje údaje získané nezávislými náhodnými výběry. Sledovaným faktorem
je v tomto případě oktanové číslo pohonné směsi užívané v automobilech (90, 91, 95, 98). Máme tedy
čtyři úrovně faktoru. Pro každou tuto úroveň byly náhodným výběrem čtyř řidičů zjištěny spotřeby
automobilů. Zajímá nás otázka, zda oktanové číslo ovlivňuje (statisticky významně) úroveň spotřeby.

Faktor (oktanové číslo)
Spotřeba
90
91
95
98
8,1
7,7
7,6
7,5
8
7,8
7,6
7,8
7,9
7,9
7,5
7,6
7,8
7,6
7,6
7,5

Děkuji za pozornost
•