Popisná statistika
(Descriptive statistics)
Výsledkem měření je soubor n naměřených hodnot vytvářející datový soubor D = {x[i]}. V datovém
souboru se mohou vyskytovat tytéž hodnoty i vícekrát, zejména tehdy, mají-li veličiny diskrétní
(nespojitou) povahu (počet rohlíků).
Pokud chceme tento soubor dat blíže popsat, použijeme některý z instrumentů tzv. popisné
statistiky.
1 Váha
Pokud není očekávaná kvalita jednotlivých pozorování stejná, je užitečné ji popsat nezáporným
číslem tzv. vahou - w[i]. Váha se vztahuje vždy k jednomu, konkrétnímu měření, proto ji nezaměňujte
s četností příslušného výsledku. Váha většinou souvisí s odhadem tzv. vnitřní nejistoty určení
hodnoty konkrétního měření - δx[i]:
.
Zkušenost ukazuje, že zavedením vah se globální charakteristiky souboru obvykle změní jen
nevýznamně, a proto není je třeba si předem rozmyslet, zda váhy při výpočtech vůbec použijeme. Váhy
bychom neměli použít v případě, kdy se ukáže, že očekávaná nejistota jednotlivých měření v souboru
je výrazně menší, než jejich celkový rozptyl v rámci souboru. Naopak jsme je povinni použít pokud
jsou deklarovány, tedy zejména při transformaci měřených veličin nějakou nelineární funkcí (log x,
1/x) nebo při některých robustních metodách zpracování výsledků.
Zaveďme si sumu vah S[w] a střední váhu w[s]:
2 Míra polohy
Nejznámější a nejpoužívanější mírou vztahující se ke středu studovaného datového souboru je tzv.
aritmetický průměr, často jen průměr (arithmetic mean, mean), případně váhovaný průměr (weighted
mean):
Důležitou vlastností průměru je fakt, že:
Geometrický průměr (geometric mean):
.
Harmonický průměr (harmonic mean):
.
Kvadratický průměr (quadratic mean):
.
Pro další charakteristiky je vhodné soubor {x[i]} případně {x[i], w[i]} seřadit podle velikosti
x[i].
Kvantil (quantile) určený číslem p, 0
, pro nějž platí, že
pn hodnot souboru je menších než x a (1 – p) n větších. Vážený kvantil (weighted quantile) se
vztahuje k vahám. Pokud je zkoumaný soubor vzorkem nějakého většího souboru, pak kvantil p(x) je
odhadem pravděpodobnosti, že nějaké náhodně vybrané číslo ze souboru bude menší než zvolená hodnota
x. Rozdíl p(x[a]) - p(x[b]) pak udává odhad pravděpodobnosti, že se takové číslo vyskytne
v intervalu . Je-li p vyjádřeno v procentech, pak se kvantilu říká percentil
(percentile). Zvláštní význam má kvantil pro p = 0,5 (50 %), nazývaný medián, první kvartil (first
quartile) - p = 0,25 (25 %) a třetí kvartil (third quartile) – p = 0,75 (75 %).
Výše naznačený předpis je jen rámcový, pro algoritmus výpočtu kvantilů je nutno být konkrétnější.
Výhodné je k tomu definovat si tzv. kumulativní distribuční funkci, případně váhovanou kumulativní
distribuční funkci F(x), která vyjadřuje závislost kvantilu p na měřené veličině x. Kumulativní
distribuční funkce F(x) je představována lomenou čarou s uzlovými body v {x[i][], p[i]}. Pro p[i]
platí: p[1] = 1/(2 n), p[i] = p[i][-1 ]+ 1/n Þ p[i] = (1+2 i)/(2n) pro x < x[1] je hodnota p rovna
nule, pro x > x[n] je funkce rovna 1. Obdobně pak váhovaná kumulativní distribuční funkci F(x) je
představována lomenou čarou s uzlovými body v {x[i][], p[i]}. Pro p[i] platí: p[1] = w[1]/(2 S[w]),
p[i] = p[i][-1 ]+ (w[i-1]+w[i])/(2 S[w]), pro x < x[1] je hodnota p rovna nule, pro x > x[n] je
funkce rovna 1.
Medián (median) nebo váhovaný medián – je oblíbená robustní míra polohy centra souboru, jež
prakticky nezávisí na výskytu „odlehlých“ bodů. Z výše uvedené definice funkce F(x) plyne, že je-li
n liché číslo (n=2m+1), pak , je-li sudé číslo (n=2m), pak .
Ořezaný průměr (trimmed mean) – robustní odhad polohy centra – je jistým kompromisem mezi
aritmetickým průměrem a mediánem. Jako parametr se používá veličina p vyjádřená zpravidla
v procentech (nejčastěji 10 %). Ze seřazený soubor dat odstraníme round(p/2) nejvyšších a stejný
počet nejnižších hodnot a ze zbytku vypočteme aritmetický průměr. Pro p = 0 jde o průměr, pro p Þ
100% o medián. U váhovaných veličin je definice ořezaného průměru poněkud vágní a proto se běžně
nepoužívá.
Modus – je-li nejčetněji zastoupená hodnota (nebo hodnota s největší vahou) – bývá u diskrétních
výsledků měření, nebo v určitých intervalech – nejpohodlněji ji lze odečíst z histogramu (viz 1.2)
3 Míry rozptýlení, distribuční funkce
Nejčastější mírou rozptýlení dat kolem centra je takzvaný rozptyl (variance) s^2 nebo směrodatná
odchylka (standard deviation) s.
Centrem rozptýlení je zde aritmetický průměr. Dokažte, že právě pro něj nabývá funkcionál , svého
minima.
Robustní třídou měr rozptýlení je tzv. střední velikost odchylky (mean absolute deviation – MAD),
respektive vážená střední velikost odchylky (weighted mean absolute deviation – WMAD), centrovaná
k a, nejčastěji pak aritmetickému průměru nebo k mediánu:
Lze ukázat, že pro je hodnota mad(a), resp. wmad(a), minimální.
Celkové rozpětí (total range) daný rozdílem mezi největším a nejmenší naměřenou hodnotou.
Mezikvartilní rozpětí (interquartile range), což je rozdíl mezi 3. a 1. kvartilem slouží jako
robustní odhad rozptýlení, neboť se vztahuje na vnitřní část rozdělovací křivky.
Nejinstruktivnějším vyjádřením distribuční funkce je u diskrétních veličin tzv. tyčkový graf,
v případě spojitých veličin pak histogram (histogram). Celý interval pokrytý daty se rozdělí na
vhodný počet n[h] ekvidistantních intervalů a počítá se počet (četnost), respektive suma vah dat
k nim příslušejících. Graficky se potom distribuční funkce znázorní sloupcovým diagramem.
Doporučený počet sloupců pro n měření udává Sturgesovo pravidlo:
.
4 Normální rozdělení
Výjimečné postavení mezi rozdělovacími funkcemi má tzv. normální rozdělovací funkce, zvaná též
Gaussova funkce, odpovídají rozdělení zcela náhodných veličin. Funkce hustoty pravděpodobnosti f(x)
je normovaná na 1 a je popsána dvojicí parametrů m a s :
.
„Gaussovský Říp“ je přísně symetrický podle osy x = m, kterážto hodnota je současně aritmetickým
průměrem, mediánem i modem souboru podřizujícímu se normálnímu rozdělení. Lze ukázat, že směrodatná
odchylka s je právě rovna parametru popisujícímu šířku normálního rozdělení s (disperze), tedy:
Kumulativní distribuční funkci lze s výhodou popsat pomocí speciální tabelované funkce erf(x)
odpovídající gaussovskému rozdělení s m = 0 a s = 1/2 :
Několik charakteristik: v rozmezí ±s se nachází 68% případů, ±2s 95%, ±3s 99,7%. 1. kvartil se
nachází ve vzdálenosti 0.6745 s od centra, mezikvartilní rozpětí tak odpovídá 1,349 s. s = 1/0.6745
mad = 1.483 mad.
4.1 Odhad m a s
K tomu, abychom dokonale mohli zjistit oba parametry normálního rozdělení σ a μ, bychom museli mít
k dispozici nekonečně mnoho bodů. Ve skutečnosti máme k dispozici jen omezený vzorek celého
souboru, a pomocí dat tohoto vzorku můžeme nanejvýš stanovit odhad obou parametrů, který je zatížen
jistou neurčitostí. Za předpokladu, že zkoumaný soubor má normální rozdělení, pak lze ukázat, že
nejlepší nezávislý odhad parametru σ je dán vztahem:
.
Pomocí tohoto odhadu střední kvadratické odchylky lze odhadnout i neurčitost stanovení parametru μ
(vlastně aritmetického průměru):
.
4.2 Odchylky od normálního rozdělení , šikmost a špičatost
K popisu rozdělovací křivky se občas používá ještě jemnějšího popisu, který využívá
Obecný moment k-tého řádu (moment of k-th order):
.
Obecný centrální moment k-tého řádu kolem bodu a (centred moment of k-th order):
.
Centrem bývá nejčastěji aritmetický průměr, resp. váhovaný aritmetický průměr Vidíme, že pro tento
případ m[0 ]= m[1 ]= 0, m[2 ]= s^2.
Zavádíme teď ještě dvě bezrozměrné charakteristiky: tzv. šikmost (skewness): a[3] = m[3]/s^3 a
špičatost (kurtosis) a[4] = m[4]/s^4 funkce. Šikmost symetrických funkcí je nulová (tedy i
normálního rozdělení), charakteristiky tedy popisuje míru asymetrie funkce. Charakteristika a[4]
přináší informaci o tom, jak se vlastně body koncentrují kolem průměru. Je-li a[4] blízké 3, pak
mluvíme o souborech s normální špičatostí, při a[4 ]< 3, hovoříme o souborech plochých a při a[4 ]>
3 se mluví o souborech špičatých.
Za nejsdělnější nástroj k posouzení odchylek pozorovaného rozdělení od normálního rozdělení
považuji graf normální pravděpodobnosti (normal probability plot), do něhož vynášíme kumulativní
distribuční funkci, přičemž osa pravděpodobností (kvantilová) je transformována tak, aby se tam
soubory s normálním rozdělením zobrazily jako přímky. Je vhodné si přitom body odpovídající 1. a 3.
kvartilu proložit přímkou a diskutovat pak odchylky reálného rozložení bodů od ní. V Matlabu je pro
tuto úlohu příkaz: normplot.
5 Úloha
Výsledkem měření atmosférické extinkce z pozorování komet na observatoři Skalnaté Pleso jsou tyto
hodnoty extinkčních koeficientů ve vlnové délce 416 nm (mag/vzdušnou hmotu):
0.82±0.07
0.39±0.07
0.11±0.07
0.26±0.05
0.39±0.03
0.69±0.05
0.23±0.04
0.47±0.04
0.54±0.05
0.81±0.05
0.39±0.04
0.41±0.05
0.57±0.03
0.33±0.05
0.43±0.04
0.52±0.04
0.42±0.04
0.41±0.04
0.97±0.03
0.45±0.03
Instrumentářem popisné statistiky charakterizujte tento soubor, speciálně pak uveďte:
a) počet měření a jejich charakter (spojité, diskrétní?)
b) stanovte váhy jednotlivých měření a diskutujte, zda je v tomto případě případné tyto váhy
použít. Bez ohledu na výsledek úvahy počítejte všechny další úlohy ve dvou variantách – s vahami a
bez nich.
c) odhad aritmetického průměru a jeho nejistotu za předpokladu normálního rozdělení,
harmonický, geometrický, kvadratický průměr a medián, ořezaný průměr pro 10% a 20% (jen pro případ
bez vah)
d) minimální a maximální hodnotu extinkce a celkové rozpětí
e) rozptyl s^2, směrodatnou odchylku s, odhad rozptylu σ[odh], střední velikost odchylky
s centrem v aritmetickém průměru a v mediánu
f) graf kumulativních distribuční funkce a pomocí ní stanovte hodnoty kvartilů a
mezikvartilního rozpětí
g) Porovnejte odhady μ a σ pro normální rozdělení získané různými metodami
h) Vypočtěte šikmost a špičatost rozdělovací funkce a porovnejte s normálním rozdělením. Jaký
je to typ souboru? Sestrojte graf normálního rozdělení a diskutujte (řešte bez vah).
i) pomocí stanovte optimální počet sloupců v histogramu a sestrojte jej. Doporučuji sloupce
v histogramu centrovat na násobky 0,2
j) odhadněte modus rozdělení
k) diskutujte tvar rozdělovací funkce s vědomím, že konstantní složka extinkčního koeficientu
ve 416 nm způsobená Rayleighovým rozptylem na náhodných shlucích molekul vzduchu činí 0,262
mag/vzdušnou hmotu.
Instrumentářem popisné statistiky charakterizujte tento soubor, speciálně pak uveďte:
a) počet měření a jejich charakter (spojité, diskrétní?) – 20, spojité
b) stanovte váhy jednotlivých měření a diskutujte, zda je v tomto případě případné tyto váhy
použít. Bez ohledu na výsledek úvahy počítejte všechny další úlohy ve dvou variantách – s vahami a
bez nich. – není případné použití, standardní odchylka je mnohem větší, než nejistota jednoho
měření
c) odhad aritmetického průměru a jeho nejistotu za předpokladu normálního rozdělení (mean =
0,480±0,047; meanw = 0,501±0,045), harmonický (0,382), geometrický (0,435), kvadratický průměr
(0,552) a medián (0,425), ořezaný průměr pro 10% a 20% (jen pro případ bez vah: 0,474; 0,468)
d) minimální a maximální hodnotu extinkce a celkové rozpětí (0,11 až 0,97; 0,86)
e) rozptyl s^2, směrodatnou odchylku s, odhad rozptylu σ[odh], střední velikost odchylky
s centrem v aritmetickém průměru a v mediánu (v aritmetickém průměru: 0,0417; 0,204; 0,0439; 0,210;
se středem v mediánu: 0,448; 0,212; 0,0471; 0,217)
f) graf kumulativních distribuční funkce a pomocí ní stanovte hodnoty kvartilů a
mezikvartilního rozpětí (interkv = 0,165)
g) Porovnejte odhady μ a σ pro normální rozdělení získané různými metodami; (σ[odh] = 0,210;
mad = 0,156, madmed = 0,146
h) Vypočtěte šikmost a špičatost rozdělovací funkce a porovnejte s normálním rozdělením. Jaký
je to typ souboru? Sestrojte graf normálního rozdělení a diskutujte (řešte bez vah).
i) pomocí stanovte optimální počet sloupců v histogramu a sestrojte jej. Doporučuji sloupce
v histogramu centrovat na násobky 0,2
j) odhadněte modus rozdělení
k) diskutujte tvar rozdělovací funkce s vědomím, že konstantní složka extinkčního koeficientu
ve 416 nm způsobená Rayleighovým rozptylem na náhodných shlucích molekul vzduchu činí 0,262
mag/vzdušnou hmotu.
l)