Statistika 1 VII. Centrální limitní teorém a Bodové odhady Statistika 2 Centrální limitní teorém 1 lNormální rozdělení l l l l l je výjimečné mezi ostatními rozděleními spojitých NV také tím, že je rozdělením "limitním", k němuž se jiná rozdělení „blíží“ s rostoucím rozsahem výběru 400px-Standard_deviation_diagram Statistika 3 Centrální limitní teorém 2 lNormálním rozdělením, jako rozdělením limitním, se zabývá: l centrální limitní teorém l - má různé formy v závislosti na podmínkách, jejichž splnění se požaduje. Nejdůležitější formou je l věta Lindbergova – Lévyho - má dvě varianty: pro průměr a pro úhrn (součet). l Statistika 4 Centrální limitní teorém 3 lLindberg - Lévyho věta pro průměr: l Průměr výsledků z dostatečně velkého počtu l (n > 30) realizací stejné náhodné veličiny l s libovolným rozdělením pravděpodobnosti (střed. hod. m, rozptyl s2) l má „přibližně“ normální rozdělení pr-sti: l l Statistika 5 Příklad 4: Platby faktur Z populačního souboru 1250 faktur (od 100 do 10 tis. Kč) byl vybrán vzorek o 50 fakturách. Všech možných vzorků je = 2·1091 = 2000…0 (91 nul!!!) m = 5097 s = 412,5 Průměrné platby vzorků se pohybují mezi 3800 až 6400 Parametry populačního souboru - neznáme Statistika 6 Histogram četnosti pro 500 vzorků po 50 fakturách Statistika 7 Histogram četnosti průměrných plateb z 50 faktur Statistika 8 Histogram četnosti průměrných plateb 50 faktur - 5000 vzorků 5097 5097 Statistika 9 Výběrové šetření, výběrový plán lV praktických úlohách bývají populační soubory rozsáhlé nebo nejednoznačně vymezené! lVýběrové šetření (VŠ) - proces získání výběrového vzorku lVŠ slouží k tomu, abychom získali vzorek se strukturou co možná nejvíce podobnou populačnímu souboru lVýběrový plán - způsob nebo metoda „generování“ prvků výběru lHlavními typy výběrových plánů jsou: –Anketa (charakteristika: ochota odpovídat) –Záměrný výběr (kvótní výběr, systematický výběr) –Náhodný výběr - nejdůležitější typ (všechny prvky mají stejnou pr-st dostat se do výběru) Statistika 10 Výběrové šetření - příklad lPopulační soubor: zákazníci supermarketu TESCO v Karviné v roce 2013 lSledovaný statistický znak: hodnota nakoupeného zboží (Kč) lVýběrový plán - způsob nebo metoda „generování“ prvků výběrového souboru, velikost vzorku? lHlavními typy výběrových plánů jsou: –Anketa (dotazník vyplní zákazník u východu – podle ochoty vyplnit) –Záměrný výběr (kvótní výběr: 65% ženy, 35% muži) –Náhodný výběr - nejdůležitější typ (všechny prvky mají stejnou šanci dostat se do výběru – např. podle tabulky náhodných čísel) Statistika 11 Náhodný výběr (NV) lNV - soubor vzájemně nezávislých realizací náhodné veličiny lKaždá z jednotek populačního souboru má stejnou šanci (pravděpodobnost) dostat se do výběru lProstý NV - jednotky do vzorku jsou vybírány přímo v jediném kroku, např. losováním lVícestupňový NV (výběr v několika krocích) lProstý náhodný výběr se realizuje 2 způsoby: l s vracením a bez vracení l- výběr bez vracení (bez opakování) – vybraná jednotka se do populačního souboru již nevrací, může být tedy vybrána nejvýše jedenkrát l- výběr s vracením (opakováním) - vybraná jednotka se do populačního souboru vrací, může být tedy vybrána vícekrát. lV praxi se častěji používá výběr bez vracení Statistika 12 Princip bodového a intervalového odhadu lProblém: zjistit (odhadnout) hodnoty charakteristik populačního souboru, např. m nebo s2, pomocí charakteristik výběrového souboru, např. a s2 lPříklad: Máme odhadnout velikost průměrné hodnoty nákupů m u zákazníků supermarketu TESCO Ka v roce 2013 s pravděpodobností 95% Byl vybrán náhodný vzorek 64 zákazníků. Z jejich nákupů jsme zjistili průměr = 450 Kč a směrodatnou odchylku s = 128 Kč. Statistika 13 Řešení: lPrůměrnou velkost nákupů populačního souboru (všech) zákazníků TESCO odhadneme jako interval [L,P]: L je levý krajní bod, P je pravý krajní bod. Střed intervalu stanovíme jako . Hledaný interval: l L = - D , P = + D l Přitom l l lKde n = 64, s = 128, tj. l lHledaný interval: [L,P] = [450-31,450+31] = [419,481], tedy: l Neznámý populační průměr m leží v intervalu spolehlivosti l [419,481] s pravděpodobností 95 procent (téměř jistota) 95% kvantil N(0,1) Statistika 14 Významné hodnoty normovaného normálního rozdělení N(0,1) Statistika 15 Bodové odhady parametrů m, s2 a p lDvojí význam bodového odhadu (BO): ljako statistika (funkce náhodné veličiny – předpis k výpočtu čísla, tj. realizace náhodné veličiny) ljako konkrétní číslo, které se tím předpisem vypočte lPříklad. Mějme náhodnou veličinu X = Xj s neznámým parametrem m střední hodnoty, l x1, x2,...,xn jsou konkrétní hodnoty - realizace náhodné veličiny, l tj. náhodný výběr z X . l Výběrový průměr: - statistika = BO l lRealizací statistiky výběrový průměr je číslo: l což je bodový odhad parametru m Statistika 16 3 kritéria „dobrého“ bodového odhadu lNestrannost -střední hodnota zvolené statistiky (BO) = správné hodnotě odhadovaného parametru. Statistika splňující uvedený požadavek je nestranný (nezkreslený, nevychýlený) odhad parametru lKonzistence -s rostoucím rozsahem výběru n roste pravděpodobnost, že zvolená statistika poskytne hodnotu bližší skutečné hodnotě parametru. Takovou statistiku (BO) nazýváme konzistentním odhadem parametru l- Aby byl BO konzistentní, stačí, aby byl nestranný a navíc byla splněna podmínka, že limita rozptylu BO (statistiky) je rovna nule při rozsahu výběru zvětšujícím se nade všechny meze lVydatnost (eficience) -statistika s nejmenším rozptylem se nazývá vydatný (nebo také eficientní) odhad parametru l Statistika 17 Bodový odhad μ a s2 lStatistika (aritmetický průměr) je BO m (střední hodnoty), l protože platí l l ljde o nestranný a konzistentní BO parametru m l lJiné možné BO parametru m : , Med (X) ??? l lStatistika !!! l lje nestranný a konzistentní BO parametru s2 l Příklad: lPopulační soubor (výsledky 5 testů ): 33, 12, 24, 40, 37 Statistika 18