Data Processing and Statistics (DaPrSt)
FU:APUNAP32 – profesní Bc SP Aplikovaná fyzika: 2/2/0, 6 kreditů, Zk
Garance: doc. RNDr. Stanislav Hledík, Ph.D.
Přednášky/cvičení: doc. Ing. Petr Habrman, CSc., <petr.habrman@physics.slu.cz>, +420 553 68 4296
Upozornění: vzhledem ke změně přednášejícího nemusí být níže uvedené údaje platné; pro aktuální informace se obracejte výhradně na přednášejícího/cvičícího.
Informace o kursu ● Výuka ● Hodnocení a zkoušení ● Literatura ● Odkazy a zdroje ● Často kladené dotazy
Anotace
Předmět seznamuje posluchače – kromě nezbytných prerekvizit z počtu pravděpodobnosti – s designem experimentu, se základy statistiky a modelování dat, se statistickým zpracováním a analýzou naměřených dat a s interpretací získaných výstupů. Výklad je doplněn demonstracemi a příklady založenými na syntetických i reálných datech a případech.
V hranatých závorkách na konci jednotlivých bodů sylabu jsou uvedeny odpovídající kapitoly povinné učebnice.
Sylabus
1. Jak funguje věda a design experimentu.
Experimenty, hypotézy a jejich vyvracení, základní vědecká metoda. Populace vs. vzorek. Shromaďování a zobrazování dat, proměnné, experimentální jednotky, typy dat. Menzurativní a manipulativní experimenty. Replikace a pseudoreplikace. Kontrolní vzorek. Realismus a zdravý rozum. Vyhodnocování a reportování výsledků. Odpovědnost a etika vědecké práce. [1–5]
2. Základy pravděpodobnosti.
Pojem pravděpodobnosti a její vlastnosti. Podmíněná pravděpodobnost, nezávislost. Bayesův teorém a jeho aplikace. Náhodná veličina diskrétní a spojitá, pravděpodobnostní densitní funkce (PDF) a (kumulativní) distribuční funkce (CDF) a jejich role ve statistickém rozhodování. Normální (Gaussova) distribuce. Jiné distribuční funkce spojité a diskrétní a jejich charakteristiky. Transformace distribuční funkce. Limitní věty počtu pravděpodobnosti. [7, 8]
3. Pravděpodobnost ve statistice.
Pravděpodobnost pomáhá rozhodovat o výsledcích experiment. Statistické hypotézy, testy, hladina statistické významnosti (signifikance), p-hodnota. Chyba prvního a druhého druhu. Jak reportovat hodnoty pravděpodobnosti? Statistická a biologická signifikance. Velmi nepravděpodobné jevy se stávají! [6]
4. Základní statistické úlohy.
Základy teorie odhadu: bodový a intervalový odhad, konfidenční intervaly. Testování aritmetického průměru a rozptylu pro normálně rozdělená data (Z-test, Studentův T-test a F-test). Jednostranné a oboustranné hypotézy a testy. Ještě k chybě 1. a 2. druhu, síla testu. [9–10]
5. Analýza rozptylu (ANOVA).
Jednofaktorová ANOVA, post hoc analýza aneb hledání viníků. Dvoufaktorová ANOVA. Předpoklady pro aplikabilitu ANOVA. [11–15]
6. Korelační a regresní analýza.
Korelace versus regrese (fitování) versus interpolace. Korelace neznamená kauzalitu! Pearsonův korelační koeficient. Model, koeficienty modelu. Lineární regresní model. Bodové odhady (bodový odhad parametrů regresní přímky, význam bodových odhadů), verifikace modelu, stabilita modelu, testování reziduí. [16–17]
7. Analýza kovariance (ANCOVA).
Adjustace dat v analýze kovariance. ANCOVA, ANOVA a regresní analýza. [18]
8. Neparametrické testy.
Zacházení s daty vykazujícími odchylku od normality. Neparametrické testy pro nominální data (χ^2 a G-test). Kontingenční tabulky, čtyřpolní tabulky. Neparametrické testy pro ordinální a kvantitativní data (Kolmogorovův–Smirnovův test, Mannův–Whitneyův test, Kruskalův–Wallisův test, Wilcoxonův test, Spearmanův korelační koeficient, Kendallovo τ). Testy pro závislé výběry (Friedmanův test). [19–21]
9. Vícerozměrná statistika.
Náhodný vektor a vícerozměrná rozdělení. Sumarizace vícerozměrných dat. Analýza hlavních komponent (PCA). Q-mód analýzy: multidimensionální škálování (MDS), clusterová analýza (CA). [22]
10. Shrnutí a případové studie.
Výběr vhodného testu. Ukázky řešení praktických problémů založených na reálných datech z různých oblastí. Studenti mohou problémy navrhnout a data poskytnout sami. [23]
Přednášky
Standardní čas přednášky: podle aktuálního rozvrhu.
Přednášky nemusejí nutně sledovat strukturu témat uvedenou v sylabu.
Univerzitní přednáška není povinná, prezence se provádět nebude (na rozdíl od cvičení).
V rámci přednášky využívané online materiály naleznete v mém Dropbox cloudu přes zkrácený odkaz
v adresáři PrStat (případně můžete použít přímý link do něj).
V případě, že něčemu neporozumíte nebo si budete chtít něco ujasnit, jsou k dispozici konzultace.
Některé počítačové demonstrace na přednáškách budu dělat pomocí technologií Wolfram Research. Budete je mít zpřístupněné na cloudu (odkaz viz výše) ve složce DaPrSt/Demonstrations. Pro jejich přehrání potřebujete program Wolfram Player. Pokud by někdo měl seriózní zájem o oficiální studentskou licenci programu Wolfram Mathematica, která mj. umožňuje tyto demonstrace vytvářet, nechť se na mě obrátí.
Pro případ mimořádných okolností uvádím odkaz na organizaci případné online výuky.
Cvičení
Podrobné informace vám poskytne cvičící Mgr. Hofer (kontakty jsou v záhlaví stránky).
Vyžaduji aktivní účast na cvičení a vyřešení všech domácích úloh. U ústní zkoušky prokazují studenti znalosti a přehled z oblasti statistiky a zpracování dat v rozsahu přednášek.
Zkouška má písemnou a ústní část. Písemná část sestává ze čtyř úloh s dobou řešení max. 150 minut. Každá z úloh je hodnocena 0 až 5 body; můžete tedy získat nejvýše 20 bodů. Úlohy budou vybírany z úloh v povinné učebnici nebo z úloh analogických, a dále z typů úloh, které byly řešeny na cvičeních nebo byly použity jako demonstrace na přednáškách. Ukázku písemné části najdete na výše uvedeném cloudu ve složce DaPrSt/Exams. Ústní část má formu rozpravy nad Vašimi řešeními úloh písemné části, která předtím prohlédnu a předběžně opravím. Téma rozpravy se bude odvíjet od postupu Vašich řešení. Budete mít možnost využít v rozpravě získaná “nasměrování” a svá řešení případně na jejich základě dodatečně “dotáhnout” a obhájit.
Výsledek zkoušky se klasifikuje na základě bodového zisku podle 20-bodové klasifikační stupnice.
Probírané a nezbytné termíny z anglickojazyčné povinné učebnice budou přeloženy do češtiny.
Povinná učebnice
[McK2012] McKillup, S. (2012), Statistics Explained. An Introductory Guide for Life Scientists. Cambridge University Press, 2nd Ed., ISBN 978-0-521-18328-4.
Komentář: pragmaticky orientovaná učebnice, která podle mého mínění nejlépe odpovídá zaměření a cílům tohoto kursu. Dostupná v knihovně.
Rozšiřující literatura
[Ric2006] Rice, J. A. (2006), Mathematical Statistics and Data Analysis (with CD Data Sets). Cengage Learning, 3rd Ed., ISBN 978-0-534-39942-9. URL: https://www.stat.berkeley.edu/~rice/
Komentář: standardní vysokoškolská učebnice matematické statistiky vhodná pro exaktně orientované čtenáře. Dostupná v knihovně.
[Jay2003] Jaynes, E. T. (2003), Probability Theory: The Logic of Science. Edited by G. Larry Bretthorst. Cambridge University Press, ISBN 978-0-521-59271-0.
Komentář: famózní text pro bayesiány. Dostupná v knihovně.
Doplňková a polularizační literatura
[Acz2008] Aczel, A. D. (2008), Náhoda. Příručka pro hazardní hráče, zamilované, obchodníky s cennými papíry a pro všechny ostatní. Dokořán, ISBN 9788073631918.
Komentář: Čím se řídí šťastná a nešťastná náhoda? Tato otázka trápí lidstvo víc než málokterá jiná. Dostupnost: Knihobot
[DiaSky2017] Diaconis, P. – Skyrms, B. (2017), Ten Great Ideas about Chance. Princeton University Press, ISBN 978-0691174167.
Komentář: Fascinující popis průlomových idejí, jež změnily pravděposobnost a statistiku. DOI: 10.2307/j.ctvc77m33
[Huf1993] Huff, D. (1993), How to lie with statistics. Illustrated by Irving Geis. W. W. Norton & Company, New York, London, ISBN 0-393-31072-8. Český překlad Huff, D. (2013), Jak lhát se statistikou. Brána, ISBN 978-80-7243-623-1, https://www.databazeknih.cz/knihy/jak-lhat-se-statistikou-156527
Komentář: Poprvé vyšla v USA v roce 1954 a od té doby je znovu a znovu vydávána a překládána. Stala se učebnicí statistiky pro nematematické obory na mnoha univerzitách. Anglický originál dostupný v knihovně.
[Ros2008] Rosenthal, J. S. (2008), Struck by Lightning: The Curious World of Probabilities. Joseph Henry Press, ISBN 978-0309097345. Český překlad Rosenthal J. S. (2008), Zasažen bleskem. Academia, edice Galileo, ISBN 978-80-200-1645-4, https://www.databazeknih.cz/knihy/zasazen-bleskem-56304
Komentář: Zavádí do podivuhodného světa pravděpodobnosti. Náhodnost, nejistota a pravděpodobnost nás všechny provází na každém kroku. Porozumění zákonům pravděpodobnosti v knize Jeffreyho S. Rosenthala nám proto pomáhá pochopit neobvyklé jevy, vyhnout se nepříjemným překvapením, zmírnit zbytečné obavy a lépe se rozhodovat.
[MagVLo2010] Magnello, E. – Van Loon, B. (2010), Statistika. Portál, Praha 2010, 1. vydání, ISBN 978-80-7367-753-4.
Komentář: Tato kniha je na rozdíl od mnoha statistických příruček zábavným čtením, ale zároveň fundovaným úvodem do oboru. Autorka v ní ilustruje dějiny statistiky, základní koncepce jednotlivých přístupů k organizování a sumarizaci dat, představuje hlavní osobnosti, které tuto vědu na pomezí sociologie a matematiky posunuly vpřed, a rozebírá hlavní přístupy jednotlivých škol. Dostupná v knihovně.
[Všechny byly naposledy ověřeny návštěvou 8. září 2023]
Martina Litschmannová (Studijní texty VŠB-TU Ostrava ): Vybrané kapitoly z pravděpodobnosti, Úvod do statistiky. Všechny studijní materiály MI21.
Bill Press: Opinionated Lessons in Statistics. Skvělé videolekce a další podpůrné materiály pro pokročilejší a bayesiány.
Bill Press et al.: Numerical Recipes in C (2nd Ed). Statistice je věnována kapitola 14, modelování dat kapitola 15, náhodným číslům kapitola 7.
G. Larry Bretthorst: Probability Theory As Extended Logic (Teorie pravděpodobnosti jako rozšíření aristotelovské logiky) – stránka se zdroji na toto pojetí teorie pravděpodobnosti.
Aubrey Clayton: Probability Theory: The Logic of Science – videolekce ke knize Probability Theory: The Logic of Science by E. T. Jaynes.
Mind projection fallacy (klamná projekce mysli) poprvé popsal fyzik a bayesovský filozof E. T. Jaynes. Dochází k ní, když si někdo myslí, že způsob, jakým vidí svět, odráží to, jaký svět ve skutečnosti je, a jde až tak daleko, že předpokládá skutečnou existenci objektů, jenž si představuje. Druhá forma nastává, když někdo předpokládá, že jeho vlastní nedostatek znalostí o nějakém jevu (fakt o jeho stavu mysli) znamená, že jev není nebo nemůže být pochopen (fakt o realitě).
Halina Šimková: Bayesovské myšlení – proč ho tolik potřebujeme a jak si ho osvojit.
Diskuse na StackExchange: What is the difference between "likelihood" and "probability"?
Statistické úřady: ČR a USA, data UNICEF, CIA – The World Factbook. Mnoho dat ke hraní.
Wolfram|Alpha … is more than a search engine. It is a Computational Knowledge Engine.
VassarStats: Website for Statistical Computation. A useful and user-friendly tool for performing statistical computation.
Statistics by Jim – Making Statistics intuitive.
Simpsonův paradox a problém slučování dat.
Jindřich Pavelka: Hazardní hry.
Co je incidence, morbidita, prevalence, mortalita, letalita?
Statistics 20 (UC Berkeley) – Úvod do pravděpodobnosti a statistiky.
Benfordův zákon: fenomenologický zákon (také nazývaný zákon první cifry, jev první cifry) konstatující, že v seznamech čísel, tabulkách ap. se na prvním místě čísel vyskytuje se největší četností cifra 1 (něco přes 30 % oproti očekávané hodnotě 1/9 ≈ 11.1 %). Viz též Wikipedia a Statistical Consultants Ltd.
Monty Hallův problém je pojmenován podle televizní herní show Let’s Make a Deal, kterou moderoval Monty Hall. Problém je formulován následovně. Předpokládejme, že místnost je vybavena třemi (zavřenými) dveřmi. Za dvěma jsou kozy a za třetím je nablýskané nové auto. Jste požádáni, abyste si vybrali dveře a vyhrajete, co je za nimi. Řekněme, že si vyberete dveře 1. Před otevřením těchto dveří však někdo, kdo ví, co je za dveřmi (Monty Hall), otevře jedny z dalších dvou dveří, za nimiž není auto, čímž odhalí kozu, a zeptá se vás, zda chcete změnit svůj výběr na třetí dveře (tj. dveře, které jste nevybrali ani on neotevřel). Problém Montyho Halla spočívá v rozhodování, zda ano. Další čtení na Statistics by Jim.
Havraní paradox (Hempelův paradox) na Wikipedia: ilustrace rozporu mezi induktivní logikou a intuicí.
Občanské sdružení Sisyfos – Český klub skeptiků.
American Statistical Association Portal. The online home for the publications of the American Statistical Association.
Andrew Gelman … is a professor of statistics and political science and director of the Applied Statistics Center at Columbia University.
David M. Lane: HyperStat Online Statistics Textbook.
Grafy a triky/podvůdky s nimi, falešné korelace …
Jednoduché triky používané manipulátory.
Měli bychom používat koláčový graf?
Příklady falešných korelací.
Church of the Flying Spaghetti Monster: Open Letter To Kansas School Board – You may be interested to know that global warming, earthquakes, hurricanes, and other natural disasters are a direct effect of the shrinking numbers of Pirates since the 1800s. For your interest, I have included a graph of the approximate number of pirates versus the average global temperature over the last 200 years. As you can see, there is a statistically significant inverse relationship between pirates and global temperature.
Robert Matthews: Storks Deliver Babies (p= 0.008). Stažitelné z URL https://www.researchgate.net/publication/227763292_Storks _Deliver _Babies _p _ 0008.
Titanic: Machine Learning from Disaster.
Data o COVID-19:
ÚZIS: COVID‑19 datové sady
COVID‑19: Přehled aktuální situace v ČR
COVID‑19 v ČR: Otevřené datové sady, verze 1
COVID‑19 v ČR: Otevřené datové sady, verze 2
COVID‑19 v ČR: Otevřené datové sady, verze 3
Wolfram COVID-19 Data & Resources
—