Dolování dat Statistika v kontextu dolování dat Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Typy statistických metod •Kontingenční tabulky •Regresní analýza •Diskriminační analýza •Shluková analýza mineiro2.jpg •A formal science that deals with collection, analysis, interpretation, explanation and presentation of (usually numerical) data. • •Metody: •Deskripční – cílem je popsat základní charakteristiky daných dat •Konfirmační – cílem je potvrdit resp. vyvrátit zkoumanou hypotézu •Explorační – cílem je “objevit” možnou hypotézu, která je podporovaná daty Statistika a její metody csvukrs Motivace Sales – prodej produktu v tisících TV, Radio, Newspaper - rozpočet na reklamu v daném médiu Cíl: Na základě těchto údajů navrhněte marketingový plán na příští rok, který povede k vysokým prodejům produktů. Otázka: Jaké informace by byly užitečné pro poskytnutí takového doporučení? Motivace 1.Existuje vztah mezi rozpočtem na reklamu a prodejem? 2.Jak silný je vztah mezi rozpočtem na reklamu a prodejem? 3.Která média jsou spojena s prodejem? 4.Jaký je vztah mezi každým médiem a prodejem? 5.Jak přesně můžeme předpovídat budoucí prodeje? 6.Je vztah lineární? 7.Existuje synergie mezi reklamními médii? Lineární regrese Odhad parametrů modelu Beta0 = 7.03 Beta1 = 0.0475 Odpovědi na 7 otázek 1.Existuje vztah mezi rozpočtem na reklamu a prodejem? oAnalýza korelace a regresní analýza k identifikaci vztahu. 2.Jak silný je vztah mezi rozpočtem na reklamu a prodejem? oHodnocení koeficientu determinace (R²) k měření síly vztahu (R² odpovídá kvadrátu korelace X a Y). 3.Která média jsou spojena s prodejem? oVýsledky analýzy pro TV, Radio a Newspaper. 4.Jaký je vztah mezi každým médiem a prodejem? oHodnoty koeficientů regrese pro každé médium. 5.Jak přesně můžeme předpovídat budoucí prodeje? oModel predikce s odhadnutými parametry a intervaly spolehlivosti. 6.Je vztah lineární? oGrafická a statistická analýza pro ověření linearity vztahu. 7.Existuje synergie mezi reklamními médii? oVícerozměrná analýza interakcí mezi různými médii. Kontingenční tabulky •zjišťování vztahu mezi dvěma kategoriálními veličinami Úvěr ano Úvěr ne å Vysoký příjem a11 a12 r1 Nízký příjem a21 a22 r2 å s1 s2 n čtyřpolní tabulka příjem úvěr vysoký ano vysoký ano nízký ne nízký ano nízký ano nízký ne vysoký ano vysoký ano nízký ne vysoký ano nízký ne nízký ano c2 = pro c2 ³ c2(R-1)(S-1)(a) předpokládáme závislost mezi X a Y oij …očekávané množství při platnosti hypotézy o nezávislosti veličin Banka 1: a11 = a22 = 1000 a a12 = a21 = 0 versus Banka 2: a11 = a12 = a21 = 22 = 500 Kam mám raději jít, když mám vysoký příjem a kam, když mám příjem nízky? Shluková analýza dE(x1,x2) = c Jaká je tato vzdálenost pro body x1 = [1, 2] a x2 = [4,6]? csvukrs Minkovského (Manhattan) vzdálenost dE(x1,x2) = a+b Jaká je tato vzdálenost pro body x1 = [1, 2] a x2 = [4,6]? Kdyz musim obejit panelak Čebyševova vzdálenost dE(x1,x2) = max(a,b) = a Jaká je tato vzdálenost pro body x1 = [1, 2] a x2 = [4,6]? Rozdíl mezi dM(x1,x2), dE(x1,x2) a dC(x1,x2) ve 2D Pozor: pro 1D všechny vzdálenosti splývají (dávají stejný výsledek) csvukrs •Výše uvedené míry vzdálenosti závisí na měřítku veličin. Proto je třeba veličiny normovat (normalizovat) •Konkrétní hodnota se obvykle dělí nějakou jinou hodnotou: –směrodatnou odchylkou –rozpětím (max-min). Normování csvukrs •hierarchické shlukování, •metoda K-středů (K-means clustering). • Metody shlukové analýzy csvukrs Algoritmus hierarchického shlukování Inicializace 1.urči vzájemné vzdálenosti mezi všemi příklady 2.zařaď každý přiklad do samostatného shluku hlavní cyklus 1. dokud je vice než jeden shluk 1.1. najdi dva navzájem nejbližší shluky a spoj je 1.2. spočítej pro tento nový shluk jeho vzdálenost od ostatnich shluků Hierarchické shlukování Při hierarchickém shlukování se obvykle postupuje metodou „zdola nahoru“. Začíná se tedy v situaci, kdy každý příklad tvoří jeden samostatný shluk. Postupně se pak jednotlivé shluky spojují, až skončíme s jedním shlukem obsahujícím všechny příklady csvukrs Vzdálenost mezi shluky csvukrs •Proces hierarchického shlukování bývá zachycen v podobě tzv. dendrogramu. Ten ukazuje (odspoda nahoru) postupné spojováni shluků počínaje očíslovanými příklady. Optimální počet shluků zde není předem znám, odvodíme ho až rozborem výsledků – tak, že někde dendrogram „rozřízneme“ • • • • • Dendrogram csvukrs Příklad Jak proběhne hierarchické shlukování pro 4 jednorozměrné body A = [0], B = [1], C = [3] a D = [4,5] pro eukleidovskou vzdálenost a metodu nejbližšího souseda? •1. urči centroidy pro všechny shluky v aktuálním rozkladu (v prvním opakování zcela náhodně) •2. pro každý příklad x –2.1. urči vzdálenosti d(x,ck), k=1,…,K kde ck je centroid k-tého shluku –2.2. urči centroid cl tak, že d(x,cl) = mink d(x,ck) –2.3. není-li x součástí shluku l (k jehož centroidu cl má nejblíže) přesuň x do shluku l •3. došlo-li k nějakému přesunu potom jdi na 1, jinak konec • Metoda K –středů - Algoritmus csvukrs Ukázka algoritmu K-středů csvukrs Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz