Dolování dat Statistika v kontextu dolování dat Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Typy statistických metod •Kontingenční tabulky •Regresní analýza •Diskriminační analýza •Shluková analýza mineiro2.jpg •A formal science that deals with collection, analysis, interpretation, explanation and presentation of (usually numerical) data. Statistika csvukrs •Deskripční – cílem je popsat základní charakteristiky daných dat •Konfirmační – cílem je potvrdit resp. vyvrátit zkoumanou hypotézu •Explorační – cílem je “objevit” možnou hypotézu, která je podporovaná daty Statistické metody csvukrs Kontingenční tabulky •zjišťování vztahu mezi dvěma kategoriálními veličinami Úvěr ano Úvěr ne å Vysoký příjem a11 a12 r1 Nízký příjem a21 a22 r2 å s1 s2 n čtyřpolní tabulka příjem úvěr vysoký ano vysoký ano nízký ne nízký ano nízký ano nízký ne vysoký ano vysoký ano nízký ne vysoký ano nízký ne nízký ano csvukrs •c2 test: • • c2 = • • • Kontingenční tabulky pro c2 ³ c2(R-1)(S-1)(a) předpokládáme závislost mezi X a Y oij …očekávané množství při platnosti hypotézy o nezávislosti veličin csvukrs •zjišťování funkční závislosti jedné numerické (spojité) veličiny na jiných numerických veličinách • •lineární regrese pro dvě veličiny x a y: •y = β1x + β0 + e. • •Hodnoty koeficientů (β1 a β0) se zjišťují pomocí: •Metoda nejmenších čtverců Regresní analýza T3-linearni regrese csvukrs •Tato metoda minimalizuje rozdíly mezi pozorovanou hodnotou y a očekávanou hodnotou ŷ=f(x) spočítanou v tomto případě na základě funkce β1x + β0 • • • • • • • • • • Metoda nejmenších čtverců •uvažujeme druhou mocninu (kvadrát, čtverec) těchto rozdílů: (y - f(x))2 csvukrs •pro odlišení příkladů patřících do různých tříd • •Předpokládáme, že ke každé třídě (hodnotě nominální veličiny) cj, j=1,…,R existuje (diskriminační) funkce fj taková, že •fj(x) = maxi fi(x) •právě když příklad x=[x1, x2, …, xv] patří do třídy cj. Diskriminační analýza csvukrs f1 i f2 stejný rozptyl T3-diskriminace_stejneSD csvukrs f1 a f2 různý rozptyl T3-diskriminace_ruzneSD csvukrs Shluková analýza dE(x1,x2) = c csvukrs Hammingova vzdálenost dE(x1,x2) = a+b csvukrs Čebyševova vzdálenost dE(x1,x2) = a csvukrs Rozdíl mezi dH(x1,x2), dE(x1,x2) a dC(x1,x2) ve 2D Pozor: pro 1D všechny vzdálenosti splývají (dávají stejný výsledek) csvukrs •Výše uvedené míry vzdálenosti závisí na měřítku veličin. Proto je třeba veličiny normovat •Konkrétní hodnota se obvykle dělí nějakou jinou hodnotou: –směrodatnou odchylkou –rozpětím (max-min). Normování csvukrs •hierarchické shlukování, •metoda K-středů (K-means clustering). • Metody shlukové analýzy csvukrs Algoritmus hierarchického shlukování Inicializace 1.urči vzájemné vzdálenosti mezi všemi příklady 2.zařaď každý přiklad do samostatného shluku hlavní cyklus 1. dokud je vice než jeden shluk 1.1. najdi dva navzájem nejbližší shluky a spoj je 1.2. spočítej pro tento nový shluk jeho vzdálenost od ostatnich shluků Hierarchické shlukování Při hierarchickém shlukování se obvykle postupuje metodou „zdola nahoru“. Začíná se tedy v situaci, kdy každý příklad tvoří jeden samostatný shluk. Postupně se pak jednotlivé shluky spojují, až skončíme s jedním shlukem obsahujícím všechny příklady csvukrs Vzdálenost mezi shluky csvukrs •Proces hierarchického shlukování bývá zachycen v podobě tzv. dendrogramu. Ten ukazuje (odspoda nahoru) postupné spojováni shluků počínaje očíslovanými příklady. Optimální počet shluků zde není předem znám, odvodíme ho až rozborem výsledků – tak, že někde dendrogram „rozřízneme“ • • • • • Dendrogram csvukrs Příklad Jak proběhne hierarchické shlukování pro 4 jednorozměrné body A = [0], B = [1], C = [3] a D = [4,5] pro eukleidovskou vzdálenost a metodu nejbližšího souseda? •1. urči centroidy pro všechny shluky v aktuálním rozkladu (v prvním opakování zcela náhodně) •2. pro každý příklad x –2.1. urči vzdálenosti d(x,ck), k=1,…,K kde ck je centroid k-tého shluku –2.2. urči centroid cl tak, že d(x,cl) = mink d(x,ck) –2.3. není-li x součástí shluku l (k jehož centroidu cl má nejblíže) přesuň x do shluku l •3. došlo-li k nějakému přesunu potom jdi na 1, jinak konec • Metoda K –středů - Algoritmus csvukrs Ukázka algoritmu K-středů csvukrs Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz