Dolování dat Vyhodnocení výsledků – 1. část Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Deskriptivní úlohy •Klasifikační úlohy •Hodnocení jedním/dvěma čísly Deskriptivní úlohy •kritériem novost, zajímavost, užitečnost a srozumitelnost Kvalitativní hodnocení •zřejmé znalosti, které jsou ve shodě se „zdravým selským rozumem“ •zřejmé znalosti, které jsou ve shodě se znalostmi experta z dané oblasti •nové, zajímavé znalosti, které přinášejí nový pohled •znalosti, které musí expert podrobit bližší analýze, neboť není zcela jasné co znamenají •„znalosti“, které jsou v rozporu se znalostmi experta Kvantitativní hodnocení •Např. spolehlivost a podpora u pravidel Pozor, ne vše co je statisticky významné je i zajímavé! Expert = odborník na danou oblast, např. lékař nebo bankéř (nemusí vědět nic o Dolování dat) csvukrs Klasifikační úlohy •kritériem úspěšnost klasifikace (predikce) na datech • • Testování modelů •testování na celých trénovacích datech •náhodné rozdělení na část trénovací a testovací •křížová validace (cross-validation) •leave-one-out •bootstrap (náhodný výběr s opakováním pro učení) •testování na testovacích datech Cílem je zjistit v kolika případech došlo ke shodě resp. neshodě modelu (systému) s informací od učitele csvukrs Matice záměn (Confusion matrix) Naivní Bayes Skutečnost Predikce ano ano ano ano ne ano ano ano ano ano ne ne ano ano ano ano ne ne ano ano ne ne ano ano Matice záměn (Confusion matrix) Rozhodovací stromy Skutečnost Predikce ano ano ano ano ne ne ano ne ano ne ne ne ano ano ano ano ne ne ano ano ne ne ano ne Hodnocení jedním/dvěma čísly csvukrs Správnost pro jednotlivé třídy csvukrs Přesnost a úplnost •Vyhledávání informací - Přesnost nám říká, kolik nalezených dokumentů se skutečně týká daného tématu a úplnost nám říká, kolik dokumentů týkajících se tématu jsme nalezli Interpretace úplnosti: Z těch, co jsou ano, kolik z nich predikujeme, že jsou ano. csvukrs Sensitivita a specificita Hodnocení kvality testu na nějakou nemoc: •U kolika nemocných (ano) pacientů řekne test, že mají jsou nemocní (ano) – sensitivita •U kolika zdravých (ne) pacientů řekne test, že mají jsou zdraví (ne) - specificita Interpretace sensitivity: Úplnost pro třídu ano. Interpretace specificity: Úplnost pro třídu ne. csvukrs Jen počet chyb nebo i ceny/náklady a výnosy Chyba bez ceny Err = 1 – Acc Chyba s cenami Err = FP * cFP + FN * cFN cFP – cena za chybné zařazení ne do ano cFN – cena za chybné zařazení ano do ne csvukrs Příklad Evaluace tří modelů získaných pro data 4521 klientů portugalské banky (L:\gorecki\Public\NPDOD-NKDOD\Data\bank.csv) 1.Naive Bayes 2.Classification Tree 3.Classification Tree – Optimalizovaný parametr Minimální velikost listu (MinLeafSize) (75% trénovací, 25% testovací) 2. Classification Tree 3. Classification Tree 3. Průběh optimalizace Příklad Pozor: radky a sloupce jsou prehozene vuci Matici záměn v předchozích slidech Příklad – Matice cen za chybu T12-SAS-matice-cen Pokud pošlu leták všem: zisk = 90 * 127 – 10 * 1130 = 130 Příklad zisk 4730 4310 3190 5820 Pozor: radky a sloupce jsou prehozene vuci Matici záměn v předchozích slidech Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz