Dolování dat Vyhodnocení výsledků – 1. část Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Motivace •Deskriptivní úlohy •Klasifikační úlohy •Hodnocení jedním/dvěma čísly •Reálná úloha Motivace Zadarmo ani kuře nehrabe. (Nikde nelétají pečení holubi do huby! Bez práce nejsou koláče, …) No free lunch pro učení s učitelem https://cs.bab.la/slovnik/anglicky-cesky/there-s-no-such-thing-as-free-lunch Deskriptivní úlohy •kritériem novost, zajímavost, užitečnost a srozumitelnost Kvalitativní hodnocení •zřejmé znalosti, které jsou ve shodě se „zdravým selským rozumem“ •zřejmé znalosti, které jsou ve shodě se znalostmi experta z dané oblasti •nové, zajímavé znalosti, které přinášejí nový pohled •znalosti, které musí expert podrobit bližší analýze, neboť není zcela jasné co znamenají •„znalosti“, které jsou v rozporu se znalostmi experta Kvantitativní hodnocení •Např. spolehlivost a podpora u pravidel Pozor, ne vše co je statisticky významné je i zajímavé! Expert = odborník na danou oblast, např. lékař nebo bankéř (nemusí vědět nic o Dolování dat) Učení bez učitele Klasifikační úlohy – motivační příklad -Data (10 bodů metráž bytu vs cena, z kubické funkce + error -Modely – lin, kvard, kub a x na 10 -Zobrazit modely a chyby -Pak ilustrovat problém x na 10 na nových datech Klasifikační úlohy •kritériem úspěšnost klasifikace (predikce) na datech • • Testování modelů •testování na celých trénovacích datech •náhodné rozdělení na část trénovací a testovací •křížová validace (cross-validation) •leave-one-out •bootstrap (náhodný výběr s opakováním pro učení) •testování na testovacích datech Cílem je zjistit v kolika případech došlo ke shodě resp. neshodě modelu (systému) s informací od učitele csvukrs Matice záměn (Confusion matrix) Naivní Bayes Skutečnost Predikce ano ano ano ano ne ano ano ano ano ano ne ne ano ano ano ano ne ne ano ano ne ne ano ano Matice záměn (Confusion matrix) Rozhodovací stromy Skutečnost Predikce ano ano ano ano ne ne ano ne ano ne ne ne ano ano ano ano ne ne ano ano ne ne ano ne Hodnocení jedním/dvěma čísly csvukrs Správnost pro jednotlivé třídy csvukrs Přesnost a úplnost •Vyhledávání informací - Přesnost nám říká, kolik nalezených dokumentů se skutečně týká daného tématu a úplnost nám říká, kolik dokumentů týkajících se tématu jsme nalezli Interpretace úplnosti: Z těch, co jsou ano, kolik z nich predikujeme, že jsou ano. csvukrs Sensitivita a specificita Hodnocení kvality testu na nějakou nemoc: •U kolika nemocných (ano) pacientů řekne test, že jsou nemocní (ano) – sensitivita •U kolika zdravých (ne) pacientů řekne test, že jsou zdraví (ne) - specificita Interpretace sensitivity: Úplnost pro třídu ano. Interpretace specificity: Úplnost pro třídu ne. csvukrs Jen počet chyb nebo i ceny/náklady a výnosy Chyba bez ceny Err = 1 – Acc Chyba s cenami Err = FP * cFP + FN * cFN cFP – cena za chybné zařazení ne do ano cFN – cena za chybné zařazení ano do ne csvukrs Příklad Evaluace tří modelů získaných pro data 4521 klientů portugalské banky (L:\gorecki\Public\NPDOD-NKDOD\Data\bank.csv) 1.Naive Bayes 2.Classification Tree 3.Classification Tree – Optimalizovaný parametr Minimální velikost listu (MinLeafSize) (75% trénovací, 25% testovací) 2. Classification Tree 3. Classification Tree 3. Průběh optimalizace Příklad Pozor: radky a sloupce jsou prehozene vuci Matici záměn v předchozích slidech Příklad – Matice cen za chybu T12-SAS-matice-cen Pokud pošlu leták všem: zisk = 90 * 127 – 10 * 1130 = 130 Interpretace: Když predikuji 100% správně, vydělám maximum (=MAX) 1) Pokud udělám chybu “predikce yes, ale skutečnost no”, pak prodělám 10$. 2) Pokud udělám chybu “predikce no, ale skutečnost yes”, pak přijdu o zisk 80$!!. Zde je potřeba zvážit dvě teoretické situace (koupil by, kdybych poslal?): 1)Pokud ne, tak jsem šul nul 2)Pokud ano, tak jsem teoreticky přišel o zisk 80$!! Situace 1 a 2 (TN a FN) Situace 3 (FP) Situace 4 (TP) 127 + 1130 jsou testovaci data!! Příklad zisk 4730 4310 3190 5820 Pozor: radky a sloupce jsou prehozene vuci Matici záměn v předchozích slidech Pozorování: Target class (skutečnost) 2 (=koupili) u modelu s váženou chybou má daleko větší pokrytí než zbylé modely, což, i přesto že má model nižší správnost a přesnost pro třídu 2´, dává vyšší zisk! Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz