Dolování dat Bayesovská klasifikace Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Bayesova věta •Použití pro klasifikaci •Příklad •Naivní bayesovský klasifikátor •Příklad •Shrnutí mineiro2.jpg Bayesova věta Např. (bankovní úloha) H = půjčit E = příjem(vysoký) https://en.wikipedia.org/wiki/Bayes%27_theorem 𝑃(𝐻│𝐸) nejde typicky spočítat např. u spamových filtrů Použití pro klasifikaci csvukrs Příklad •poskytování úvěru, tentokrát ale pouze na základě výše příjmu •banka vyhoví u 2/3 žádosti o úvěr; tedy apriorní pravděpodobnosti budou P(půjčit)=0.667 a P(nepůjčit)=0.333 •vysoký příjem mělo 91% klientů, kterým banka půjčila a nízký příjem mělo 88% klientů, kterým banka nepůjčila • • P(příjem(vysoký)|půjčit) = 0.91 P(příjem(nízký)|půjčit) = 0.09 P(příjem(vysoký)|nepůjčit) = 0.12 P(příjem(nízký)|nepůjčit) = 0.88 csvukrs Příklad •Předpokládejme, že posuzujeme klienta s vysokým příjmem. •Bude větší pravděpodobnost, že banka půjčí nebo že nepůjčí? Podle Bayesovy věty: P(příjem(vysoký)|půjčit) × P(půjčit) = 0.607 P(příjem(vysoký)|nepůjčit) × P(nepůjčit) = 0.040 Tedy HMAP = půjčit. csvukrs Pokud E je nekonečně mnoho T3-diskriminace_ruzneSD Výhody bayesovských metod csvukrs Naivní bayesovský klasifikátor Např. (bankovní úloha) H = půjčit E1 = příjem(vysoký) E2 = konto(střední) csvukrs Naivní bayesovský klasifikátor Např. (bankovní úloha) Aj(vi) = příjem(vysoký) C(vt) = úvěr(půjčit) csvukrs Naivní bayesovský klasifikátor •Neprovádí prohledávání prostoru hypotéz. •Stačí jen spočítat příslušné pravděpodobnosti na základě četnosti výskytů hodnot jednotlivých atributů. • • • • csvukrs Příklad P(úvěr(ano)) = 8/12 = 0.667 P(úvěr(ne)) = 4/12 = 0.333 P(konto(střední)|úvěr(ano)) = 2/8 = 0.25 P(konto(střední)|úvěr(ne)) = 2/4 = 0.5 P(nezaměstnaný(ne)|úvěr(ano)) = 5/8 = 0.625 P(nezaměstnaný(ne)|úvěr(ne)) = 1/4= 0.25 csvukrs Příklad Uchazeč o úvěr, který má střední konto a není nezaměstnaný: P(úvěr(ano)) P(konto(střední)|úvěr(ano)) P(nezaměstnaný(ne) |úvěr(ano)) = 0.1042 P(úvěr(ne)) P(konto(střední)|úvěr(ne)) P(nezaměstnaný(ne)|úvěr(ne)) = 0.0416 Naivní bayesovský klasifikátor zařadí tohoto uchazeče do třídy úvěr(ano). •Klasifikovali jsme neúplně popsaný případ, který by zůstal nezařazen dříve vytvořenými rozhodovacími stromy nebo neuronovými sítěmi. csvukrs Příklad Pro ženu, která má nízký příjem, střední konto a není nezaměstnaná: P(úvěr(ano)) P(příjem(nízký)|úvěr(ano)) P(konto(střední)|úvěr(ano)) P(pohlaví(žena)|úvěr(ano)) P(nezaměstnaný(ne)|úvěr(ano)) = 0.0195 P(úvěr(ne)) P(příjem(nízký)|úvěr(ne)) P(konto(střední)|úvěr(ne)) P(pohlaví(žena)|úvěr(ne)) P(nezaměstnaný(ne)|úvěr(ne)) = 0.0208 Uchazečka bude zařazena do třídy úvěr(ne). •Tento příklad nebyl v trénovacích datech, klasifikátor má tedy schopnost generalizovat csvukrs Nevýhody csvukrs Shrnutí •I přes naivitu je překvapivě přesný •Lze jednoduše naimplementovat (naprogramovat) •Pro nezkušené uživatele však může být reprezentace znalostí ve formě (podmíněných) pravděpodobností méně srozumitelná Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz