Dolování dat Bayesovská klasifikace Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Podmíněná pravděpodobnost •Bayesova věta •Použití pro klasifikaci •Příklad •Naivní bayesovský klasifikátor •Příklad •Shrnutí mineiro2.jpg Podmíněná pravděpodobnost Co je pravděpodobnost vs odhad pravděpodobnosti? Bayesova věta Např. (bankovní úloha) H = splatil úvěr E = příjem(vysoký) https://en.wikipedia.org/wiki/Bayes%27_theorem 𝑃(𝐻│𝐸) nejde typicky spočítat např. u spamových filtrů Použití pro klasifikaci csvukrs Optimalita bayesovské klasifikace vzhledem ke správnosti klasifikace csvukrs Příklad •poskytování úvěru, tentokrát ale pouze na základě výše příjmu •banka vyhoví u 2/3 žádosti o úvěr; tedy apriorní pravděpodobnosti budou P(půjčit)=0.667 a P(nepůjčit)=0.333 •vysoký příjem mělo 91% klientů, kterým banka půjčila a nízký příjem mělo 88% klientů, kterým banka nepůjčila • • P(příjem(vysoký)|půjčit) = 0.91 P(příjem(nízký)|půjčit) = 0.09 P(příjem(vysoký)|nepůjčit) = 0.12 P(příjem(nízký)|nepůjčit) = 0.88 csvukrs Příklad •Předpokládejme, že posuzujeme klienta s vysokým příjmem. •Bude větší pravděpodobnost, že banka půjčí nebo že nepůjčí? Podle Bayesovy věty: P(příjem(vysoký)|půjčit) × P(půjčit) = 0.607 P(příjem(vysoký)|nepůjčit) × P(nepůjčit) = 0.040 Tedy HMAP = půjčit. csvukrs Naivní bayesovský klasifikátor Např. (bankovní úloha) H = půjčit E1 = příjem(vysoký) E2 = konto(střední) Ilustrovat na spam filtrech. Naivní bayesovský klasifikátor Např. (bankovní úloha) Aj(vi) = příjem(vysoký) C(vt) = úvěr(půjčit) csvukrs Naivní bayesovský klasifikátor •Neprovádí prohledávání prostoru hypotéz. •Stačí jen spočítat příslušné pravděpodobnosti na základě četnosti výskytů hodnot jednotlivých atributů. • • • • csvukrs Příklad P(úvěr(ano)) = 8/12 = 0.667 P(úvěr(ne)) = 4/12 = 0.333 P(konto(střední)|úvěr(ano)) = 2/8 = 0.25 P(konto(střední)|úvěr(ne)) = 2/4 = 0.5 P(nezaměstnaný(ne)|úvěr(ano)) = 5/8 = 0.625 P(nezaměstnaný(ne)|úvěr(ne)) = 1/4= 0.25 csvukrs Příklad Uchazeč o úvěr, který má střední konto a není nezaměstnaný: P(úvěr(ano)) * P(konto(střední)|úvěr(ano)) * P(nezaměstnaný(ne) |úvěr(ano)) = 0.1042 P(úvěr(ne)) * P(konto(střední)|úvěr(ne)) * P(nezaměstnaný(ne)|úvěr(ne)) = 0.0416 Naivní bayesovský klasifikátor zařadí tohoto uchazeče do třídy úvěr(ano). •Klasifikovali jsme neúplně popsaný případ, který by zůstal nezařazen dříve vytvořenými rozhodovacími stromy nebo neuronovými sítěmi. csvukrs Příklad Pro ženu, která má nízký příjem, střední konto a není nezaměstnaná: P(úvěr(ano)) P(příjem(nízký)|úvěr(ano)) P(konto(střední)|úvěr(ano)) P(pohlaví(žena)|úvěr(ano)) P(nezaměstnaný(ne)|úvěr(ano)) = 0.0195 P(úvěr(ne)) P(příjem(nízký)|úvěr(ne)) P(konto(střední)|úvěr(ne)) P(pohlaví(žena)|úvěr(ne)) P(nezaměstnaný(ne)|úvěr(ne)) = 0.0208 Uchazečka bude zařazena do třídy úvěr(ne). •Tento příklad nebyl v trénovacích datech, klasifikátor má tedy schopnost generalizovat csvukrs Shrnutí •Schopnost klasifikovat příklady do tříd s určitou pravděpodobností. •Tuto pravděpodobnost můžeme interpretovat jako spolehlivost rozhodnutí. •I přes naivitu je Naivní Bayes překvapivě přesný •Lze jednoduše naimplementovat (naprogramovat) •Pro nezkušené uživatele však může být reprezentace znalostí ve formě (podmíněných) pravděpodobností méně srozumitelná Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz Pokud E je nekonečně mnoho T3-diskriminace_ruzneSD