Dolování dat Úvodní informace a požadavky na absolvování Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz mineiro2.jpg •Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) • • • • Dolování dat (Data mining) Mail (spam kontrola), kreditka (kontrola na fraud), amazon a ebay (doporuceni na prodikt), auto (optimalizace p rovozu) The data-mining tag says: Data mining is the process of analyzing large amounts of data in order to find patterns and commonalities. The pattern-recognition tag says: Pattern recognition is the term given to the science of automating the classification of input into pre-determined categories, or on the other hand, of being able to recognise particular categories of input by their characteristics. • Deep learning © MIT 6.S191: Introduction to Deep Learning Rozpoznávání obrazu, Alphazero šachy, AlphaGo, generování hudby, autonomní řízení aut, AlphaStar Hudba: https://www.youtube.com/watch?v=UWxfnNXlVy8 Čas: 3:50 Auta: https://www.youtube.com/watch?v=H-HVZJ7kGI0&index=1&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI Čas: 32:30 Deep nostalgia: https://www.youtube.com/watch?v=TWY1uBK4Zxc Nepravost UFO: https://www.zive.cz/clanky/technika-defmo-s-ceskymi-koreny-na-cvut-odhalila-ze-na-utahem-neletelo-u fo-ale-raroh-velky/sc-3-a-211016/default.aspx •Dolování dat: –Prezenční forma: 13 přednášek a 12 seminářů, –Kombinovaná forma: 3 přednášky •zakončena zkouškou • Obecné informace o předmětu csvukrs •Proces dolování dat Dolování dat, úlohy dolování dat, metodiky pro dolování dat •Statistika v kontextu dolování dat Kontingenční tabulky, regresní analýza, diskriminační analýza, shluková analýza •Strojové učení Základní pojmy, principy strojového učení, typy strojového učení, formy strojového učení, trénovací data, atributy, chybová funkce •Metody dolování dat Rozhodovací stromy, Rozhodovací pravidla, Neuronové sítě, Genetické algoritmy, bayesovské metody, metody založené na analogii •Evaluace modelů kritéria, deskriptivní úlohy, klasifikační úlohy, vizualizace modelů, vizualizace klasifikací, porovnávání modelů, volba nejvhodnějšího algoritmu, kombinování modelů •Předzpracování dat Příprava dat, strukturovaná data, více vzájemně propojených tabulek, odvozené atributy, příliš mnoho objektů, příliš mnoho atributů, numerické atributy, kategoriální atributy, chybějící hodnoty Stručná anotace předmětu csvukrs •docházka na semináře min. 60% (10 % hodnocení), •zpracování seminární práce (30% hodnocení), –Analýza vybraných dat dle metodiky CRISP-DM pomocí metod dolování dat (alespoň 5 metod celkově, z nichž alespoň 2 statistické a alespoň 3 ze strojového učení) – odevzdání přes odevzdávárnu v IS SU do 20.12.2023 23:55 •zkouška (60% hodnocení) • •Celkem maximum: 100 •Požadované minimum: 60 • Požadavky na absolvování předmětu – prezenční forma csvukrs •docházka se nevyžaduje (ale je hodnocena až 10% hodnocení) •zpracování seminární práce (30% hodnocení), –Analýza vybraných dat dle metodiky CRISP-DM pomocí metod dolování dat (alespoň 5 metod celkově, z nichž alespoň 2 statistické a alespoň 3 ze strojového učení) – odevzdání přes odevzdávárnu v IS SU do 20.12.2023 23:55 •zkouška (60% hodnocení) • •Celkem maximum: 100 •Požadované minimum: 60 • Požadavky na absolvování předmětu – kombinovaná forma csvukrs •Veškeré elektronické materiály je možné nalézt na školní síti: L:\gorecki\public\NPDOD-NKDOD\ (přes https://raimundo.opf.slu.cz/NetStorage/ popř. files.opf.slu.cz) • • Výukové materiály csvukrs •Povinná: •BERKA, P. a GÓRECKI, J., 2017. Dolování dat. Skripta SU OPF, Karviná. •BERKA, P., 2003. Dobývání znalostí z databází. Praha: Academia. ISBN 80-200-1062-9. • •Doporučená: •CLARK, B., E. FOKOUE a H. H. ZHANG, 2009. Principles and theory for data mining and machine learning. New York: Springer. ISBN 978-0-387-98134-5. •MURPHY, K. P., 2012. Machine learning: A probabilistic perspective. London, England: The MIT Press. ISBN 978-0-262-01802-9. Literatura csvukrs •MATLAB –Statistics and Machine Learning Toolbox –https://www.mathworks.com/solutions/data-science.html –trial verze z mathworks.com –Octave – free verze MATLABu •Python •R •RapidMiner • • Software csvukrs •Nejlépe vlastní • •UC Irvine Machine Learning Repository https://archive.ics.uci.edu •Kaggle: Your Home for Data Science https://www.kaggle.com • •KEEL - dataset repository http://www.keel.es a tam KEEL-dataset Data csvukrs Dolování dat Dolování dat Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Definice … •Historie … •Úlohy … •Příklad … •Postupy (metodiky) … •Software pro … … Dolování dat •Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) • • • • Dolování dat (Data mining) Mail (spam kontrola), kreditka (kontrola na fraud), amazon a ebay (doporuceni na produkt), auto (optimalizace p rovozu) The data-mining tag says: Data mining is the process of analyzing large amounts of data in order to find patterns and commonalities. The pattern-recognition tag says: Pattern recognition is the term given to the science of automating the classification of input into pre-determined categories, or on the other hand, of being able to recognise particular categories of input by their characteristics. Trocha historie (1950) https://en.wikipedia.org/wiki/DJ_Patil In 1936, philosopher Alfred Ayer considered the standard philosophical question of other minds: how do we know that other people have the same conscious experiences that we do? •Klasifikace/Predikce –Cíl: Nalézt znalosti použitelné pro klasifikaci nových případů. –Příklad: Predikce akciových cen, klasifikace e-mailů jako spam nebo ne-spam. •Deskripce –Cíl: Nalézt dominantní strukturu nebo vazby skryté v datech. Dáváme přednost menšímu počtu méně přesných avšak srozumitelných pravidel. –Příklad: Analýza sociálních médií odhalila, že pozitivní recenze na film často korelují s vyššími prodeji vstupenek v prvním týdnu promítání. •Hledání „Nugetů“ –Cíl: Nalézt dílčí překvapivé (vzácné, cenné) znalosti. –Příklad: Odhalení neobvyklých nákupních vzorců v datech o prodeji. Úlohy dobývání znalostí csvukrs Detekce Spamu - Shromažďování a Předzpracování Dat 1. Shromažďování Trénovacích Dat: ·Příklad: Sbíráme 1000 e-mailů, z nichž 500 je označeno jako spam a 500 jako ne-spam. Data jsou anonymizována, aby byly odstraněny všechny osobní informace. 2. Předzpracování Dat: ·Příklad: E-maily jsou pročištěny od nepotřebných dat, jako jsou hlavičky e-mailů, a text je převeden na malá písmena. "KUP TEĎ!!!" se stane "kup teď". Detekce Spamu - Analýza Dat (metoda Naivní Bayes) 3. Analýza Dat s Naivním Bayesem: ·Základní Idea: Naivní Bayes je statistický klasifikační model založený na Bayesově teorému. Je "naivní", protože předpokládá nezávislost mezi jednotlivými slovy (nebo rysy) ve zprávě, což ve skutečnosti nemusí být vždy pravda. Příklad Použití Naivního Bayese: ·Trénovací Data: Máme trénovací data, kde jsou e-maily již označeny jako spam nebo ne-spam. Model se učí z těchto dat, jak rozpoznat charakteristiky spamových a ne-spamových e-mailů. ·Výpočet Pravděpodobnosti: Model vypočítá pravděpodobnost, že daný e-mail je spam nebo ne, na základě frekvence slov v e-mailu. Například, e-mail obsahující slova jako "sleva", "klikněte" a "zdarma" může mít vyšší pravděpodobnost být označen jako spam. ·Klasifikace: E-mail je klasifikován jako spam nebo ne-spam na základě vypočítané pravděpodobnosti. Detekce Spamu - Aplikace Modelu a Výsledek 4. Výsledek Analýzy: ·Příklad: Model je nyní schopen s přesností 95% identifikovat, zda je nový e-mail spam nebo ne, na základě jeho obsahu a charakteristik. 5. Aplikace Modelu: ·Příklad: Model je integrován do e-mailového systému. Když přijde nový e-mail obsahující "kup teď", je automaticky přesunut do složky se spamem. 6. Aktualizace Modelu: ·Příklad: Model se pravidelně aktualizuje s novými daty, aby se zlepšila jeho přesnost. Pokud některé spamové e-maily projdou, uživatelé je mohou manuálně označit jako spam, což pomáhá modelu se učit a zlepšovat. 7. Výsledek: ·Příklad: Uživatelé vidí výrazné snížení spamu v jejich doručené poště, což jim umožňuje se soustředit na důležité e-maily a zvyšuje jejich produktivitu. •Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů), •Predikce vývoje kursů akcií, •Predikce spotřeby elektrické energie, •Analýza příčin poruch v telekomunikačních sítích, •Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony), •Segmentace a klasifikace klientů pojišťovny, •Určení příčin poruch automobilů, •Rozbor databáze pacientů v nemocnici, Aplikační oblasti pro dobývání znalostí csvukrs •V současnosti de-facto standard podporovaný většinou systémů pro dobývání znalostí • • • • • • • • • • • Metodika CRISP-DM Data Mining Crisp-met csvukrs •pokrývají celý proces dobývání znalostí (od předzpracování po interpretaci), •nabízejí více algoritmů pro analýzu (než „jednoúčelové” systémy strojového učení), •kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků). • Systémy pro dobývání znalostí z databází csvukrs Systémy pro dobývání znalostí z databází csvukrs MATLAB, Rapid Miner, Python, R csvukrs Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz Rozpoznání činnosti uživatele https://www.mathworks.com/videos/machine-learning-with-matlab-100694.html?elqsid=1569409667237&pote ntial_use=Education Čas 1:25