Dolování dat Úvodní informace a požadavky na absolvování Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz mineiro2.jpg •Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) • • • • Dolování dat (Data mining) Mail (spam kontrola), kreditka (kontrola na fraud), amazon a ebay (doporuceni na prodikt), auto (optimalizace p rovozu) The data-mining tag says: Data mining is the process of analyzing large amounts of data in order to find patterns and commonalities. The pattern-recognition tag says: Pattern recognition is the term given to the science of automating the classification of input into pre-determined categories, or on the other hand, of being able to recognise particular categories of input by their characteristics. • Deep learning © MIT 6.S191: Introduction to Deep Learning Rozpoznávání obrazu, Alphazero šachy, AlphaGo, generování hudby, autonomní řízení aut Hudba: https://www.youtube.com/watch?v=UWxfnNXlVy8 Čas: 3:50 Auta: https://www.youtube.com/watch?v=H-HVZJ7kGI0&index=1&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI Čas: 32:30 •Dolování dat: –Prezenční forma: 13 přednášek a 12 seminářů, –Kombinovaná forma: 3 přednášky •zakončena zkouškou • Obecné informace o předmětu csvukrs •Proces dolování dat Dolování dat, úlohy dolování dat, metodiky pro dolování dat •Statistika v kontextu dolování dat Kontingenční tabulky, regresní analýza, diskriminační analýza, shluková analýza •Strojové učení Základní pojmy, principy strojového učení, typy strojového učení, formy strojového učení, trénovací data, atributy, chybová funkce •Metody dolování dat Rozhodovací stromy, Rozhodovací pravidla, Neuronové sítě, Genetické algoritmy, bayesovské metody, metody založené na analogii •Evaluace modelů kritéria, deskriptivní úlohy, klasifikační úlohy, vizualizace modelů, vizualizace klasifikací, porovnávání modelů, volba nejvhodnějšího algoritmu, kombinování modelů •Předzpracování dat Příprava dat, strukturovaná data, více vzájemně propojených tabulek, odvozené atributy, příliš mnoho objektů, příliš mnoho atributů, numerické atributy, kategoriální atributy, chybějící hodnoty Stručná anotace předmětu csvukrs •docházka na semináře min. 60% (10 % hodnocení), •zpracování seminární práce (30% hodnocení), –Analýza vybraných dat dle metodiky CRISP-DM pomocí metod dolování dat (alespoň 5 metod celkově, z nichž alespoň 2 statistické a alespoň 3 ze strojového učení) •zkouška (60% hodnocení) • •Celkem maximum: 100 •Požadované minimum: 60 • Požadavky na absolvování předmětu csvukrs •Veškeré elektronické materiály je možné nalézt na školní síti: L:\gorecki\public\NPDOD-NKDOD \ (přes https://raimundo.opf.slu.cz/NetStorage/ popř. files.opf.slu.cz) • • Výukové materiály csvukrs •Povinná: •BERKA, P. a GÓRECKI, J., 2017. Dolování dat. Skripta SU OPF, Karviná. •BERKA, P., 2003. Dobývání znalostí z databází. Praha: Academia. ISBN 80-200-1062-9. • •Doporučená: •CLARK, B., E. FOKOUE a H. H. ZHANG, 2009. Principles and theory for data mining and machine learning. New York: Springer. ISBN 978-0-387-98134-5. •MURPHY, K. P., 2012. Machine learning: A probabilistic perspective. London, England: The MIT Press. ISBN 978-0-262-01802-9. Literatura csvukrs •MATLAB –Statistics and Machine Learning Toolbox –https://www.mathworks.com/solutions/data-science.html –trial verze z mathworks.com –Octave – free verze MATLABu •Python •R •RapidMiner • • Software csvukrs •Nejlépe vlastní • •UC Irvine Machine Learning Repository https://archive.ics.uci.edu/ml/index.php • •Kaggle: Your Home for Data Science https://www.kaggle.com/ • •KEEL - dataset repository http://www.keel.es/datasets.php Data csvukrs •Ing. Jan Górecki, Ph.D. •gorecki@opf.slu.cz •A407 • •konzultace po domluvě emailem • •Sekretariát Katedry informatiky a matematiky •A402 • Kontakty csvukrs Dolování dat Dolování dat Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Definice … •Historie … •Úlohy … •Pohledy na … •Postupy (metodiky) … •Software pro … •Příklad … … Dolování dat •Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) • • • • Dolování dat (Data mining) Mail (spam kontrola), kreditka (kontrola na fraud), amazon a ebay (doporuceni na prodikt), auto (optimalizace p rovozu) The data-mining tag says: Data mining is the process of analyzing large amounts of data in order to find patterns and commonalities. The pattern-recognition tag says: Pattern recognition is the term given to the science of automating the classification of input into pre-determined categories, or on the other hand, of being able to recognise particular categories of input by their characteristics. • •Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner (Hand, Manilla, Smyth, 2001) Dolování dat (Knowledge Discovery in Databases, Data Mining, ..., Knowledge Destilery, ....) csvukrs Trocha historie https://en.wikipedia.org/wiki/DJ_Patil •klasifikace/predikce: cílem je nalézt znalosti použitelné pro klasifikaci nových případů • • • • • Úlohy dobývání znalostí csvukrs •deskripce: cílem je nalézt dominantní strukturu nebo vazby • • • • • Úlohy dobývání znalostí Pravidla s velkým pokrytím: Ordinace v Růžové zahradě sledují hlavně 1) senioři a 2) ženy -> možnost prodeje reklamy (léky na bolavé klouby, přípravky na dodání energie, kosmetika) •hledání „nugetů“: cílem je nalézt dílčí překvapivé znalosti • • • • • Úlohy dobývání znalostí Pravidla s velkou spolehlivostí Chatuje-li se na FB muž s mužem o ježdění na horském kole -> FB mu nabídne reklamu na horská kola a příslušenství, popř. cyklozájezd pro CHLAPY Stěžuje-li si žena kamarádce, že toho na ní je moc a bolí ji hlava -> FB mu nabídne reklamu na paralen a doplňky stravy Manažerský pohled csvukrs Pohled zpracování dat csvukrs Standardy pro dobývání znalostí - Metodiky KDD-Methodologies (Marban a kol, 2009) https://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html CRISP-DM 2.0 – nenašel jsem nic •Navržená pro Enterprise Miner firmy SAS: •Sample (vybrání vhodných objektů), •Explore (vizuální explorace a redukce dat), •Modify (seskupování objektů a hodnot atributů, datové transformace), •Model (analýza dat: neuronové sítě, rozhodovací stromy, statistické techniky, asociace a shlukování), •Assess (porovnání modelů a interpretace). • Metodika SEMMA SEMMA-c csvukrs •V současnosti de-facto standard podporovaný většinou systémů pro dobývání znalostí • • • • • • • • • • • Metodika CRISP-DM Data Mining Crisp-met csvukrs •pokrývají celý proces dobývání znalostí (od předzpracování po interpretaci), •nabízejí více algoritmů pro analýzu (než „jednoúčelové” systémy strojového učení), •kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků). • Systémy pro dobývání znalostí z databází csvukrs Systémy pro dobývání znalostí z databází csvukrs MATLAB csvukrs Rapid Miner csvukrs Python (Orange) Orange: It is machine Learning and Data Mining tool which is written in Python Language. With the help of Python Scripting data mining can be done. It also has the feature for text mining and data fusion. It also uses different open-source python libraries such as numpy, scipy and its GUI takes place within the cross-platform Qt framework. R csvukrs •Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů), •Predikce vývoje kursů akcií, •Predikce spotřeby elektrické energie, •Analýza příčin poruch v telekomunikačních sítích, •Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony), •Segmentace a klasifikace klientů pojišťovny, •Určení příčin poruch automobilů, •Rozbor databáze pacientů v nemocnici, •Rozpoznání činnosti uživatele pomocí senzorů z mobilního telefonu. Aplikační oblasti pro dobývání znalostí csvukrs Rozpoznání činnosti uživatele https://www.mathworks.com/videos/machine-learning-with-matlab-100694.html?elqsid=1569409667237&pote ntial_use=Education csvukrs Rozpoznání činnosti uživatele https://www.mathworks.com/videos/machine-learning-with-matlab-100694.html?elqsid=1569409667237&pote ntial_use=Education csvukrs Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz