Dolování dat Úvodní informace a požadavky na absolvování Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz mineiro2.jpg •Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) • • • • Dolování dat (Data mining) Mail (spam kontrola), kreditka (kontrola na fraud), amazon a ebay (doporuceni na prodikt), auto (optimalizace p rovozu) The data-mining tag says: Data mining is the process of analyzing large amounts of data in order to find patterns and commonalities. The pattern-recognition tag says: Pattern recognition is the term given to the science of automating the classification of input into pre-determined categories, or on the other hand, of being able to recognise particular categories of input by their characteristics. • Deep learning © MIT 6.S191: Introduction to Deep Learning Rozpoznávání obrazu, Alphazero šachy, AlphaGo, generování hudby, autonomní řízení aut Hudba: https://www.youtube.com/watch?v=UWxfnNXlVy8 Čas: 3:50 Auta: https://www.youtube.com/watch?v=H-HVZJ7kGI0&index=1&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI Čas: 32:30 •Dolování dat: –Prezenční forma: 13 přednášek a 12 seminářů, –Kombinovaná forma: 3 přednášky •zakončena zkouškou • Obecné informace o předmětu csvukrs •Proces dolování dat Dolování dat, úlohy dolování dat, metodiky pro dolování dat •Statistika v kontextu dolování dat Kontingenční tabulky, regresní analýza, diskriminační analýza, shluková analýza •Strojové učení Základní pojmy, principy strojového učení, typy strojového učení, formy strojového učení, trénovací data, atributy, chybová funkce •Metody dolování dat Rozhodovací stromy, Rozhodovací pravidla, Neuronové sítě, Genetické algoritmy, bayesovské metody, metody založené na analogii •Evaluace modelů kritéria, deskriptivní úlohy, klasifikační úlohy, vizualizace modelů, vizualizace klasifikací, porovnávání modelů, volba nejvhodnějšího algoritmu, kombinování modelů •Předzpracování dat Příprava dat, strukturovaná data, více vzájemně propojených tabulek, odvozené atributy, příliš mnoho objektů, příliš mnoho atributů, numerické atributy, kategoriální atributy, chybějící hodnoty Stručná anotace předmětu csvukrs •docházka na semináře min. 60% (10 % hodnocení), •zpracování seminární práce (30% hodnocení), –Analýza vybraných dat dle metodiky CRISP-DM pomocí metod dolování dat (alespoň 5 metod celkově, z nichž alespoň 2 statistické a alespoň 3 ze strojového učení) •zkouška (60% hodnocení) • •Celkem maximum: 100 •Požadované minimum: 60 • Požadavky na absolvování předmětu csvukrs •Veškeré elektronické materiály je možné nalézt na školní síti: L:\gorecki\public\NPDOD-NKDOD \ (přes https://raimundo.opf.slu.cz/NetStorage/ popř. files.opf.slu.cz) • • Výukové materiály csvukrs •Povinná: •BERKA, P. a GÓRECKI, J., 2017. Dolování dat. Skripta SU OPF, Karviná. •BERKA, P., 2003. Dobývání znalostí z databází. Praha: Academia. ISBN 80-200-1062-9. • •Doporučená: •CLARK, B., E. FOKOUE a H. H. ZHANG, 2009. Principles and theory for data mining and machine learning. New York: Springer. ISBN 978-0-387-98134-5. •MURPHY, K. P., 2012. Machine learning: A probabilistic perspective. London, England: The MIT Press. ISBN 978-0-262-01802-9. Literatura csvukrs •MATLAB –Statistics and Machine Learning Toolbox –https://www.mathworks.com/solutions/data-science.html –trial verze z mathworks.com –Octave – free verze MATLABu •Python •R •RapidMiner • • Software csvukrs •Nejlépe vlastní • •UC Irvine Machine Learning Repository https://archive.ics.uci.edu/ml/index.php • •Kaggle: Your Home for Data Science https://www.kaggle.com/ • •KEEL - dataset repository http://www.keel.es/datasets.php Data csvukrs •Ing. Jan Górecki, Ph.D. •gorecki@opf.slu.cz •A407 • •konzultace po domluvě emailem • •Sekretariát Katedry informatiky a matematiky •A402 • Kontakty csvukrs