Opis predmeta
- Uvod v vizualno programiranje in razvoj shem za podatkovno analitiko. Branje podatkov, vizualizacija, izbor. Razsevni diagrami, izbor projekcije podatkov.
- Klasifikacija. Klasifikacijska drevesa. Ocenjevanje napovedne točnosti (klasifikacijska točnost, AUC). Pregled ostalih metod, vključno z logistično regresijo, SVM in naključnimi gozdovi. Statistična primerjava klasifikacijskih metod.
- Regresija. Metoda linearne in polinomske regresije. Vpliv regularizacije na uspešnost napovedi na učni in testni množici. Določanje parametrov učnih algoritmov.
- Razvrščanje v skupine. Tehnika hierarhičnega razvrščanja v skupine, metoda voditeljev in metoda DBSCAN. Računske in prostorske kompleksnosti posameznih metod.
- Projekcije podatkov. Metoda glavnih komponent, večrazredno lestvičenje in metoda TSNE.
Analiza nestrukturiranih podatkovnih virov, kot so slike in zaporedja. Vložitev objektov v vektorskih prostor. Globoki modeli.
Cilji in kompetence
Cilj predmeta je spoznati osnovne tehnike strojnega učenja in odkrivanja znanj iz podatkov ternjihovo uporabo v biomedicini. Tehnike bodo predstavljene intuitivno preko praktičnega dela z orodjem za podatkovno rudarjenje; tečaj ne bo vključeval predstavitve matematičnih oziroma formalnih podlag za algoritme. Po uspešnem zaključku predmeta bodo študenti znali urediti in z osnovnimi tehnikami podatkovnega rudarjenja analizati svoje podatke. Tehnike bodo spoznali v obsegu, ki jim bo olajšal komunikacijo s statistiki in eksperti s področja znanosti o podatkih.
Metode poučevanja in učenja
Predavanja bodo izvedena v obliki praktičnih delavnic. Študenti bodo na predavanjih spoznavali tehnike podatkovnega rudarjenja preko praktične uporabe orodja Orange (http://orange.biolab.si), ki za razvoj shem podatkovne analitike uporablja vizualno programiranje.
Predvideni študijski rezultati
Znanje in razumevanje: Poznavanje osnovnih tehnik s področja znanosti o podatkih in analize biomedicinskih podatkov. Konstrukcija shem za podatkovno analitiko. Razumevanje ustreznosti posameznih postopkov v podatkovnem rudarjenju za izbran problem oziroma podatkovni nabor.
Uporaba: Predmet bo potekal praktično, v obliki delavnice; študenti bodo med spoznavanjem metod reševali probleme iz analitike podatkov iz biomedicine. Pridobljena znanja bodo po zaključku predmeta lahko uporabili pri svojem raziskovalnem delu.
Refleksija: Spoznavanje osnov algoritmičnega razmišljanja.
Prenosljive spretnosti: Poznavanje in učinkovita uporaba vizualnega programiranje in konstrukcije shem za podatkovno analitiko.
Reference nosilca
Blaž Zupan
- Zitnik M, Zupan B (2016) Jumping across biomedical contexts using compressive data fusion, Bioinformatics 15;32(12):i90-i100.
- Li CL, Santhanam B, Webb AN, Zupan B, Shaulsky G (2016) Gene discovery by chemical mutagenesis and whole-genome sequencing in Dictyostelium, Genome Res 26(9): i90-i100.
- Stražar M, Žitnik M, Zupan B, Ule J, Curk T (2016) Orthogonal matrix factorization enables integrative analysis of multiple RNA binding proteins, Bioinformatics 32(10): 1527-35.
- Zitnik M, Nam EA, Dinh C, Kuspa A, Shaulsky G, Zupan B (2015) Gene prioritization by compressive data fusion and chaining, PLoS Computational Biology 11(10):e1004552.
- Staric A, Demsar J, Zupan B (2015) Concurrent software architectures for exploratory data analysis. WIREs Data Mining and Knowledge Discovery 5(4):165-180.
- Zitnik M, Zupan B (2015) Gene network inference by fusing data from diverse distributions. Bioinformatics 31(12):i230-i239.
Janez Demšar
- Hočevar T, Demšar J (2017) Combinatorial algorithm for counting small induced graphs and orbits. PloS One 12(2): 1-17.
- Corani G, Benavoli A, Demšar J, Mangili F, Zaffalon M (2017) Statistical comparison of classifiers through Bayesian hierarchical modelling. Machine Learning 1-21.
- Žabkar J, Bratko I, Demšar J (2016) Extracting qualitative relations from categorical data. Artificial Intelligence 239:54-69.
- Hočevar T, Demšar J (2016) Computation of graphlet orbits for nodes and edges in sparse graphs. Journal of Statistical Software 71(10):1-24.
- Staric A, Demsar J, Zupan B (2015) Concurrent software architectures for exploratory data analysis. WIREs Data Mining and Knowledge Discovery 5(4):165-180.
Demsar J, Curk T, Erjavec A, …, Zupan B (2013) Orange: data mining toolbox in Python, Journal of Machine Learning Research 14:2349-2353.
Temeljni viri in literatura
Video tečaji za programski paket Orange na YouTube-u (http://bit.ly/21E8Vt8).
Delovna skripta Zupan B, Demšar J: Introduction to Data Science.