Uvod v znanost o podatkih

Opis predmeta

  1. Uvod v vizualno programiranje in razvoj shem za podatkovno analitiko. Branje podatkov, vizualizacija, izbor. Razsevni diagrami, izbor projekcije podatkov.
  2. Klasifikacija. Klasifikacijska drevesa. Ocenjevanje napovedne točnosti (klasifikacijska točnost, AUC). Pregled ostalih metod, vključno z logistično regresijo, SVM in naključnimi gozdovi. Statistična primerjava klasifikacijskih metod.
  3. Regresija. Metoda linearne in polinomske regresije. Vpliv regularizacije na uspešnost napovedi na učni in testni množici. Določanje parametrov učnih algoritmov.
  4. Razvrščanje v skupine. Tehnika hierarhičnega razvrščanja v skupine, metoda voditeljev in metoda DBSCAN. Računske in prostorske kompleksnosti posameznih metod.
  5. Projekcije podatkov. Metoda glavnih komponent, večrazredno lestvičenje in metoda TSNE.

Analiza nestrukturiranih podatkovnih virov, kot so slike in zaporedja. Vložitev objektov v vektorskih prostor. Globoki modeli.

Cilji in kompetence

Cilj predmeta je spoznati osnovne tehnike strojnega učenja in odkrivanja znanj iz podatkov ternjihovo uporabo v biomedicini. Tehnike bodo predstavljene intuitivno preko praktičnega dela z orodjem za podatkovno rudarjenje; tečaj ne bo vključeval predstavitve matematičnih oziroma formalnih podlag za algoritme. Po uspešnem zaključku predmeta bodo študenti znali urediti in z osnovnimi tehnikami podatkovnega rudarjenja analizati svoje podatke. Tehnike bodo spoznali v obsegu, ki jim bo olajšal komunikacijo s statistiki in eksperti s področja znanosti o podatkih.

Metode poučevanja in učenja

Predavanja bodo izvedena v obliki praktičnih delavnic. Študenti bodo na predavanjih spoznavali tehnike podatkovnega rudarjenja preko praktične uporabe orodja Orange (http://orange.biolab.si), ki za razvoj shem podatkovne analitike uporablja vizualno programiranje.

Predvideni študijski rezultati

Znanje in razumevanje: Poznavanje osnovnih tehnik s področja znanosti o podatkih in analize biomedicinskih podatkov. Konstrukcija shem za podatkovno analitiko. Razumevanje ustreznosti posameznih postopkov v podatkovnem rudarjenju za izbran problem oziroma podatkovni nabor.

Uporaba: Predmet bo potekal praktično, v obliki delavnice; študenti bodo med spoznavanjem metod reševali probleme iz analitike podatkov iz biomedicine. Pridobljena znanja bodo po zaključku predmeta lahko uporabili pri svojem raziskovalnem delu.

Refleksija: Spoznavanje osnov algoritmičnega razmišljanja.

Prenosljive spretnosti: Poznavanje in učinkovita uporaba vizualnega programiranje in konstrukcije shem za podatkovno analitiko.

Reference nosilca

Blaž Zupan

  1. Zitnik M, Zupan B (2016) Jumping across biomedical contexts using compressive data fusion, Bioinformatics 15;32(12):i90-i100.
  2. Li CL, Santhanam B, Webb AN, Zupan B, Shaulsky G (2016) Gene discovery by chemical mutagenesis and whole-genome sequencing in Dictyostelium, Genome Res 26(9): i90-i100.
  3. Stražar M, Žitnik M, Zupan B, Ule J, Curk T (2016) Orthogonal matrix factorization enables integrative analysis of multiple RNA binding proteins, Bioinformatics 32(10): 1527-35.
  4. Zitnik M, Nam EA, Dinh C, Kuspa A, Shaulsky G, Zupan B (2015) Gene prioritization by compressive data fusion and chaining, PLoS Computational Biology 11(10):e1004552.
  5. Staric A, Demsar J, Zupan B (2015) Concurrent software architectures for exploratory data analysis. WIREs Data Mining and Knowledge Discovery 5(4):165-180.
  6. Zitnik M, Zupan B (2015) Gene network inference by fusing data from diverse distributions. Bioinformatics 31(12):i230-i239.

 

Janez Demšar

  1. Hočevar T, Demšar J (2017) Combinatorial algorithm for counting small induced graphs and orbits. PloS One 12(2): 1-17.
  2. Corani G, Benavoli A, Demšar J, Mangili F, Zaffalon M (2017) Statistical comparison of classifiers through Bayesian hierarchical modelling. Machine Learning 1-21.
  3. Žabkar J, Bratko I, Demšar J (2016) Extracting qualitative relations from categorical data. Artificial Intelligence 239:54-69.
  4. Hočevar T, Demšar J (2016) Computation of graphlet orbits for nodes and edges in sparse graphs. Journal of Statistical Software 71(10):1-24.
  5. Staric A, Demsar J, Zupan B (2015) Concurrent software architectures for exploratory data analysis. WIREs Data Mining and Knowledge Discovery 5(4):165-180.

Demsar J, Curk T, Erjavec A, …, Zupan B (2013) Orange: data mining toolbox in Python, Journal of Machine Learning Research 14:2349-2353.

Temeljni viri in literatura

Video tečaji za programski paket Orange na YouTube-u (http://bit.ly/21E8Vt8).

Delovna skripta Zupan B, Demšar J: Introduction to Data Science.

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411