Uvod v znanost o podatkih

Opis predmeta

  1. Uvod v vizualno programiranje in razvoj shem za podatkovno analitiko. Branje podatkov, vizualizacija, izbor. Razsevni diagrami, izbor projekcije podatkov.
  2. Klasifikacija. Klasifikacijska drevesa. Ocenjevanje napovedne točnosti (klasifikacijska točnost, AUC). Pregled ostalih metod, vključno z logistično regresijo, SVM in naključnimi gozdovi. Statistična primerjava klasifikacijskih metod.
  3. Regresija. Metoda linearne in polinomske regresije. Vpliv regularizacije na uspešnost napovedi na učni in testni množici. Določanje parametrov učnih algoritmov.
  4. Razvrščanje v skupine. Tehnika hierarhičnega razvrščanja v skupine, metoda voditeljev in metoda DBSCAN. Računske in prostorske kompleksnosti posameznih metod.
  5. Projekcije podatkov. Metoda glavnih komponent, večrazredno lestvičenje in metoda TSNE.

Analiza nestrukturiranih podatkovnih virov, kot so slike in zaporedja. Vložitev objektov v vektorskih prostor. Globoki modeli.

Predmet učimo na programih

Cilji in kompetence

Cilj predmeta je spoznati osnovne tehnike strojnega učenja in odkrivanja znanj iz podatkov ternjihovo uporabo v biomedicini. Tehnike bodo predstavljene intuitivno preko praktičnega dela z orodjem za podatkovno rudarjenje; tečaj ne bo vključeval predstavitve matematičnih oziroma formalnih podlag za algoritme. Po uspešnem zaključku predmeta bodo študenti znali urediti in z osnovnimi tehnikami podatkovnega rudarjenja analizati svoje podatke. Tehnike bodo spoznali v obsegu, ki jim bo olajšal komunikacijo s statistiki in eksperti s področja znanosti o podatkih.

Metode poučevanja in učenja

Predavanja bodo izvedena v obliki praktičnih delavnic. Študenti bodo na predavanjih spoznavali tehnike podatkovnega rudarjenja preko praktične uporabe orodja Orange (http://orange.biolab.si), ki za razvoj shem podatkovne analitike uporablja vizualno programiranje.

Predvideni študijski rezultati

Znanje in razumevanje: Poznavanje osnovnih tehnik s področja znanosti o podatkih in analize biomedicinskih podatkov. Konstrukcija shem za podatkovno analitiko. Razumevanje ustreznosti posameznih postopkov v podatkovnem rudarjenju za izbran problem oziroma podatkovni nabor.

Uporaba: Predmet bo potekal praktično, v obliki delavnice; študenti bodo med spoznavanjem metod reševali probleme iz analitike podatkov iz biomedicine. Pridobljena znanja bodo po zaključku predmeta lahko uporabili pri svojem raziskovalnem delu.

Refleksija: Spoznavanje osnov algoritmičnega razmišljanja.

Prenosljive spretnosti: Poznavanje in učinkovita uporaba vizualnega programiranje in konstrukcije shem za podatkovno analitiko.

Temeljni viri in literatura

Video tečaji za programski paket Orange na YouTube-u (http://bit.ly/21E8Vt8).

Delovna skripta Zupan B, Demšar J: Introduction to Data Science.

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411