Opis predmeta
- Uvod v vizualno programiranje in razvoj shem za podatkovno analitiko. Branje podatkov, vizualizacija, izbor. Razsevni diagrami, izbor projekcije podatkov.
- Klasifikacija. Klasifikacijska drevesa. Ocenjevanje napovedne točnosti (klasifikacijska točnost, AUC). Pregled ostalih metod, vključno z logistično regresijo, SVM in naključnimi gozdovi. Statistična primerjava klasifikacijskih metod.
- Regresija. Metoda linearne in polinomske regresije. Vpliv regularizacije na uspešnost napovedi na učni in testni množici. Določanje parametrov učnih algoritmov.
- Razvrščanje v skupine. Tehnika hierarhičnega razvrščanja v skupine, metoda voditeljev in metoda DBSCAN. Računske in prostorske kompleksnosti posameznih metod.
- Projekcije podatkov. Metoda glavnih komponent, večrazredno lestvičenje in metoda TSNE.
Analiza nestrukturiranih podatkovnih virov, kot so slike in zaporedja. Vložitev objektov v vektorskih prostor. Globoki modeli.
Predmet učimo na programih
Cilji in kompetence
Cilj predmeta je spoznati osnovne tehnike strojnega učenja in odkrivanja znanj iz podatkov ternjihovo uporabo v biomedicini. Tehnike bodo predstavljene intuitivno preko praktičnega dela z orodjem za podatkovno rudarjenje; tečaj ne bo vključeval predstavitve matematičnih oziroma formalnih podlag za algoritme. Po uspešnem zaključku predmeta bodo študenti znali urediti in z osnovnimi tehnikami podatkovnega rudarjenja analizati svoje podatke. Tehnike bodo spoznali v obsegu, ki jim bo olajšal komunikacijo s statistiki in eksperti s področja znanosti o podatkih.
Metode poučevanja in učenja
Predavanja bodo izvedena v obliki praktičnih delavnic. Študenti bodo na predavanjih spoznavali tehnike podatkovnega rudarjenja preko praktične uporabe orodja Orange (http://orange.biolab.si), ki za razvoj shem podatkovne analitike uporablja vizualno programiranje.
Predvideni študijski rezultati
Znanje in razumevanje: Poznavanje osnovnih tehnik s področja znanosti o podatkih in analize biomedicinskih podatkov. Konstrukcija shem za podatkovno analitiko. Razumevanje ustreznosti posameznih postopkov v podatkovnem rudarjenju za izbran problem oziroma podatkovni nabor.
Uporaba: Predmet bo potekal praktično, v obliki delavnice; študenti bodo med spoznavanjem metod reševali probleme iz analitike podatkov iz biomedicine. Pridobljena znanja bodo po zaključku predmeta lahko uporabili pri svojem raziskovalnem delu.
Refleksija: Spoznavanje osnov algoritmičnega razmišljanja.
Prenosljive spretnosti: Poznavanje in učinkovita uporaba vizualnega programiranje in konstrukcije shem za podatkovno analitiko.
Temeljni viri in literatura
Video tečaji za programski paket Orange na YouTube-u (http://bit.ly/21E8Vt8).
Delovna skripta Zupan B, Demšar J: Introduction to Data Science.