Statistične metode za visokorazsežne podatke

Opis predmeta

  1. Statistične posebnosti raziskav z visokorazsežnimi podatki.  Načrtovanje raziskav z visokorazsežnimi podatki. Grafično prikazovanje podatkov.
  2. Identifikacija spremenljivk, ki so statistično značilno povezane z izidom (ponoven nastop bolezni, čas preživetja, itd). Večkratno testiranje: family-wise error rate, false discovery rate; parametrične in neparametrične reštive.
  3. Ocena multivariatne funkcije razvrščanja za napovedovanje izida.  Metode za izbiro spremenljivk, za oceno funkcije razvrščanja in za oceno napovedne natančnosti.
  4. Interpretacija rezultatov.

Uporaba statističnega paketa R in Bioconductor.

Cilji in kompetence

Raziskave z visokorazsežnimi podatki  so zelo pogoste v praksi. Posebnost tovrstnih raziskav  je v tem, da je spremenljivk tipično veliko več kot število vključenih statističnih enot. Zato je potrebno uporabljati statistične metode, ki pravilno obravnavajo probleme v zvezi z visokorazsežnimi podatki. Namen predmeta je usposobiti kandidata za samostojno izpeljavo raziskav na tem področju. Poudarek je na načrtovanju in na statistični analizi podatkov v visokorazsežvnih raziskav.

Metode poučevanja in učenja

Predavanja in vaje z računalnikom. Izdelava seminarske naloge (timsko delo) in predstavitev naloge pred letnikom. Opravljene domače naloge so pogoj za pristop h končnemu izpitu.

Del pedagoškega procesa bo izveden s pomočjo IKT tehnologij in možnosti, ki jih ponujajo.

Predvideni študijski rezultati

Znanje in razumevanje:

Študent zna načrtovati raziskavo z visokorazsežnimi podatki in zna izbrati in uporabljati primerno metodo za analizo podatkov. Študent zna interpretirati rezultate in pripraviti poročilo, ki vsebuje rezultate.

Reference nosilca

  • BLAGUS, Rok, LUSA, Lara. Class prediction for high-dimensional class-imbalanced data. BMC bioinformatics, 2010, letn. 11, str. 523 (1-27), doi: 10.1186/1471-2105-11-523.
  • BLAGUS, Rok, GOEMAN, Jelle J. What (not) to expect when classifying rare events. Briefings in bioinformatics, ISSN 1467-5463, Mar. 2018, vol. 19, iss. 2, str. 341-349, doi: 10.1093/bib/bbw107.
  • BLAGUS, Rok, LUSA, Lara. Gradient boosting for high-dimensional prediction of rare events. Computational statistics & data analysis, ISSN 0167-9473, Sep. 2017, vol. 113, str.19-37, doi: 10.1016/j.csda.2016.07.016.
  • BLAGUS, Rok, LUSA, Lara. Joint use of over- and under-sampling techniques and cross-validation for the development and assessment of prediction models. BMC bioinformatics, ISSN 1471-2105, Nov. 2015, vol. 16, str. 1-10, doi: 10.1186/s12859-015-0784-9.
  • BLAGUS, Rok, LUSA, Lara. Boosting for high-dimensional two-class prediction. BMC bioinformatics, ISSN 1471-2105, Sep. 2015, vol. 16, str. 1-17, doi: 10.1186/s12859-015-0723-9.
  • BLAGUS, Rok, LUSA, Lara. Improved shrunken centroid classifiers for high-dimensional class-imbalanced data. BMC bioinformatics, ISSN 1471-2105, 2013, vol. 14, str. [1-27], 64, doi: 10.1186/1471-2105-14-64.LUSA, Lara, KORN, Edward Lee, MCSHANE, Lisa M. A class comparison method with filtering-enhanced variable selection for high-dimensional data sets. Stat Med, 2008, letn. 27, št. 28, str. 5834-5849, doi: 10.1002/sim.3405.
  • LUSA, Lara, BUKOVŠEK, David. Providing patients visiting emergency departments with useful information using public real time data : a case study based on Italian data. Journal of evaluation in clinical practice. Jun. 2019, vol. 25, iss. 3, str. 404-411.
  • SEM, Vilma, KOLAR, Jana, LUSA, Lara. Artificially generated near-infrared spectral data for classification purposes. Chemometrics and Intelligent Laboratory Systems. [Print ed.]. Jan. 2018, vol. 172, str. 100-108.
  • PUHR, Rainer, HEINZE, Georg, LUSA, Lara, GEROLDINGER, Angelika. Firth's logistic regression with rare events : accurate effect estimates and predictions?. Statistics in medicine. Jun. 2017, vol. 36, iss. 14, str. 2302-2317.
  • AHLIN, Črt, STUPICA, Daša, STRLE, Franc, LUSA, Lara. medplot : a Web Application for Dynamic Summary and Analysis of Longitudinal Medical Data Based on R. PloS one. Apr. 2015, vol. 10, iss. 4

Temeljni viri in literatura

Sandrine Dudoit, Mark J. van der Laan.  Multiple Testing Procedures with Applications to Genomics (2005).  Springer Series in Statistics.

Richard M. Simon, Edward L. Korn, Lisa M. McShane, and Michael D. Radmacher et al.  Design and Analysis of DNA Microarray Investigations (2004). Springer.

Richard O. Duda, Peter E. Hart, David G. Stork. Pattern Classification (2000). Wiley-Interscience.

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411