Opis predmeta
- Statistične posebnosti raziskav z visokorazsežnimi podatki. Načrtovanje raziskav z visokorazsežnimi podatki. Grafično prikazovanje podatkov.
- Identifikacija spremenljivk, ki so statistično značilno povezane z izidom (ponoven nastop bolezni, čas preživetja, itd). Večkratno testiranje: family-wise error rate, false discovery rate; parametrične in neparametrične reštive.
- Ocena multivariatne funkcije razvrščanja za napovedovanje izida. Metode za izbiro spremenljivk, za oceno funkcije razvrščanja in za oceno napovedne natančnosti.
- Interpretacija rezultatov.
Uporaba statističnega paketa R in Bioconductor.
Cilji in kompetence
Raziskave z visokorazsežnimi podatki so zelo pogoste v praksi. Posebnost tovrstnih raziskav je v tem, da je spremenljivk tipično veliko več kot število vključenih statističnih enot. Zato je potrebno uporabljati statistične metode, ki pravilno obravnavajo probleme v zvezi z visokorazsežnimi podatki. Namen predmeta je usposobiti kandidata za samostojno izpeljavo raziskav na tem področju. Poudarek je na načrtovanju in na statistični analizi podatkov v visokorazsežvnih raziskav.
Metode poučevanja in učenja
Predavanja in vaje z računalnikom. Izdelava seminarske naloge (timsko delo) in predstavitev naloge pred letnikom. Opravljene domače naloge so pogoj za pristop h končnemu izpitu.
Del pedagoškega procesa bo izveden s pomočjo IKT tehnologij in možnosti, ki jih ponujajo.
Predvideni študijski rezultati
Znanje in razumevanje:
Študent zna načrtovati raziskavo z visokorazsežnimi podatki in zna izbrati in uporabljati primerno metodo za analizo podatkov. Študent zna interpretirati rezultate in pripraviti poročilo, ki vsebuje rezultate.
Reference nosilca
- BLAGUS, Rok, LUSA, Lara. Class prediction for high-dimensional class-imbalanced data. BMC bioinformatics, 2010, letn. 11, str. 523 (1-27), doi: 10.1186/1471-2105-11-523.
- BLAGUS, Rok, GOEMAN, Jelle J. What (not) to expect when classifying rare events. Briefings in bioinformatics, ISSN 1467-5463, Mar. 2018, vol. 19, iss. 2, str. 341-349, doi: 10.1093/bib/bbw107.
- BLAGUS, Rok, LUSA, Lara. Gradient boosting for high-dimensional prediction of rare events. Computational statistics & data analysis, ISSN 0167-9473, Sep. 2017, vol. 113, str.19-37, doi: 10.1016/j.csda.2016.07.016.
- BLAGUS, Rok, LUSA, Lara. Joint use of over- and under-sampling techniques and cross-validation for the development and assessment of prediction models. BMC bioinformatics, ISSN 1471-2105, Nov. 2015, vol. 16, str. 1-10, doi: 10.1186/s12859-015-0784-9.
- BLAGUS, Rok, LUSA, Lara. Boosting for high-dimensional two-class prediction. BMC bioinformatics, ISSN 1471-2105, Sep. 2015, vol. 16, str. 1-17, doi: 10.1186/s12859-015-0723-9.
- BLAGUS, Rok, LUSA, Lara. Improved shrunken centroid classifiers for high-dimensional class-imbalanced data. BMC bioinformatics, ISSN 1471-2105, 2013, vol. 14, str. [1-27], 64, doi: 10.1186/1471-2105-14-64.LUSA, Lara, KORN, Edward Lee, MCSHANE, Lisa M. A class comparison method with filtering-enhanced variable selection for high-dimensional data sets. Stat Med, 2008, letn. 27, št. 28, str. 5834-5849, doi: 10.1002/sim.3405.
- LUSA, Lara, BUKOVŠEK, David. Providing patients visiting emergency departments with useful information using public real time data : a case study based on Italian data. Journal of evaluation in clinical practice. Jun. 2019, vol. 25, iss. 3, str. 404-411.
- SEM, Vilma, KOLAR, Jana, LUSA, Lara. Artificially generated near-infrared spectral data for classification purposes. Chemometrics and Intelligent Laboratory Systems. [Print ed.]. Jan. 2018, vol. 172, str. 100-108.
- PUHR, Rainer, HEINZE, Georg, LUSA, Lara, GEROLDINGER, Angelika. Firth's logistic regression with rare events : accurate effect estimates and predictions?. Statistics in medicine. Jun. 2017, vol. 36, iss. 14, str. 2302-2317.
- AHLIN, Črt, STUPICA, Daša, STRLE, Franc, LUSA, Lara. medplot : a Web Application for Dynamic Summary and Analysis of Longitudinal Medical Data Based on R. PloS one. Apr. 2015, vol. 10, iss. 4
Temeljni viri in literatura
Sandrine Dudoit, Mark J. van der Laan. Multiple Testing Procedures with Applications to Genomics (2005). Springer Series in Statistics.
Richard M. Simon, Edward L. Korn, Lisa M. McShane, and Michael D. Radmacher et al. Design and Analysis of DNA Microarray Investigations (2004). Springer.
Richard O. Duda, Peter E. Hart, David G. Stork. Pattern Classification (2000). Wiley-Interscience.