Podatkovno rudarjenje in odkrivanje zakonitosti v podatkih

Opis predmeta

  • Uvod: uvod v podatkovno rudarjenje in odkrivanje zakonitosti v podatkih, povezava s strojnim učenjem, vizualizacija podatkov in modelov, predstavitev CRISP-DM metodologije odkrivanja zakonitosti v podatkih.

  • Tehnike rudarjenja podatkov: učenje odločitvenih dreves, učenje klasifikacijskih in povezovalnih pravil, razvrščanje v skupine, odkrivanje podskupin, učenje regresijskih dreves in relacijsko podatkovno rudarjenje .

  • Ocenjevanje: predstavitev preiskovalnih hevristik, hevristik za ocenjevanje kvalitete naučenih vzorcev in modelov ter metodologijo evalvacije rezultatov.

  • Praktično usposabljanje: praktična uporaba izbranih orodij rudarjenja podatkov.

Cilji in kompetence

Odkrivanje zakonitosti v podatkih je proces odkrivanja vzorcev in modelov, opisanih s pravili ali drugimi človeku razumljivimi formalizmi za predstavitev znanja. Najpomembnejši del tega procesa predstavlja podatkovno rudarjenje, ki vključuje uporabo metod, tehnik in orodij za avtomatsko konstrukcijo vzorcev in modelov iz podatkov.

Cilji predmeta so (a) predstaviti osnove podatkovnega rudarjenja, postopke odkrivanja zakonitosti v podatkih ter metodologijo CRISP-DM, (b) predstaviti izbrane metode in tehnike podatkovnega rudarjenja, (c) predstaviti metodologijo ocenjevanja rezultatov.

Študenti bodo obvladali osnove predprocesiranja podatkov, rudarjenja podatkov in odkrivanja zakonitosti v podatkih ter bodo usposobljeni za praktično uporabo izbranih orodij podatkovnega rudarjenja in metod za evalvacijo rezultatov.

Metode poučevanja in učenja

Predavanja, konzultacije, individualno delo.

Študenti morajo imeti dostop do računalnikov in ustrezne programske opreme. Načrtovana je uporaba orodij WEKA in Orange4WS.

Predvideni študijski rezultati

Znanje in razumevanje:

Obvladana uporaba izbranih metod in tehnik podatkovnega rudarjenja, usposobljenost za predprocesiranje podatkov, praktično uporabo izbranih orodij podatkovnega rudarjenja, usposobljenost za uporabo in interpretacijo metod za evalvacijo rezultatov.

Reference nosilca

Nada Lavrač:

1. Gamberger D., Lavrač, N.: Expert-Guided Subgroup Discovery: Methodology and Application, Journal of Artificial Intelligence Research 17 (2002), 501-527.

2. Lavrač N., Džeroski, S.: Inductive Logic Programming: Techniques and Applications. Ellis Horwood, 1994.

3. Lavrač N., Kavšek, B., Flach P. A., Todorovski, L.: Subgroup discovery with CN2-SD. Journal of Machine Learning Research, 5 (2004), 153-188.

4. Železny F., Lavrač N.: Propositionalization-based relational subgroup discovery with RSD. Machine Learning 62 :1-2 (2006), 33-63.

5. Fuernkranz J., Gamberger D., Lavrač, N.: Foundations of Rule Learning, Springer, 2012.

Temeljni viri in literatura

I. Kononenko: Strojno učenje. FRI, Ljubljana, 1997.

J. Witten, E. Frank: Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, 2000.

S. Džeroski, N. Lavrač (ur.) Relational Data Mining. Springer 2001.

T. Mitchell: Machine Learning. McGraw Hill, 1997.

M. Berthold, D.J. Hand (ur.), Intelligent Data Analysis: An Introduction, Springer, Berlin-Heidelberg, 1999.

D. Mladenić, N. Lavrač, M. Bohanec, S. Moyle (ur.) Data Mining and Decision Support: Integration and Collaboration. Kluwer 2003.

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411