Sistemi za obdelavo velikih količin podatkov

Opis predmeta

Zbiranje podatkov: pametni telefoni, senzorji in v internet povezane naprave, splet, čiščenje in priprava podatkov, anonimizacija in deidentifikacija podatkov.

Hramba podatkov: razširljive relacijske podatkovne baze, NoSQL podatkovne baze, razumevanje kompromisa med konsistentnostjo podatkov, zmogljivostjo in razpoložljivostjo.

Obdelava podatkov: dogodkovno naravnana obdelava, paralelizacija obdelave (map-reduce), pridobivanje strukturiranih podatkov iz nestrukturiranih.

Analitika: učinkoviti algoritmi za obdelavo in analizo podatkov, strojno učenje.

Vizualizacija: postopki in izzivi vizualizacije velikih količin podatkov, druge modalnosti predstavitve podatkov (soundifikacija, ipd.)

Aplikacije predstavljenih tehnik: sistemi za ugotavljanje konteksta, pametni sistemi (aplikacije pametnih mest, pametnega prometa, ipd.), medicinske aplikacije, socialna omrežja, finančni sistemi

Predmet učimo na programih

Cilji in kompetence

Pozna pojem »big data«. Zna ovrednotiti količino podatkov, hitrost dogodkov, njihovo raznolikost, ter ključne izzive, povezane z velikimi količinami podatkov.

Pozna razlike, zna izbrati relacijske ali  NoSQL podatkovne baze, in ovrednotiti primernost uporabe.

Pozna  prednosti in slabosti map-reduce modela ter ovrednotiti v primerjavi z relacijskimi podatkovnimi bazami.

Na primeru  zna uporabiti osnovne analitske in vizualizacijske tehnike za delo z velikimi količinami podatkov.

Metode poučevanja in učenja

Predavanja ali mentorsko delo

Seminar

Predvideni študijski rezultati

Razumevanje pojma »big data«: količina podatkov, hitrost dogodkov, njihova raznolikost, ter ključnih izzivov povezanih z velikimi količinami podatkov.

Razumevanje relacijskih podatkovnih baz, njihovih zmogljivosti in omejitev.

Razumevanje zmogljivosti, prednosti in slabosti NoSQL podatkovnih baz.

Razumevanje map-reduce modela, njegovih prednosti in slabosti, ter primerjave z relacijskimi podatkovnimi bazami.

Razumevanje osnovnih analitskih in vizualizacijskih tehnik za delo z velikimi količinami podatkov.

Temeljni viri in literatura

  1. European Commission: http://www.internet-of-things-research.eu/pdf/Converging_Technologies_for_Smart_Environments_and_Integrated_Ecosystems_IERC_Book_Open_Access_2013.pdf
  2. Tom White: Hadoop: The Definitive Guide, 3rd Edition; Storage and Analysis at Internet Scale; O'Reilly Media
  3. Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman: Mining of Massive Datasets, http://i.stanford.edu/~ullman/mmds/book.pdf
  4. Jimmy Lin, Chris Dyer: Data-Intensive Text Processing with MapReduce, http://lintool.github.io/MapReduceAlgorithms/MapReduce-book-final.pdf
  5. Tamara Munzner: Visualization Analysis and Design (2014 Draft) http://www.cs.ubc.ca/~tmm/courses/533/book/vispmp-draft.pdf
  6. Scott Murray: Interactive Data Visualization for the Web: An Introduction to Designing with D3, O'Reilly Media

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411