Sistemi za obdelavo velikih količin podatkov

Opis predmeta

Zbiranje podatkov: pametni telefoni, senzorji in v internet povezane naprave, splet, čiščenje in priprava podatkov, anonimizacija in deidentifikacija podatkov.

Hramba podatkov: razširljive relacijske podatkovne baze, NoSQL podatkovne baze, razumevanje kompromisa med konsistentnostjo podatkov, zmogljivostjo in razpoložljivostjo.

Obdelava podatkov: dogodkovno naravnana obdelava, paralelizacija obdelave (map-reduce), pridobivanje strukturiranih podatkov iz nestrukturiranih.

Analitika: učinkoviti algoritmi za obdelavo in analizo podatkov, strojno učenje.

Vizualizacija: postopki in izzivi vizualizacije velikih količin podatkov, druge modalnosti predstavitve podatkov (soundifikacija, ipd.)

Aplikacije predstavljenih tehnik: sistemi za ugotavljanje konteksta, pametni sistemi (aplikacije pametnih mest, pametnega prometa, ipd.), medicinske aplikacije, socialna omrežja, finančni sistemi

Predmet učimo na programih

Cilji in kompetence

Pozna pojem »big data«. Zna ovrednotiti količino podatkov, hitrost dogodkov, njihovo raznolikost, ter ključne izzive, povezane z velikimi količinami podatkov.

Pozna razlike, zna izbrati relacijske ali  NoSQL podatkovne baze, in ovrednotiti primernost uporabe.

Pozna  prednosti in slabosti map-reduce modela ter ovrednotiti v primerjavi z relacijskimi podatkovnimi bazami.

Na primeru  zna uporabiti osnovne analitske in vizualizacijske tehnike za delo z velikimi količinami podatkov.

Metode poučevanja in učenja

Predavanja ali mentorsko delo

Seminar

Predvideni študijski rezultati

Razumevanje pojma »big data«: količina podatkov, hitrost dogodkov, njihova raznolikost, ter ključnih izzivov povezanih z velikimi količinami podatkov.

Razumevanje relacijskih podatkovnih baz, njihovih zmogljivosti in omejitev.

Razumevanje zmogljivosti, prednosti in slabosti NoSQL podatkovnih baz.

Razumevanje map-reduce modela, njegovih prednosti in slabosti, ter primerjave z relacijskimi podatkovnimi bazami.

Razumevanje osnovnih analitskih in vizualizacijskih tehnik za delo z velikimi količinami podatkov.

Reference nosilca

DROBNIČ, Franc, KOS, Andrej, PUSTIŠEK, Matevž. On the interpretability of machine learning models and experimental feature selection in case of multicollinear data. Electronics. May 2020, no. 5, 761, str. 1-15, ilustr. ISSN 2079-9292. https://www.mdpi.com/2079-9292/9/5/761, DOI: 10.3390/electronics9050761. [COBISS.SI-ID 14438659]

KREN, Matej, KOS, Andrej, SEDLAR, Urban. Mining the IPTV channel change event stream to discover insight and detect ads. Mathematical problems in engineering. [Print ed.]. 2016, vol. 2016, str. 1-5, ilustr. ISSN 1024-123X. http://www.hindawi.com/journals/mpe/2016/2541814/, DOI: 10.1155/2016/2541814. [COBISS.SI-ID 11307860]

KREN, Matej, KOS, Andrej, SEDLAR, Urban. Modeling opinion of IPTV viewers based on implicit feedback and content metadata. IEEE access. 2019, vol. 7, str. 14455 – 14462, ilustr. ISSN 2169-3536. https://ieeexplore.ieee.org/document/8607973, DOI: 10.1109/ACCESS.2019.2891837. [COBISS.SI-ID 12380756]

MIHELJ, Jernej, ZHANG, Yuan, KOS, Andrej, SEDLAR, Urban. Crowdsourced traffic event detection and source reputation assessment using smart contracts. Sensors. Aug.-1 2019, iss. 15, 3267, str. 1-17, ilustr. ISSN 1424-8220. https://www.mdpi.com/1424-8220/19/15/3267, DOI: 10.3390/s19153267. [COBISS.SI-ID 12587860]

Temeljni viri in literatura

  1. European Commission: http://www.internet-of-things-research.eu/pdf/Converging_Technologies_for_Smart_Environments_and_Integrated_Ecosystems_IERC_Book_Open_Access_2013.pdf
  2. Tom White: Hadoop: The Definitive Guide, 3rd Edition; Storage and Analysis at Internet Scale; O'Reilly Media
  3. Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman: Mining of Massive Datasets, http://i.stanford.edu/~ullman/mmds/book.pdf
  4. Jimmy Lin, Chris Dyer: Data-Intensive Text Processing with MapReduce, http://lintool.github.io/MapReduceAlgorithms/MapReduce-book-final.pdf
  5. Tamara Munzner: Visualization Analysis and Design (2014 Draft) http://www.cs.ubc.ca/~tmm/courses/533/book/vispmp-draft.pdf
  6. Scott Murray: Interactive Data Visualization for the Web: An Introduction to Designing with D3, O'Reilly Media

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411