Iskanje in ekstrakcija podatkov s spleta

Opis predmeta

Vsebina predavanj:

Predmet bo pokrival naslednje vsebine:

 

  • Poizvedovanje in iskanje po spletu

  • Osnovni koncepti poizvedovanja

  • Modeli poizvedovanja

  • Odziv ustreznosti

  • Mere za ocenjevanje točnosti poizvedb

  • Predobdelava besedil in spletnih strani

  • Inverzni index in njegova kompresija

  • Latentno semantično indeksiranje

  • Iskanje po spletu

  • Meta iskanje po sletu: kombiniranje različnih načinov rangiranja

 

  • Spletno pregledovanje in indeksiranje

  • Osnovni algoritem spletnega pajka

  • Univerzalni spletni pajek

  • Fokusirani spletni pajki

  • Domenski spletni pajki

 

  • Ekstrakcija strukturiranih podatkov

  • Indukcija ovojnice

  • Generiranje ovojnice na osnovi primera

  • Samodejna izdelava ovojnice

  • Ujemanje glede na obliko besede ali drevesne strukture

  • Večkratna poravnava

  • Gradnja DOM dreves

  • Ekstrakcija glede na stran s seznamom ali več strani

 

  • Integracija podatkov

  • Ujemanje glede na podatkovno shemo

  • Ujemanje glede na domeno in primere

  • Združevanje podobnosti

  • Ujemanje 1:m

  • Integracija iskalnikov po spletnih straneh

  • Izgradnja globalnega iskalnika po spletnih straneh

     

  • Rudarjenje mnenja in analiza sentimenta

  • Klasifikacija dokumentov po sentimentu

  • Ugotavljanje subjektivnosti v stavkih in klasifikacija sentimenta

  • Slovarji besed in fraz, nosilcev mnenja

  • Aspektno orientirano rudarjenje mnenja

  • Iskanje in extrakcija mnenja

Predmet učimo na programih

Cilji in kompetence

Cilj predmeta je študente naučiti, kako sprogramirati iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljene predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in ekstrahirajo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

Metode poučevanja in učenja

Predavanja, računske vaje z ustnimi nastopi, projektni način dela pri domačih nalogah in seminarjih.

Predvideni študijski rezultati

Po uspešno zaključenem modulu bodo študenti zmožni:

  • Povzeti najpomembnejše pristope in tehnike s področja iskanja in ekstrakcije podatkov s spleta

  • presoditi, kateri pristopi s področja iskanja in ekstrakcije podatkov s spleta so najbolj primerni za reševanje posameznih problemov,

  • razviti aplikacije za zajem in analizo podatkov s spleta,

  • konstruirati lastne algoritme za ekstrakcijo podatkov s spleta,

  • pojasniti delovanje in časovno kompleksnost algoritmov iskanja po spletu,

  • uporabiti in integrirati različne odprto-kodne rešitve s področja iskanja in ekstrakcije podatkov s spleta

Temeljni viri in literatura

  1. Bing Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications, Springer, August 2013

  2. Ricardo Baeza-Yates , Berthier Ribeiro-Neto: Modern Information Retrieval: The Concepts and Technology behind Search, 2nd Edition, ACM Press Books, 2010

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411