Iskanje in ekstrakcija podatkov s spleta

Osnovni podatki

Nosilec:

Vrsta predmeta: strokovni izbirni predmet

Število kreditnih točk: 6

Semester izvajanja: 2. semester

Koda predmeta: 63551

Opis predmeta

Vsebina predavanj:

Predmet bo pokrival naslednje vsebine:

 

  • Poizvedovanje in iskanje po spletu

  • Osnovni koncepti poizvedovanja

  • Modeli poizvedovanja

  • Odziv ustreznosti

  • Mere za ocenjevanje točnosti poizvedb

  • Predobdelava besedil in spletnih strani

  • Inverzni index in njegova kompresija

  • Latentno semantično indeksiranje

  • Iskanje po spletu

  • Meta iskanje po sletu: kombiniranje različnih načinov rangiranja

 

  • Spletno pregledovanje in indeksiranje

  • Osnovni algoritem spletnega pajka

  • Univerzalni spletni pajek

  • Fokusirani spletni pajki

  • Domenski spletni pajki

 

  • Ekstrakcija strukturiranih podatkov

  • Indukcija ovojnice

  • Generiranje ovojnice na osnovi primera

  • Samodejna izdelava ovojnice

  • Ujemanje glede na obliko besede ali drevesne strukture

  • Večkratna poravnava

  • Gradnja DOM dreves

  • Ekstrakcija glede na stran s seznamom ali več strani

 

  • Integracija podatkov

  • Ujemanje glede na podatkovno shemo

  • Ujemanje glede na domeno in primere

  • Združevanje podobnosti

  • Ujemanje 1:m

  • Integracija iskalnikov po spletnih straneh

  • Izgradnja globalnega iskalnika po spletnih straneh

     

  • Rudarjenje mnenja in analiza sentimenta

  • Klasifikacija dokumentov po sentimentu

  • Ugotavljanje subjektivnosti v stavkih in klasifikacija sentimenta

  • Slovarji besed in fraz, nosilcev mnenja

  • Aspektno orientirano rudarjenje mnenja

  • Iskanje in extrakcija mnenja

Cilji

Cilj predmeta je študente naučiti, kako sprogramirati iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljene predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in ekstrahirajo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

Metode poučevanja in učenja

Predavanja, računske vaje z ustnimi nastopi, projektni način dela pri domačih nalogah in seminarjih.

Na vrh