Obdelava naravnega jezika
Osnovni podatki
Opis predmeta
Vsebina predmeta temelji na izboru sodobnih statističnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.
-
Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statističen pristop.
-
Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, pregled orodij.
-
Lingvistika: fonologija in morfologija, sintaktična analiza, formalne gramatike.
-
Uporaba avtomatov in gramatik: avtomati in algoritmi za iskanje nizov, prepoznavanje sintakse, gramatično razčlenjevanje.
-
Oblikoslovno označevanje besedil: vrste oznak, lematizacija, ngrami, skriti markovski model, označevanje s pravili.
-
Računska in leksikalna semantika: predstavitve pomena, metode s pravili, leksikalna semantika.
-
Razvrščanje besedil in mere podobnosti: kosinusna razdalja, jezikovna omrežja in grafi, WordNet, vektorska predstavitev, uteževanje vektorjev, semantična korelacija.
-
Tekstovno rudarjenje: prilagojene klasifikacijske metode, metoda podpornih vektorjev na dokumentih, izbira atributov.
-
Globoka omrežja in besedila: predstavitev besedil za uporabo v globokih nevronskih mrežah, avtoenkoderji, rekurzivne nevronske mreže.
-
Povzemanje: predstavitve besedil, matrična faktorizacija, ekstrakcijske metode, povpraševane metode.
-
Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju.
-
Dopolnjevanje besedil z drugimi viri informacij: heterogena omrežja, predstavitev word2vec, heterogeni ansambli klasifikatorjev, analiza povezav.
-
Metodologija in evalvacija pri obdelavi naravnega jezika.
Cilji
Študenti se bodo naučili teorije in rabe osnovnih algoritmov in pristopov na področju obdelave naravnega jezika. Študenti bodo:
-
razumeli pristope k analizi sintakse in semantike na področju obdelave naravnega jezika;
-
razumeli pristope k povzemanju dokumentov;
-
razumeli delovanje statističnih pristopov k strojnemu prevajanju,
-
razumeli uporabo metod strojnega učenja v obdelavi naravnega jezika: skritega Markovskega modela, verjetnostnih kontekstno neodvisnih gramatik in algoritma EM,
-
znali uporabiti orodja za obdelavo naravnega jezika.
Metode poučevanja in učenja
Predavanja, laboratorijske vaje, delo v majhnih skupinah, javne predstavitve projektov