Opis predmeta
Vsebina predmeta temelji na izboru sodobnih statističnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.
-
Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statističen pristop.
-
Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, pregled orodij.
-
Lingvistika: fonologija in morfologija, sintaktična analiza, formalne gramatike.
-
Uporaba avtomatov in gramatik: avtomati in algoritmi za iskanje nizov, prepoznavanje sintakse, gramatično razčlenjevanje.
-
Oblikoslovno označevanje besedil: vrste oznak, lematizacija, ngrami, skriti markovski model, označevanje s pravili.
-
Računska in leksikalna semantika: predstavitve pomena, metode s pravili, leksikalna semantika.
-
Razvrščanje besedil in mere podobnosti: kosinusna razdalja, jezikovna omrežja in grafi, WordNet, vektorska predstavitev, uteževanje vektorjev, semantična korelacija.
-
Tekstovno rudarjenje: prilagojene klasifikacijske metode, metoda podpornih vektorjev na dokumentih, izbira atributov.
-
Globoka omrežja in besedila: predstavitev besedil za uporabo v globokih nevronskih mrežah, avtoenkoderji, rekurzivne nevronske mreže.
-
Povzemanje: predstavitve besedil, matrična faktorizacija, ekstrakcijske metode, povpraševane metode.
-
Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju.
-
Dopolnjevanje besedil z drugimi viri informacij: heterogena omrežja, predstavitev word2vec, heterogeni ansambli klasifikatorjev, analiza povezav.
-
Metodologija in evalvacija pri obdelavi naravnega jezika.
Cilji in kompetence
Študenti se bodo naučili teorije in rabe osnovnih algoritmov in pristopov na področju obdelave naravnega jezika. Študenti bodo:
-
razumeli pristope k analizi sintakse in semantike na področju obdelave naravnega jezika;
-
razumeli pristope k povzemanju dokumentov;
-
razumeli delovanje statističnih pristopov k strojnemu prevajanju,
-
razumeli uporabo metod strojnega učenja v obdelavi naravnega jezika: skritega Markovskega modela, verjetnostnih kontekstno neodvisnih gramatik in algoritma EM,
-
znali uporabiti orodja za obdelavo naravnega jezika.
Metode poučevanja in učenja
Predavanja, laboratorijske vaje, delo v majhnih skupinah, javne predstavitve projektov
Predvideni študijski rezultati
Ob zaključku predmeta bodo študenti:
-
razumeli pristope k analizi sintakse in semantike na področju obdelave naravnega jezika;
-
znali ovrednotiti pristope k povzemanju dokumentov;
-
razlikovali med različnimi statističnimi pristopi k strojnemu prevajanju,
-
uporabljali in prilagajali metode strojnega učenja za obdelavo naravnega jezika
-
uporabljali in kritično vrednotili orodja za obdelavo naravnega jezika
-
poznali obstoječe in znali zasnovati nove jezikovne vire
-
uporabljali vektorske vložitve besedil in jih prilagajali novi okoliščinam
Reference nosilca
-
ROBNIK ŠIKONJA, Marko, KONONENKO, Igor. Theoretical and empirical analysis of ReliefF and RReliefF. Mach. learning, 2003, vol. 53, pp. 23-69.
-
ROBNIK ŠIKONJA, Marko. Data generators for learning systems based on RBF networks. IEEE transactions on neural networks and learning systems, May 2016, vol. 27, no. 5, pp. 926-938.
-
ROBNIK ŠIKONJA, Marko, VANHOOF, Koen. Evaluation of ordinal attributes at value level. Data mining and knowledge discovery, 2007, vol. 14, no. 2, pp. 225-243.
-
ROBNIK ŠIKONJA, Marko, KONONENKO, Igor. Explaining classifications for individual instances. IEEE trans. knowl. data eng. May 2008, vol. 20, no. 5, pp. 589-600.
-
KRANJC, Janez, ORAČ, Roman, PODPEČAN, Vid, LAVRAČ, Nada, ROBNIK ŠIKONJA, Marko. ClowdFlows: online workflows for distributed big data mining. FGCS, 2017, vol. 68, pp. 38-58
Celotna bibliografija je dostopna na SICRISu: / Complete bibliography is available in SICRIS:
Temeljni viri in literatura
-
Jurafsky, David and Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, 2nd and 3rd draft. Upper Saddle River, NJ: Prentice-Hall, 2009 and 2017.
-
Aggarwal, Charu C., and Zhai, ChengXiang. Mining text data. Springer Science & Business Media, 2012.
-
Bird, Steven, Ewan Klein, and Edward Loper. Natural language processing with Python. O'Reilly Media, Inc., 2009.