Obdelava naravnega jezika

Opis predmeta

Vsebina predmeta temelji na izboru sodobnih tehnik obdelave naravnega jezika, temelječih na globokem učenju, podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.

1. Uvod v obdelavo naravnega jezika: motivacija, razumevanje jezika, dvoumnost, tradicionalni, statistični in nevronski pristopi.

2. Predobdelava in normalizacija besedila: regularni izrazi, gramatike, podobnost nizov, napredne tehnike normalizacije, lematizacija.

3. Jezikovni viri: korpusi, slovarji, tezavri, mreže in semantične zbirke podatkov, WordNet.

4. Podobnost besedil: mere, metode gručenja, kosinusna razdalja, jezikovne mreže in grafi.

5. Predstavitev besedil: redke in goste vložitve; jezikovni modeli; vložitve besed, stavkov in dokumentov.

6. Globoke nevronske mreže za besedila: rekurentne nevronske mreže, konvolucijske mreže za besedila, transformerji.

7. Nevronske vložitve: word2vec, fastText, ELMo, BERT, medjezikovne vložitve.

8. Veliki jezikovni modeli: BERT, GPT in T5, večmodalni modeli.

9. Plitva računska in leksikalna semantika: oblikoskladenjsko označevanje, skladenjsko razčlenjevanje, prepoznavanje imenskih entitet, označevanje semantičnih vlog.

10. Besedni pomeni in njihovo razločevanje.

11. Afektivna analiza: sentiment, čustva.

12. Povzemanje besedil, odgovarjanje na vprašanja in razumevanje besedil: metode in vrednotenje.

13. Strojno prevajanje: metode in vrednotenje

Predmet učimo na programih

Cilji in kompetence

Študenti se bodo naučili teorije in rabe osnovnih algoritmov in pristopov na področju obdelave naravnega jezika. Študenti bodo:

razumeli pristope k analizi sintakse in semantike na področju obdelave naravnega jezika;

razumeli pristope k povzemanju dokumentov in odgovarjanju na vprašanja;

razumeli delovanje statističnih in nevronskih pristopov k strojnemu prevajanju,

razumeli uporabo metod globokega učenja v obdelavi naravnega jezika

znali uporabiti orodja za obdelavo naravnega jezika.

Metode poučevanja in učenja

Predavanja, laboratorijske vaje, delo v majhnih skupinah, javne predstavitve projektov

Predvideni študijski rezultati

Ob zaključku predmeta bodo študenti:

razumeli pristope k analizi sintakse in semantike na področju obdelave naravnega jezika;

znali ovrednotiti pristope k povzemanju dokumentov;

razlikovali med različnimi pristopi k strojnemu prevajanju,

uporabljali in prilagajali metode strojnega učenja za obdelavo naravnega jezika

uporabljali in kritično vrednotili orodja za obdelavo naravnega jezika

poznali obstoječe in znali zasnovati nove jezikovne vire

uporabljali različne predstavitve besedil in jih prilagajali novi okoliščinam

Temeljni viri in literatura

Jurafsky, David and Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, 3rd edition draft. 2023.

Jacob Eisenstein. Natural Language Processing, MIT press, 2019

Bodi na tekočem

Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana

E:  dekanat@fe.uni-lj.si T:  01 4768 411