Opis predmeta
Uvod: opis področja, kratek zgodovinski opis razvoja govornih in slikovnih tehnologij, značilnosti sistemov za razpoznavanje vzorcev in predstavitev govornih in slikovnih tehnologij v luči razpoznavanja vzorcev.
Osnovne značilnosti slušnega zaznavanja ter govorna komunikacija pri ljudeh. Predstavitve govora in kodiranje informacije z govorom.
Obdelava govora: zajem in predobdelava, značilke govornega signala, razčlenjevanje govornega signala, govorne podatkovne zbirke.
Procesiranje govora
Razpoznavanje govora: vrste sistemov za razpoznavanje, statistično modeliranje akustične in jezikovne predstavitve govora ter njegova pomenska analiza.
Umetni govor: zgradba sistemov za tvorjenje umetnega govora, grafemsko-fonemska pretvorba, modeliranje prozodije, načini tvorjenja umetnega govornega signala.
Dialog: zgradba sistemov za vodenje dialoga, načini vodenja dialoga, vrednotenje delovanja.
Slikovne tehnologije: osnovni pojmi, primeri uporabe, osnovne transformacije slikovnih podatkov, barvni prostori in kodiranje slik.
Obdelava slikovnih podatkov: obdelava slik v slikovnem in frekvenčnem prostoru, modeli šuma in obnavljanje, morfološke operacije in algoritmi, iskanje robov.
Napredni algoritmi: krajevni deskriptroji in njihovo uporaba, detekcija objektov v sliki, razpoznavanje objektov, pod-prostori za predstavitev podatkov.
Segmentacija slik: vrste rojenja in njihova uporaba pri segmentaciji, mean-shift.
Cilji in kompetence
Seznanjanje s področjem govornih in slikovnih tehnologij, spoznavanje samodejnih postopkov za izvajanje različnih nalog s tega področja.
Metode poučevanja in učenja
Predavanja
Sodelovalno učenje
Laboratorijske vaje
Predvideni študijski rezultati
Po uspešno opravljenem predmetu naj bi bili študenti zmožni:
- opredeliti osnove načine za opis, predstavitev, tvorjenje ter razpoznavanje govornih in slikovnih signalov,
- opisati osnovne značilnosti, gradnike, načine delovanja in zmogljivosti sistemov govornih in slikovnih tehnologij,
- uporabiti izbrane programske rešitve za razvoj govorne komunikacije med človekom in strojem ter aplikacij za obdelavo in razpoznavanje slik,
- razlikovati med različnimi nalogami govornih in slikovnih tehnologij ter metodami predstavitve in obdelave, ki se pri tem uporabljajo,
- združiti osnovne postopke predstavitve in obdelave govornih in slikovnih signalov v kompleksnejše sisteme za razpoznavanje in sintezo govora in slik,
- ovrednotiti točnost in zanesljivost delovanja sistemov govornih in slikovnih tehnologij.
Reference nosilca
1.GRM, Klemen, SCHEIRER, Walter J., ŠTRUC, Vitomir. Face hallucination using cascaded super-resolution and identity priors. IEEE transactions on image processing, ISSN 1057-7149, 2020, vol. 29, no. 1, str. 2150-2165.
2. KOVAČ, Jure, ŠTRUC, Vitomir, PEER, Peter. Frame-based classification for cross-speed gait recognition. Multimedia tools and applications, ISSN 1380-7501, Mar. 2019, vol. 78, no. 5, str. 5621-5643.
3. KRIŽAJ, Janez, PEER, Peter, ŠTRUC, Vitomir, DOBRIŠEK, Simon. Simultaneous multi-descent regression and feature learning for facial landmarking in depth images. Neural computing & applications, ISSN 0941-0643, 2019, str. 1-18.
4. GRM, Klemen, ŠTRUC, Vitomir, ARTIGES, Anais, CARON, Matthieu, EKENEL, Hazim Kemal. Strengths and weaknesses of deep learning models for face recognition against image degradations. IET biometrics, ISSN 2047-4938. [Print ed.], Jan. 2018, vol. 7, no. 1, str. 81-89.
5. KATRAŠNIK, Marko, LUKAN, Junoš, LUŠTREK, Mitja, ŠTRUC, Vitomir. Razvoj postopka diarizacije govorcev z algoritmi strojnega učenja. V: LUŠTREK, Mitja (ur.), GAMS, Matjaž (ur.), PILTAVER, Rok (ur.). Slovenska konferenca o umetni inteligenci, Ljubljana, Slovenia, Institut "Jožef Stefan". 2019, str. 57-60
4. ULČAR, Matej, DOBRIŠEK, Simon, ROBNIK ŠIKONJA, Marko. Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež. Uporabna informatika, ISSN 1318-1882., 2019, letn. 27, št. 3, str. 96-109.
5. CATALBAS, Mehmet Cem, DOBRIŠEK, Simon. 3D moving sound source localization via conventional microphones. Elektronika ir elektrotechnika, ISSN 1392-1215. [Print ed.], 2017, vol. 23, no. 4, str. 63-69.
Temeljni viri in literatura
- Mihelič F., Žibert J., Hajdinjak M., Štruc V., Skripta za predmet Govorne in slikovne tehnologije, Izdaja, Ljubljana, Fakulteta za elektrotehniko, 2012.
- Mihelič F., Signali, Založba FE in FRI, Ljubljana, 2006.
- Pavešić N., Razpoznavanje vzorcev: uvod v analizo in razumevanje vidnih in slušnih vzorcev, Popravljena in dopolnjena izdaja, Založba FE in FRI, Ljubljana, 2012.
- Rabiner L., Schafer R., Theory and Applications of Digital Speech Processing, Prentince Hall, 1. Ed., 2010.
- Gonzales R. C., Woods, R.E., Digital Image Processing, 3 izdaja, Prentice Hall, 2007.
- R.C. Gonzales, R.E. Woods, S.L. Eddins, Digital image processing using Matlab, 2 izdaja. Gatesmark Publishing, 2009.