Govorna baza SI TEDx-UM je novi slovenski govorni vir, nastal na osnovi posnetkov predavanj TEDx. Govorna baza vsebuje posnetke 242 predavanj, v skupni dolžini 54 ur. Transkribiranje govora v bazi SI TEDx-UM smo izvedli v dveh delih. Učni nabor smo transkribirali avtomatsko, z uporabo razpoznavalnika govora UMB Broadcast News. Razvojni in testni nabor baze, ki obsega 3 ure govornega materiala, pa smo transkribirali ročno, v skladu z nadgrajenimi priporočili za transkribiranje korpusa GOS. Povprečna napaka razpoznavanja besed na testnem naboru baze SI TEDx-UM je znašala 50,7%. Govorna baza SI TEDx-UM je prosto dostopna. Si TEDx-UM je še posebej pomembna zaradi dejstva, da sodi slovenski jezik v skupino jezikov s slabo razvitimi viri za govorne tehnologije.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 19822102Gos Videolectures je dodatek k referenčnemu govornemu korpusu slovenskega jezika Gos (http://hdl.handle.net/11356/1040) in zajema javni akademski govor. Posnetki za Gos Videolectures so zajeti iz baze videoposnetkov na portalu Videoletures.net, ki ga upravlja Institut Jožef Stefan. V prvi izdaji zajema Gos Videolectures 4,5 ure govora.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 29725735V prispevku smo raziskali uporabnost obliko-skladenjske informacije v statističnem strojnem prevajanju med angleščino in slovenščino, ki sodi v skupino visoko-pregibnih jezikov. Analizirali smo prevajanje v obe smeri, pri čemer je prevajanje v pregibni jezik zahtevnejša naloga. Uporabili smo dva obliko-skladenjska označevalnika, TreeTagger in Obelix. Obliko-skladenjska informacija je bila uporabljena na tri različne načine: ponovno vrednotenje N najboljših hipotez; faktorizirano prevajanje in modeliranje zaporedij operacij prevajanja. S faktoriziranim prevajanjem z dodanimi modeli zaporedij operacij smo BLEU izboljšali za 10% v primeru prevajanja iz angleščine v slovenščino in za 2% pri prevajanju v obratni smeri.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 20055318Kriterija predhodnega nastopa in podaljška sta integrirana v algoritem zaznavanja aktivnosti govora po osnovni stopnji odločanja prisotnosti govora v signalu. Uporaba kriterija predhodnega nastopa odpravi nepravilno zaznavanje konzonantov, ki se pojavijo na začetku besede, in konzonantov, ki se pojavijo na sredini besede. Uporaba kriterija podaljška odpravi nepravilno zaznavanje konzonantov, ki se pojavijo na koncu besede, in konzonantov, ki se pojavijo na sredini besede. Vedno smo v precepu, koliko okvirov je treba uporabiti za kriterija podaljška in predhodnega nastopa. Glavni namen študije v članku je bil definirati postopek, ki bo omogočal hitro in zanesljivo določanje števila okvirov, ki so uporabljeni pri obeh kriterijih. Rezultati so pokazali, da z novim hitrim postopkom pridemo do zelo podobnih rezultatov, kot bi jih dosegli z daljšim prej znanim postopkom.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 19584790Zdravko Kačič - član uredniškega odbora (2003 - ) revije International journal of Speech Communication; publisher: Springer-Verlag GmbH; ISSN: 1381-2416; http://www.springer.com/engineering/signals/journal/10772/PS2?detailsPage=editorialBoard
C.06 Članstvo v uredniškem odboru
COBISS.SI-ID: 16846341