V prispevku je predstavljen jezikovno neodvisen modularen avtomatski pristop k gradnji leksikosematničnih virov tipa wordnet s pomočjo obstoječih elektronskih jezikovnih virov, dostopnih na spletu, kot so Wikipedija, korpus in slovar. Pristop je preizkušen na slovenščini, deluje tako za enopomenske kot večpomenske besede, splošno in specializirano besedišče ter eno- in večbesedne lekseme. Izluščeni kandidati so razvrščeni v pomene s pomočjo avtomatskega klasifikatorja, ki temelji na številnih značilkah, med katerimi je najpomembnejša distribucijska podobnost besednih vektorjev. Na podlagi kontekstualnih informacij, pridobljenih iz referenčnega korpusa, pristop prav tako samodejno identificira in filtrira kandidate, ki v generiranem viru najverjetneje predstavljajo šum, s čimer bistveno zmanjša potrebo po ročnem čiščenju vira s strani leksikografov.
COBISS.SI-ID: 56782434
Spletna besedila tako po svetu kot v Sloveniji predstavljajo vse večji delež jezikovne produkcije, uporabniške spletne vsebine pa postajajo vse pomembnejši vir znanja in vplivajo tudi na nadaljnji razvoj jezika. Če želimo ta potencial izkoristiti, moramo temeljito proučiti spletni segment jezikovne rabe, ki se razlikuje od klasične jezikovne produkcije. Prvi korak v to smer je izgradnja korpusa spletne slovenščine Janes, ki ga predstavljamo in analiziramo v pričujočem prispevku.
COBISS.SI-ID: 59017570
Prispevek predstavlja avtomatski pristop za pripisovanje stopnje tehnične in jezikovne standardnosti besedil v spletnih uporabniških vsebinah s pomočjo ročno označene učne množice in metode strojnega učenja. Standardnost merimo na dveh nivojih: tehnični in jezikovni. Pri tehnični opazujemo rabo velike začetnice, ločil in presledkov, pri jezikovni pa zapis besed, uporabljeno besedišče in skladnjo. Evalvacija rezultatov pokaže, da je pristop zanesljiv, da pa je tehnično standardnost lažje pripisati (0.38 MAE) kot jezikovno (0.42 MAE).
COBISS.SI-ID: 58338402