Ssj500k je največji in najbolj rabljeni korpus za učenje strojnega označevanja slovenskih besedil. Pokriva ravni segmentacije, tokenizacije, lematizacije, oblikoskladnje in odvisnostne skladnje po sistemih JOS in Universal Dependencies, oznake udeleženskih vlog, imenskih entitet in glagolskih večbesednih enot. Posamezne ravni oznak temeljijo na jezikoslovnih smernicah, ki upoštevajo specifike slovenščine, omogočajo pa tudi medjezikovno povezovanje. V prispevku predstavimo novo različico korpusa ter program Q-CAT, ki smo ga razvili za hitrejše popravljanje korpusnih oznak in lažje analiziranje označenih besedil. Korpus je tako postal enostavnejši za nadgrajevanje in široko dostopen za empirično osnovane slovnične analize.
F.23 Razvoj novih sistemskih, normativnih, programskih in metodoloških rešitev
COBISS.SI-ID: 30599683Pod okriljem projekta J6-8256 smo pripravili tematsko številko revije Slovenščina 2.0: “Slovnične raziskave za jezikovni opis”. Revija prinaša sedem sodobnih slovenističnih slovničnih razprav, ki pomembno dopolnjujejo področna spoznanja in utemeljujejo nove pristope k analizi slovničnih podatkov. Poleg njih je na voljo zapis strokovnega panela, ki smo ga leta 2018 organizirali kot del projektnega dogodka. Panelna razprava, na kateri so sodelovali predstavniki različnih relevantnih slovenskih institucij, je izpostavila, katere vrste slovnični opis sodobne slovenščine v skupnosti potrebujemo glede na razvoj stroke in družbe.
C.03 Vabljeni urednik revije (guest-associated editor)
COBISS.SI-ID: 298688512Z orodjem LIST lahko uporabnik iz poljubnega ustrezno formatiranega besedilnega korpusa pridobi frekvenčne informacije na ravni črk, besednih delov, besednih oblik, lem in besednih nizov. Orodje podpira različne korpusne formate, ne glede na jezik in izbrani nabor jezikoslovnih ali drugih oznak. Z razvojem orodja, ki je odprto dostopno in uporabniško prijazno, smo ključno izboljšali dostopnost empiričnih podatkov o sodobni slovenščini za raziskovalno in razvojno javnost in s tem omogočili korpusno osnovan slovnični opis, komparativne korpusne analize in številne druge rezultate.
F.06 Razvoj novega izdelka
COBISS.SI-ID: 1538193091Referenčni besedilni korpus Gigafida, ki je trenutno na voljo v različici 2.0, je nabor besedil, ki so izbrana in strojno obdelana z namenom, da bi korpus kot vzorec sodobne standardne slovenščine lahko služil za jezikoslovne in druge humanistične raziskave, izdelavo sodobnih slovarjev, slovnic, učnih gradiv in razvoj jezikovnih tehnologij za slovenščino. Na 36. Slovenskem knjižnem sejmu (2020) je korpus Gigafida v okviru nagrade Knjiga leta prejel posebno priznanje na področju e-založništva, ki se podeli za projekt z najbolj domišljenimi, svežimi in specifičnimi rešitvami v okviru digitalnih platform v zvezi s knjigo: https://www.knjiznisejem.si/index.php/sl/nagrade.
E.01 Domače nagrade
COBISS.SI-ID: 18023939Vezljivostni leksikon temelji na podatkih iz korpusa Gigafida 2.1 in vsebuje vezljivostne vzorce za 14.595 slovenskih glagolov. Gre za največji in prvi odprto dostopni leksikon tega tipa pri nas, ki je bil pripravljen z interdisciplinarno združitvijo jezikoslovnih in strojnih postopkov. Vezljivostni vzorci so jezikoslovno definirani in formalizirani s pomočjo odvisnostih drevesnic JOS in semantičnih vlog SRL. Za vse vzorce, v katerih se pojavljajo posamezni glagoli, kot tudi za posamezno udeležensko vlogo, ki se pojavlja v vzorcu, smo v bazi navedli statistične podatke glede na zastopanost v korpusu ssj500k in Gigafida 2.1. Vsak vzorec vsebuje tudi vsaj en primer avtentične jezikovne rabe iz obeh korpusov. Odprto dostopna podatkovna baza predstavlja podatkovno izhodišče za korpusne raziskave na ravni skladnje in pomena, slovnični opis in razvoj jezikovnih tehnologij za sodobno slovenščino.
F.15 Razvoj novega informacijskega sistema/podatkovnih baz
COBISS.SI-ID: 62222339