Učni korpus Ssj500k 2.0 vsebuje cca. 500.000 pojavnic, ki so ročno označene na ravni tokenizacije, stavčne segmentacije, oblikoskladnje in lematizacije. Približno polovica korpusa je označena na nivoju odvisnostne skladnje, imenskih entitet in glagolskih stalnih besednih zvez.
COBISS.SI-ID: 31087143
V članku je opisana izdelava učnega korpusa za slovenščino z ročno označenimi glagolskimi večbesednimi enotami, ki je nastal v okviru PARSEME shared task in ki poleg slovenščine vključuje še 18 jezikov iz različnih besednih družin. V ta namen so bile izdelane smernice za označevalce, ki podrobno opisujejo obseg označevanja in predlagajo večjezikovni sistem kategorizacije glagolskih večbesednih enot na ravni leksikalnih in skladenjskih lastnosti. V prispevku je opisan postopek identifikacije, obseg označevanja in jezikoslovni testi, ki določajo strukturne, skladenjske in pomenske lastnosti kandidatov za večbesedne glagolske enote ter ob posameznih primerih izpostavljene specifike za slovenščino. Obenem predstavimo v ta namen uporabljeno orodje za označevanje in predhodno skladenjsko, morfosintakstično in sintaktično označen učni korpus za slovenščino.
COBISS.SI-ID: 65967458
Učni korpus Ssj500k 2.1 vsebuje cca. 500.000 pojavnic, ki so ročno označene na ravni tokenizacije, stavčne segmentacije, oblikoskladnje in lematizacije. Približno polovica korpusa je označena na nivoju odvisnostne skladnje, imenskih entitet in glagolskih stalnih besednih zvez. Četrtina korpusa je označena s semantičnimi vlogami.
COBISS.SI-ID: 66454114