V okviru projekta smo razvili ontologijo za reprezentacijo podatkov o bolezni možganov – NDDO. Predlagana ontologija omogoča semantično anotacijo podatkovnih množic, ki vsebujejo diagnostične podatke nevrodegenerativnih bolezni (tj. klinične izvide, slike, biomarkerje itd.) in podatke o napredovanju bolezni, ki so jih o bolnikih zbrale različne bolnišnice. Celovita semantična anotacija podatkovnih množic je ključna za učinkovito podporo podatkovnega rudarjenja, denimo za identifikacijo primernih algoritmov pri analizi podatkov, rudarjenju besedil in sklepanju na podlagi porazdeljenih podatkov in virov znanja. Z namenom izboljšanja perspektive podatkovne analize smo ponovno uporabili in razširili obseg našega dosedanjega dela na področju ontologije podatkovnih tipov (OntoDT) in ontologije osnovnih entitet podatkovnega rudarjenja (OntoDM-core), da bi predstavili specifične podatkovne tipe, ki se pojavljajo v domenskih podatkovnih množicah. Uporabnost NDDO smo demonstrirali na dveh primerih, in sicer na semantični anotaciji podatkovnih množic ter na vključevanju informacij o kliničnih protokolih, ki so bile uporabljene za generiranje podatkov o nevrodegenerativnih boleznih.
COBISS.SI-ID: 32864807
Shranjevanje metapodatkov o modelih dinamičnih sistemov v informatizirani obliki, ki jo prepoznajo naprave, je eden izmed ključnih korakov k njihovi dostopnosti in ponovni uporabi. V domeni procesnega modeliranja dinamičnih sistemov je glavna naloga avtomatično zgraditi model dinamičnega sistema iz domenskega znanja in podatkov. V okviru projekta smo tako razvili delotok za anotacijo, shranjevanje in povpraševanje množice procesnih modelov, in sicer konkretno na domeni vodnih ekosistemov. Da bi zagotovili slovar ključnih terminov o paradigmi procesnega modeliranja, smo razvili ontologijo, ki opisuje domeno procesnega modeliranja dinamičnih sistemov (OntoPBM). Da bi zajeli za domeno specifične značilnosti, smo nato razširili OntoPBM s termini, specifičnimi za vodne ekosisteme. Anotacije za vsak procesni model so shranjene v skladu tripletov v formatu RDF, kar nam je omogočilo izvedbo SPARQL povpraševanj. Na koncu smo, sledeč predlaganemu delotoku, ustvarili minimalno informacijo o modelu, kar nas je privedlo še en korak bližje k ponovni uporabljivosti raziskav.
COBISS.SI-ID: 32541991
Število dostopnih spletnih strani se iz dneva v dan povečuje, pri čemer se iskanje po njih ponavadi izvršuje z navedbo iskalnih gesel v iskalniku, ta pa nam nato vrne urejen seznam rezultatov. Kljub temu lahko uporabnik pridobi bolj natančne rezultate s specifikacijo spletnih žanrov, ki jih uporabnik išče. Preučili smo deset različnih semantičnih reprezentacij spletnih strani, ki so vsebovale različne vrste značilk: od strokovno pridobljenih značilk (konteksti, prezentacijami itd.) do n-gramov nize znakov ter vektorskih vložitev na nivoju odstavka. Še več, napovedovanje spletnega žanra lahko ponavadi štejemo kot nalogo večrazredne klasifikacije. V tem kontekstu pa zagovarjamo in pokažemo, da je napovedovanje spletnega žanra dejansko naloga napovedovanja strukturiranih vrednosti, pri čemer je lahko spletna stran označena z več žanri (večoznačna klasifikacija – MLC), žanre pa lahko organiziramo v hierarhično taksonomijo (hierarhična večoznačna klasifikacija MLC). V ta namen smo izvedli številne eksperimente, ki potrjujejo naše stališče in prav tako razkrivajo, da 1) s pomočjo napovedovanja strukturiranih vrednosti pridobimo najboljše kazalce uspešnosti v pogledu napovedne moči, 2) da konstrukcije hiearhij spletnih žanrov, ki temeljijo na podatkih, dajejo enako dobre rezultate kot strokovno konstruirana hierarhija in 3) da površinske in odstavkovne vektorske vložitve ponujajo najboljše rezultate.
COBISS.SI-ID: 32528679