Odkrivanje zakonitosti iz literature

Evidenčna št.

Z5-9352 (B) - iz evidence ARIS

Vodja

dr. Andrej Kastrin

Obdobje

1.7.2018 - 30.6.2020

Obseg v 2020

0.5 FTE

Veda

Medicina (1)

Status raziskovalca

Raziskovalec (1)
Strokovni ali tehnični sodelavec (0)

Izobrazba

Doktorat znanosti (1)

Spol

Moški (1)

Status

Zaposlen v RO+RRD (1)

Število publikacij

0 (1)

Projekti / Programi vir: ARIS

Odkrivanje zakonitosti iz literature

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
5.13.00	Družboslovje	Informacijska znanost in bibliotekarstvo

Koda	Veda	Področje
H100	Humanistične vede	Dokumentalistika, informacijska znanost, bibliotekarstvo, arhivistika

Koda	Veda	Področje
5.08	Družbene vede	Mediji in komunikacije

Ključne besede

Informacijska znanost, bibliometrija, scientometrika, medicinska informatika, odkrivanje zakonitosti iz podatkov, MEDLINE

Vrednotenje (pravilnik)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Raziskovalci (1)

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	26484	dr. Andrej Kastrin	Medicina	Vodja	2018 - 2020	0

Organizacije (1)

št.	Evidenčna št.	Razisk. organizacija	Kraj	Matična številka	Štev. publikacijŠtev. publikacij
1.	0381	Univerza v Ljubljani, Medicinska fakulteta	Ljubljana	1627066	118

Povzetek

Odkrivanje zakonitosti iz literature (OZL) je pomembno raziskovalno področje. OZL ponuja zbir različnih metodoloških orodij za samodejno konstrukcijo raziskovalnih hipotez. Glavni cilj OZL je odkrivanje implicitnih, v literaturi še ne opisanih, povezav med znanstvenimi koncepti. V predlaganem projektu problem OZL prevedemo na problem napovedovanja povezav v kompleksnem omrežju. Kompleksno omrežje je podatkovna struktura, ki se v času spreminja. Eden od glavnih problemov v sodobnih raziskavah kompleksnih omrežij je razumevanje procesa nastajanja novih povezav med vozlišči. Napovedovanje povezav se nanaša na odkrivanje relacij med vozlišči, ki v trenutnem stanju omrežja niso povezana, se pa povežejo v prihodnosti. V okviru predlaganega projekta se bomo ukvarjali z raziskovanjem problema napovedovanja povezav v luči OZL. Proces OZL bomo predstavili kot klasifikacijski problem, v katerem bodo atributi predstavljeni z različnimi topološkimi in semantičnimi merami podobnosti med biomedicinskimi koncepti. Cilje predlaganega projekta lahko strnemo v naslednjih točkah: (i) teoretična analiza bibliografske zbirke MEDLINE in zbirke semantičnih relacij SemMedDB kot omrežij biomedicinskih konceptov, (ii) razvoj programske opreme za napovedovanje povezav v velikih kompleksnih omrežjih, (iii) razširitev in validacija metodologije OZL s pomočjo napovedovanja povezav na heterogena omrežja, (iv) implementacija metodologije reprezentacijskega učenja za OZL s pomočjo napovedovanja povezav in končno (v) razvoj spletne aplikacije za interaktivno OZL na osnovi metodologije napovedovanja povezav v omrežjih. Pripravljalna analiza kaže, da v strokovni javnosti obstaja velik interes za področje OZL, predvsem v znanostih o življenju. Obstoječi pristopi k OZL generirajo veliko število napačno pozitivnih rezultatov in s tem otežkočajo kvalitetno interpretacijo dobljenih rezultatov. Predlagan projekt to pomanjkljivost odpravlja. Glavni vir podatkov bo predstavljal MEDLINE, največja bibliografska zbirka na področju biomedicine. Prav tako bomo uporabili SemMedDB, podatkovno zbirko semantičnih relacij izluščenih iz MEDLINE. Omrežje bomo predstavili kot graf, sestavljen iz množice biomedicinskih konceptov, ki bodo predstavljali vozlišča. Povezava med vozliščema bo vzpostavljana, če se bo par konceptov pojavil v istem MEDLINE zapisu. Bolj kot sta si vozlišči v paru podobni glede na mero podobnosti, večja je verjetnost, da bo med njima vzpostavljena povezava. Nad izračunanimi merami podobnosti bomo v nadaljevanju raziskave uporabili nenadzorovane in nadzorovane postopke strojnega učenja in s tem preizkusili uspešnost napovedovanja novih relacij. Večina raziskav na področju napovedovanja povezav je bila opravljena na homogenih omrežjih. Heterogeno omrežje, kot je npr. omrežje SemMedDB, vsebuje vozlišča in povezave različnih tipov. Heterogena omrežja ponujajo oblico informacij, ki niso leksikalne narave (npr. imena avtorjev in relacije nad njimi). Za napovedovanje povezav v heterogenih omrežjih bomo uporabili koncept metapoti. Za sestavo atributov bomo uporabili različne metrike (npr. PathCount, RandomWalk, PathSim, HeteSim), za strojno učenje pa novejše statistične postopke, kot so npr. slučajni gozdovi in metoda podpornih vektorjev. Za namene aplikacije strojnega učenja nad omrežji je zelo pomembno, da upoštevamo karseda veliko informacije, ki jo ponujajo posamezna vozlišča. Reprezentacijsko učenje ponuja močno alternativo tradicionalnim postopkom sestavljanja atributov. Splošna ideja v ozadju reprezentacijskega učenja je, da poskušamo najti preslikavo, ki bo vozlišče predstavila kot točko v nizkorazsežnem vektorskem prostoru. V predlaganem projektu bomo preizkusili različne sodobne metode reprezentacijskega učenja za napovedovanje povezav v omrežjih (npr. faktorizacijo, DeepWalk, node2vec). Načrt upravljanja projekta je usmerjen v učinkovito in pravočasno doseganje projektnih ciljev. Načrt upravljanja je razdeljen v šest delovnih sklopov, vsak sklop pa v ve

Pomen za razvoj znanosti

Predlagan projekt ponuja inovativno kombinacijo statističnih tehnik in domenskega znanja za izboljšanje procesa odkrivanja zakonitosti iz literature (OZL). Glede na rezultate pripravljalne analize, zagotavlja boljšo sposobnost odkrivanja latentnih povezav v literaturi, ki so preveč kompleksne, da bi jih bilo moč odkriti z obstoječimi pristopi OZL. Posebno pozornost projekt namenja preverjanju veljavnosti, saj gre za problem, ki ga večina obstoječih pristopov OZL zanemarja. Z inovativno integracijo različnih raziskovalnih področij (scientometrika, napovedovanje povezav, strojno učenje) ponujamo nov pogled na reševanje problema OZL. Pomen novih tehnologij za OZL je pomemben tudi zaradi tega, ker le-ta služi kot temelj za druga znanstvena področja (npr. avtomatsko iskanje odgovorov na vprašanja (angl. question answering), odkrivanje genov in spreminjanje namena uporabe zdravil (angl. drug repurposing)). Rezultati predlaganega projekta bodo posebno zanimivi za: (i) raziskovalce na področju biomedicine in biologije, ki jih zanima zgodnja detekcija povezav med različnimi znanstvenimi koncepti, (ii) skrbnike in vzdrževalce biomedicinskih podatkovnih zbirk in (iii) podjetnike, ki iščejo poslovne priložnosti v visokotehnološki bioznanosti. Menimo, da bodo rezultati predlaganega projekta pomembno prispevali v svetovno zakladnico znanja s področja OZL, k nadaljnji uveljavitvi ljubljanske šole OZL ter k prenosu znanstvenih dosežkov v prakso (predvsem na področju znanosti o življenju). Rezultati projekta bodo prispevali k utrditvi novih raziskovalnih področij, kot sta npr. rudarjenje časovnih relacijskih podatkov in bibliomika, porajajoče se znanstvena disciplina, ki se ukvarja z vzročnim modeliranjem bioloških procesov na osnovi tekstovnih podatkov iz znanstvene literature.

Pomen za razvoj Slovenije

Proposed project proposes an innovative combination of statistical and knowledge-based techniques to improve literature-based discovery (LBD) process. According to our preliminary results, it provides better capability in discovering latent associations in the literature that may be too complex to be modeled using any existing approach to LBD. Special attention will be paid to performance evaluation, the issue which is neglected in most current approaches to LBD. With the innovative integration of methodologies from different research fields (scientometrics, link prediction, and machine learning), the proposed project offers new and fresh perspective on how the LBD problem could be addressed. However, the importance of new LBD technology is even greater because they serve as a basis for other scientific fields (e.g., question-answering, gene discovery, drug repurposing). In particular, the following stakeholders will benefit from the outcome of the project: (i) researchers in biomedicine and biology interested in early detection of relationships between scientific instances, (ii) curators and maintainers of biomedical databases and resources, and (iii) entrepreneurs, seeking business opportunities in high-tech bioscience. We believe that the results of the proposed project will contribute significantly to the global knowledge in the field of LBD, to a further establishment of Ljubljana school of LBD on the European and global scale and to the transfer of scientific knowledge into practice (especially in the field of life sciences). Results will also significantly contribute to the consolidation of new research areas, such as temporal relational data mining and bibliomics, an emerging scientific discipline that deals with causative modeling based on textual data.

Najpomembnejši znanstveni rezultati

Vmesno poročilo, zaključno poročilo

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Zaključno poročilo

Filtri

Odkrivanje zakonitosti iz literature

Zgodovina ogledov

Priljubljeno

Filtri

Odkrivanje zakonitosti iz literature

Klasifikacija ARIS

Klasifikacija CERIF

Klasifikacija FORD

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno