Nalaganje ...
Projekti / Programi vir: ARIS

Odkrivanje zakonitosti iz literature

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
5.13.00  Družboslovje  Informacijska znanost in bibliotekarstvo   

Koda Veda Področje
H100  Humanistične vede  Dokumentalistika, informacijska znanost, bibliotekarstvo, arhivistika 

Koda Veda Področje
5.08  Družbene vede  Mediji in komunikacije 
Ključne besede
Informacijska znanost, bibliometrija, scientometrika, medicinska informatika, odkrivanje zakonitosti iz podatkov, MEDLINE
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (1)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  26484  dr. Andrej Kastrin  Medicina  Vodja  2018 - 2020 
Organizacije (1)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0381  Univerza v Ljubljani, Medicinska fakulteta  Ljubljana  1627066  118 
Povzetek
Odkrivanje zakonitosti iz literature (OZL) je pomembno raziskovalno področje. OZL ponuja zbir različnih metodoloških orodij za samodejno konstrukcijo raziskovalnih hipotez. Glavni cilj OZL je odkrivanje implicitnih, v literaturi še ne opisanih, povezav med znanstvenimi koncepti. V predlaganem projektu problem OZL prevedemo na problem napovedovanja povezav v kompleksnem omrežju. Kompleksno omrežje je podatkovna struktura, ki se v času spreminja. Eden od glavnih problemov v sodobnih raziskavah kompleksnih omrežij je razumevanje procesa nastajanja novih povezav med vozlišči. Napovedovanje povezav se nanaša na odkrivanje relacij med vozlišči, ki v trenutnem stanju omrežja niso povezana, se pa povežejo v prihodnosti. V okviru predlaganega projekta se bomo ukvarjali z raziskovanjem problema napovedovanja povezav v luči OZL. Proces OZL bomo predstavili kot klasifikacijski problem, v katerem bodo atributi predstavljeni z različnimi topološkimi in semantičnimi merami podobnosti med biomedicinskimi koncepti. Cilje predlaganega projekta lahko strnemo v naslednjih točkah: (i) teoretična analiza bibliografske zbirke MEDLINE in zbirke semantičnih relacij SemMedDB kot omrežij biomedicinskih konceptov, (ii) razvoj programske opreme za napovedovanje povezav v velikih kompleksnih omrežjih, (iii) razširitev in validacija metodologije OZL s pomočjo napovedovanja povezav na heterogena omrežja, (iv) implementacija metodologije reprezentacijskega učenja za OZL s pomočjo napovedovanja povezav in končno (v) razvoj spletne aplikacije za interaktivno OZL na osnovi metodologije napovedovanja povezav v omrežjih. Pripravljalna analiza kaže, da v strokovni javnosti obstaja velik interes za področje OZL, predvsem v znanostih o življenju. Obstoječi pristopi k OZL generirajo veliko število napačno pozitivnih rezultatov in s tem otežkočajo kvalitetno interpretacijo dobljenih rezultatov. Predlagan projekt to pomanjkljivost odpravlja. Glavni vir podatkov bo predstavljal MEDLINE, največja bibliografska zbirka na področju biomedicine. Prav tako bomo uporabili SemMedDB, podatkovno zbirko semantičnih relacij izluščenih iz MEDLINE. Omrežje bomo predstavili kot graf, sestavljen iz množice biomedicinskih konceptov, ki bodo predstavljali vozlišča. Povezava med vozliščema bo vzpostavljana, če se bo par konceptov pojavil v istem MEDLINE zapisu. Bolj kot sta si vozlišči v paru podobni glede na mero podobnosti, večja je verjetnost, da bo med njima vzpostavljena povezava. Nad izračunanimi merami podobnosti bomo v nadaljevanju raziskave uporabili nenadzorovane in nadzorovane postopke strojnega učenja in s tem preizkusili uspešnost napovedovanja novih relacij. Večina raziskav na področju napovedovanja povezav je bila opravljena na homogenih omrežjih. Heterogeno omrežje, kot je npr. omrežje SemMedDB, vsebuje vozlišča in povezave različnih tipov. Heterogena omrežja ponujajo oblico informacij, ki niso leksikalne narave (npr. imena avtorjev in relacije nad njimi). Za napovedovanje povezav v heterogenih omrežjih bomo uporabili koncept metapoti. Za sestavo atributov bomo uporabili različne metrike (npr. PathCount, RandomWalk, PathSim, HeteSim), za strojno učenje pa novejše statistične postopke, kot so npr. slučajni gozdovi in metoda podpornih vektorjev. Za namene aplikacije strojnega učenja nad omrežji je zelo pomembno, da upoštevamo karseda veliko informacije, ki jo ponujajo posamezna vozlišča. Reprezentacijsko učenje ponuja močno alternativo tradicionalnim postopkom sestavljanja atributov. Splošna ideja v ozadju reprezentacijskega učenja je, da poskušamo najti preslikavo, ki bo vozlišče predstavila kot točko v nizkorazsežnem vektorskem prostoru. V predlaganem projektu bomo preizkusili različne sodobne metode reprezentacijskega učenja za napovedovanje povezav v omrežjih (npr. faktorizacijo, DeepWalk, node2vec). Načrt upravljanja projekta je usmerjen v učinkovito in pravočasno doseganje projektnih ciljev. Načrt upravljanja je razdeljen v šest delovnih sklopov, vsak sklop pa v ve
Pomen za razvoj znanosti
Predlagan projekt ponuja inovativno kombinacijo statističnih tehnik in domenskega znanja za izboljšanje procesa odkrivanja zakonitosti iz literature (OZL). Glede na rezultate pripravljalne analize, zagotavlja boljšo sposobnost odkrivanja latentnih povezav v literaturi, ki so preveč kompleksne, da bi jih bilo moč odkriti z obstoječimi pristopi OZL. Posebno pozornost projekt namenja preverjanju veljavnosti, saj gre za problem, ki ga večina obstoječih pristopov OZL zanemarja. Z inovativno integracijo različnih raziskovalnih področij (scientometrika, napovedovanje povezav, strojno učenje) ponujamo nov pogled na reševanje problema OZL. Pomen novih tehnologij za OZL je pomemben tudi zaradi tega, ker le-ta služi kot temelj za druga znanstvena področja (npr. avtomatsko iskanje odgovorov na vprašanja (angl. question answering), odkrivanje genov in spreminjanje namena uporabe zdravil (angl. drug repurposing)). Rezultati predlaganega projekta bodo posebno zanimivi za: (i) raziskovalce na področju biomedicine in biologije, ki jih zanima zgodnja detekcija povezav med različnimi znanstvenimi koncepti, (ii) skrbnike in vzdrževalce biomedicinskih podatkovnih zbirk in (iii) podjetnike, ki iščejo poslovne priložnosti v visokotehnološki bioznanosti. Menimo, da bodo rezultati predlaganega projekta pomembno prispevali v svetovno zakladnico znanja s področja OZL, k nadaljnji uveljavitvi ljubljanske šole OZL ter k prenosu znanstvenih dosežkov v prakso (predvsem na področju znanosti o življenju). Rezultati projekta bodo prispevali k utrditvi novih raziskovalnih področij, kot sta npr. rudarjenje časovnih relacijskih podatkov in bibliomika, porajajoče se znanstvena disciplina, ki se ukvarja z vzročnim modeliranjem bioloških procesov na osnovi tekstovnih podatkov iz znanstvene literature.
Pomen za razvoj Slovenije
Proposed project proposes an innovative combination of statistical and knowledge-based techniques to improve literature-based discovery (LBD) process. According to our preliminary results, it provides better capability in discovering latent associations in the literature that may be too complex to be modeled using any existing approach to LBD. Special attention will be paid to performance evaluation, the issue which is neglected in most current approaches to LBD. With the innovative integration of methodologies from different research fields (scientometrics, link prediction, and machine learning), the proposed project offers new and fresh perspective on how the LBD problem could be addressed. However, the importance of new LBD technology is even greater because they serve as a basis for other scientific fields (e.g., question-answering, gene discovery, drug repurposing). In particular, the following stakeholders will benefit from the outcome of the project: (i) researchers in biomedicine and biology interested in early detection of relationships between scientific instances, (ii) curators and maintainers of biomedical databases and resources, and (iii) entrepreneurs, seeking business opportunities in high-tech bioscience. We believe that the results of the proposed project will contribute significantly to the global knowledge in the field of LBD, to a further establishment of Ljubljana school of LBD on the European and global scale and to the transfer of scientific knowledge into practice (especially in the field of life sciences). Results will also significantly contribute to the consolidation of new research areas, such as temporal relational data mining and bibliomics, an emerging scientific discipline that deals with causative modeling based on textual data.
Najpomembnejši znanstveni rezultati Vmesno poročilo, zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Zaključno poročilo
Zgodovina ogledov
Priljubljeno