Projekti / Programi
Odkrivanje zakonitosti iz literature kot pomoč pri interpretaciji podatkov pridobljenimi z metodami visokozmogljivega sekvenciranja
Koda |
Veda |
Področje |
Podpodročje |
5.13.00 |
Družboslovje |
Informacijska znanost in bibliotekarstvo |
|
Koda |
Veda |
Področje |
H100 |
Humanistične vede |
Dokumentalistika, informacijska znanost, bibliotekarstvo, arhivistika |
Koda |
Veda |
Področje |
5.08 |
Družbene vede |
Mediji in komunikacije |
informacijska znanost; rudarjenje besedil; odkrivanje zakonitosti iz literature; sistem za podporo kliničnemu diagnosticiranju
Raziskovalci (13)
Organizacije (2)
Povzetek
Odkrivanje zakonitosti iz literature je tehnologija rudarjenja besedil za samodejno generiranje razsikovalnih domnev. Glavni cilj OZL je odkrivanje implicitnih, v literaturi še ne opisanih, povezav med znanstvenimi koncepti v obstoječi strokovni literaturi (domeni znanja). Osnovna zamisel pristopa OZL narekuje obstoj dveh, med seboj nepovezanih, znanstvenih domen. Koncepti znanja v prvi domeni so sicer lahko povezani s koncepti znanja v drugi domeni, cendar so te relacije implicitne. Sekvenciranje naslednje generacije (NGS) je termin, ki se nanaša tehnologijo za množično paralelno sekvenciranje, kar omogoča pregled celotnega genoma v razumnem časovnem okviru. Razvoj NGS tehnologij je omogočil razširjeno uporabo sekvenciranja DNA, tudi v klinične namene, hitreje in ceneje kot s predhodno uporabljenimi metodami. To je omogočilo obsežno uporabo sekvenciranja, tako v klinični praksi, kot tudi v raziskovalne namene, kar je vodilo v hiter razvoj genomskih znanosti. V klinični genetiki tako ozko grlo velikokrat ni sekvenciranje z uporabo tehnologij NGS samo, vendar kasnejša zmožnost procesiranja in, še toliko bolj, interpretacija velike količine podatkov, katerih obseg je velikokrat slabo predstavljiv. V tem projektu predlagamo nov pristop k interpretaciji NGS rezultatov, temelječ na metodologiji OZL. Glavni raziskovalni problem, ki ga bomo rešili v okviru predlaganega projekta, sestavljajo naslednje komponente: (i) teoretična analiza bibliografske zbirke MEDLINE/PubMed in zbirke semantičnih relacij SemMedDB kot omrežij biomedicinskih konceptov, ki bi lahko pripomogla k boljšemu razumevanju lastnosti, pomembnih za razumevanje interpretacije NGS podatkov s pomočjo metodologije OZL; (ii) razvoj teoretskega okvira in podatkovnega modela za interpretacijo NGS podatkov s pomočjo metodologije OZL; (iii) razvoj odprtokodne spletne aplikacije za sodejno (interaktivno) interpretacijo NGS podatkov s pomočjo OZL, ki bo služila kot klinično diagnostično orodje za podporo odločanju; (iv) razvoj metodologije za filtriranje napačno-pozitivnih relacij v procesu OZL s pomočjo uporabe orodij strojnega učenja; (v) prevedba procesa OZL na problem napovedovanja povezav v heterogenih omrežjih ter (vi) validacija razvite metodologije s strani domenskih ekspertov. Hkrati obravnavamo podatke enega pacienta. Vhod algoritma predstavljata dve množici podatkov, genotip z genetskimi različicami in fenotip, kot ga je opisal klinični genetik. Genotip X vsebuje gene z mutacijami, ki jih pridobimo na osnovi sekvenciranja z NGS. Fenotip Z vsebuje klinične lastnosti na osnovi ontologije humanega fenotipa. Relevantna podatkovja bomo predstavili v grafovski podatkovni zbirki Neo4j. Grafovska zbirka vsebuje dva glavna tipa vozlišč, paciente in koncepte različnih tipov, vključno s fenotipom, geni, proteini, celičnimi funkcijami, genetskimi boleznimi ter drugimi biomedicinskimi tipi. Zgrajeno omrežje povezav se ponaša z različnimi tipi povezav. Relacija PHENO tako povezuje paciente z ustreznimi vozlišči, ki se nanašajo na fenotip, relacija GENO pa povezuje paciente z ustreznimi mutiranimi geni. Poleg tega v omrežje vključimo 30 različnih tipov semantičnih relacij, kot jih izlušči orodje SemRep iz bibliografske zbirke MEDLINE. Izhod algoritma predstavlja množica relevantnih vmesnih konceptov Y (kot so npr. Genetske funkcije ali bolezni), ki povezujejo genotip X s fenotipom Z. Y koncepti predstavljajo nove raziskovalne domneve, ki pojasnjujejo mehanizme novih relacij med genotipom in fenotipom. Predlagan projekt bo formaliziral in dodatno okrepil naše dolgoletno raziskovalno delo na področju OZL.
Pomen za razvoj znanosti
Analiza besedilnih podatkov doživlja v svetu izjemen razmah predvsem zaradi lahke dostopnosti tovrstnih podatkov in čedalje večjih računskih zmogljivosti po eni strani, po drugi strani pa zaradi potreb inštitucij in industrije po obvladovanju problemskih situacij povezanih z razumevanjem kompleksnih sistemov. Pomembnost znanj in tehnologij za obvladovanje kompleksnih (tj. relacijskih) podatkovij je še toliko večja, ker služijo kot osnova drugim znanstvenim področjem (npr. analizi semantičnega spleta, bioinformatiki, ekonomiji, jezikoslovju). Pomen vsebine predlaganega projekta vidimo v doseganju znanstvene odličnosti na področju odkrivanja zakonitosti iz literature, rudarjenja besedilnih podatkov, obvladovanja relacijskih podatkov in analize omrežij ter hkrati sooblikovanju svetovnih znanstvenih trendov na tem področju. Menimo, da bodo rezultati predlaganega projekta pomembno prispevali v svetovno zakladnico znanja s področja informacijskih tehnologij, k nadaljnji uveljavitvi slovenske znanosti na področju rudarjenja besedilnih podatkov, odkrivanja zakonitosti iz literature in analize omrežij v evropskem in tudi svetovnem merilu ter k prenosu znanstvenih dosežkov v prakso.
Pomen za razvoj Slovenije
The analysis of textual data worldwide is experiencing a remarkable upswing. On the one hand there is the easy availability of such data and the increasing processing capabilities, and on the other hand, there is the need of institutions and industry to deal with complex problem situations related to the understanding of complex systems. The importance of knowledge and technologies for managing complex (i.e., relational) datasets is even greater because they serve as a basis for other scientific fields (e.g., analysis of semantic Web, bioinformatics, economics, and linguistics). The significance of the contents of the proposed research is foreseen in the achievement of excellence in the field of literature-based discovery, text mining, managing relational data set, and network analysis. We strongly believe that the results of the proposed project will contribute significantly to the global knowledge in the field of information technologies, to a further establishment of Slovenian science in the field of text mining, literature-based discovery, and network analysis on the European and global scale and to the transfer of scientific knowledge into practice.