1.

Izboljšane metode najbližjega skrčenega centroida za visoko-razsežne neuravnotežene podatke

PAM, metoda najbližjega skrčenega centroida (NSC), je popularna metoda za uvrščanje visoko-razsežnih podatkov. ALP in AHP sta tudi NSC algoritma, ki sta bila predlagana kot izboljšanje metode PAM. Vse NSC metode temeljijo na skrčenih centroidih; nivo skrčenja se v praksi določi tako, da se minimizira napako, ki jo določimo s prečnim preverjanjem. V članku pokažemo, da so v primeru neuravnoteženih podatkov vse tri metode skrčenega centroida pristrane v prid večjemu razredu. Pristranost je večja, ko je število spremenljivk veliko ali nivo neravnotežja večji ali pa, ko so razlike med razredoma manjše. Da bi se izognili pristranosti predlagamo, da se nivo skrčenja določi na podlagi maksimizacije geometrijskega povprečja napovednih točnosti za posamezen razred, ki se jih oceni s prečnim preverjanjem (g-povprečje). Naši rezultati kažejo, da tovrstni pristop deluje bolje od obstoječega. Pomembno, število spremenljivk, ki se jih upošteva pri učenju, je v primeru uporabe našega pristopa manjše, kot če se uporablja prvotni pristop. Te ugotovitve so podprte s simuliranimi, kot tudi pravimi visoko-razsežnimi neuravnoteženimi podatki.

COBISS.SI-ID: 30458841

2.

Uporaba odkrivanja zakonitosti z analizo strokovne literature za identifikacijo novih pristopov zdravljenja

Predstavljamo obetavno in silico paradigmo, ki ji rečemo odkrivanje zakonitosti z analizo strokovne literature (ang. Literature-based Discovery, kratica LBD) in opisujemo njen potencijal pri identificiranju novih farmakoloških pristopov zdravljenja bolezni. Cilj LBD je generirati nove hipoteze z analizo biomedicinske literature. Dodatni viri znanja, kot so ontologije ter specijalizirane podatkovne zbirke, se pogosto uporabljajo kot dopolnilo objavljene literature. MEDLINE, največja in najpomembnejša biomedicinska bibliografska zbirka, se najpogosteje uporablja pri LBD. Obstajata dve inačici LBD, odprto odkrivanje in zaprto odkrivanje. Z odprtim odkrivanjem, lahko poiščemo nov terapevtski pristop za obstoječo bolezen, ali pa poiščemo nove terapevtske aplikacije za obstoječa zdravila. Z zaprtim odkrivanjem lahko poiščemo razlago za relacijo med koncepti. Kot primer, če že imamo hipotezo o tem da je določeno zdravilo koristno za določeno bolezen, z zaprtim odkrivanjem lahko identificiramo mehanizme skozi katere zdravilo lahko terapevtsko učinkuje na bolezen. Na kratko opisujemo LBD metodologijo in pojasnimo bolj natančno trenutno razpoložljiva LBD orodja; omenimo na kratko tudi nekatera, ki niso več na razpolago. Potem predstavimo nekaj primerov v katerih je pristop LBD uporabljen za identifikacijo novih terapevstskih pristopov. Za zaključek, LBD je zmogljiv pristop, ki lahko nadopolni tradicionalne metode odkrivanja zdravil, še zlasti pri odkrivanju novih tarč za zdravila in pri repozicioniranju obstoječih zdravil.

COBISS.SI-ID: 677804

3.

Metoda SMOTE za visoko-razsežne neuravnotežene podatke

Uvrščanje, kjer se uporablja neuravnotežene podatke, je pristrano v prid večjemu razredu. Pristranost je v primeru visoko-razsežnih podatkov, kjer število spremenljivk presega število enot, še večja. Pristranost lahko zmanjšamo z uporabo zmanjšanja večjega razreda (s slučajnim izborom enot, ki jih uporabljamo pri učenju) ali pa povečanjem manjšega razreda (s pomočjo ponovnega vzorčenja). V splošnem zmanjšanje večjega razreda pomaga pri zmanjšanju pristranosti, medtem ko metoda slučajnega povečanja manjšega razreda, v primeru visoko-razsežnih podatkov, ne deluje. Metoda SMOTE (sintetično generiranje novih enot) je zelo popularna metoda povečanja manjšega razreda, za katero je bilo pokazano, da deluje bolje od slučajnega povečanja manjšega razreda, vendar pa njeno delovanje v primeru visoko-razsežnih podatkov še ni bilo raziskano. V tem članku analiziramo teoretične in empirične lastnosti metode SMOTE, kjer uporabljamo prave in simulirane visoko-razsežne podatke. Kljub temu, da metoda SMOTE uspešno zmanjša pristranost v primeru nizko-razsežnih podatkov, ugotavljamo, da v primeru visoko-razsežnih podatkov metoda ne deluje dobro za večino uporabljenih klasifikatorjev. Metoda SMOTE je uporabna zgolj v kombinaciji z metodami najbližjega soseda, vendar samo, če pred učenjem zmanjšamo razsežnost podatkov z metodami za izbiro spremenljivk; pokažemo in razložimo, zakaj je v primeru, ko se razsežnost podatkov pred učenjem ne zmanjša, uvrščanje z metodami najbližjega soseda pristrano v prid manjšemu razredu. Teoretično pokažemo tudi, da z metodo SMOTE ne spremenimo pričakovane vrednosti manjšega razreda, vendar zmanjšamo njegovo variabilnost in v učno množico uvajamo odvisnost med enotami. Pokažemo kako te teoretične ugotovitve vplivajo na uvrščanje.

COBISS.SI-ID: 30528217

4.

Integracija podatkov omičnih študij z odkrivanjem, ki temelji na literaturi - k identifikaciji novih načinov zdravljenja neovaskularizacije pri diabetični retinopatiji

Diabetična retinopatija (DR) je sekundarni zaplet sladkorne bolezni, povezan z neovaskularizacijo mrežnice in predstavlja najpogostejši vzrok slepote odraslega prebivalstva v razvitem svetu. Kljub raziskovalnih prizadevanj, narava patogenetskih procesov, ki vodijo k DR še vedno ni znana kar zavira razvoj novih učinkovitih načinov zdravljenja. Napredek omske tehnologije zdaj ponujaja neprimerljiv vpogled v globalne molekularne spremembe pri DR, vendar identifikacija novih načinov zdravljenja, ki temeljijo na ogromnih količin podatkov, pridobljenih z omskimi študijami, še vedno predstavlja velik izziv. Zaradi tega razloga smo poskušali olajšati odkrivanje novih zdravil za DR z dopolnjevanjem rezultatov omskih raziskav z podatki, ki obstajajo v objavljeni literaturi z metodo odkrivanja, ki temelji na literaturi (ang. LBD - Literature-based Discovery). Da bi to dosegli, smo zbrali podatke transkriptomskih študij, opravljenih na tkivu mrežnice živalskih modelih DR, smo opravili meta analizo teh podatkovnih baz in ugotovljenih spremenjenih genov in poti. Z uporaba LBD orodja SemBT smo ugotovili, katere terapije bi lahko stabilizirali spremembe genske ekspresije pri DR. Pokazali smo, da z uporabo tega pristopa, ne samo da smo ponovno odkrili zdravila, ki so trenutno v uporabi ali v kliničnih raziskavah, temveč smo tudi odkrili nove smernice zdravljenja neovaskularizacije pri DR.

COBISS.SI-ID: 31259609

5.

Struktura omrežja sopojavnosti MeSH terminov: Statistična analiza makroskopskih lastnosti

Mrežo konceptov lahko predstavimo kot omrežje, v katerem množica vozlišč predstavlja koncepte, množica povezav pa relacije med koncepti. Kompleksna omrežja se ponašajo z nekaterimi topološkimi lastnostmi, kot so npr. majhen premer omrežja, visok koeficient zgoščanja, porazdelitev stopenj vozlišč, ki sledi potenčni porazdelitvi in visoka modularnost. V članku se ukvarjamo s proučevanjem topoloških lastnosti omrežij sopojavnosti biomedicinskih konceptov, konstruiranih na osnovi množice vseh MeSH deskriptorjev oz. glavnih MeSH deskriptorjev. Redukcijo omrežja smo opravili s pomočjo filtriranja parov povezav na osnovi Pearsonovega hi-kvadrat testa za neodvisnost. Za opis in predstavitev topoloških lastnosti smo uporabili premer omrežja, povprečno dolžino poti, koeficient zgoščanja in porazdelitev stopenj vozlišč. Povprečna dolžina poti v omrežju z vsemi MeSH deskriptorji znaša 1.95, premer omrežja znaša tri povezave, koeficient zgoščanja pa 0.26. Na osnovi Kolmogorov-Smirnovega testa lahko zavrnemo model potenčne porazdelitve kot ustrezen model za opisovanje porazdelitve stopenj vozlišč. Povprečna dolžina poti v omrežju z glavnimi MeSH deskriptorji znaša 2.63, s premerom sedmih povezav in koeficientom zgoščanja 0.15. Tudi v tem primeru na osnovi Kolmogorov-Smirnovega testa zavrnemo model potenčne porazdelitve stopenj vozlišč. Iz obeh omrežij je razvidno, da se vozlišča z nižjimi stopnjami ponašajo z večjim zgoščanjem kot vozlišča z višjimi stopnjami. Pri simuliranem napadu na vozlišča, kjer smo odstranili 10 % vozlišč z najvišjo stopnjo, je ogromna komponenta pri obeh omrežjih ohranila okrog 90 % vseh vozlišč. Zaradi majhne povprečne dolžine poti in visoke stopnje zgoščanja obe omrežji sledita modelu majhnega sveta. Ugotavljamo, da model potenčne porazdelitve ni ustrezen za opisovanje porazdelitve stopenj vozlišč. Omrežji sta poleg tega močno modularni, močno odporni na tarčne in slučajne napade ter se ponašata z minimalno dissortativnostjo.

COBISS.SI-ID: 2048311059

J3-4246 — Zaključno poročilo

1.

Izboljšane metode najbližjega skrčenega centroida za visoko-razsežne neuravnotežene podatke

2.

Uporaba odkrivanja zakonitosti z analizo strokovne literature za identifikacijo novih pristopov zdravljenja

3.

Metoda SMOTE za visoko-razsežne neuravnotežene podatke

4.

Integracija podatkov omičnih študij z odkrivanjem, ki temelji na literaturi - k identifikaciji novih načinov zdravljenja neovaskularizacije pri diabetični retinopatiji

5.

Struktura omrežja sopojavnosti MeSH terminov: Statistična analiza makroskopskih lastnosti