PAM, metoda najbližjega skrčenega centroida (NSC), je popularna metoda za uvrščanje visoko-razsežnih podatkov. ALP in AHP sta tudi NSC algoritma, ki sta bila predlagana kot izboljšanje metode PAM. Vse NSC metode temeljijo na skrčenih centroidih; nivo skrčenja se v praksi določi tako, da se minimizira napako, ki jo določimo s prečnim preverjanjem. V članku pokažemo, da so v primeru neuravnoteženih podatkov vse tri metode skrčenega centroida pristrane v prid večjemu razredu. Pristranost je večja, ko je število spremenljivk veliko ali nivo neravnotežja večji ali pa, ko so razlike med razredoma manjše. Da bi se izognili pristranosti predlagamo, da se nivo skrčenja določi na podlagi maksimizacije geometrijskega povprečja napovednih točnosti za posamezen razred, ki se jih oceni s prečnim preverjanjem (g-povprečje). Naši rezultati kažejo, da tovrstni pristop deluje bolje od obstoječega. Pomembno, število spremenljivk, ki se jih upošteva pri učenju, je v primeru uporabe našega pristopa manjše, kot če se uporablja prvotni pristop. Te ugotovitve so podprte s simuliranimi, kot tudi pravimi visoko-razsežnimi neuravnoteženimi podatki.
COBISS.SI-ID: 30458841
Predstavljamo obetavno in silico paradigmo, ki ji rečemo odkrivanje zakonitosti z analizo strokovne literature (ang. Literature-based Discovery, kratica LBD) in opisujemo njen potencijal pri identificiranju novih farmakoloških pristopov zdravljenja bolezni. Cilj LBD je generirati nove hipoteze z analizo biomedicinske literature. Dodatni viri znanja, kot so ontologije ter specijalizirane podatkovne zbirke, se pogosto uporabljajo kot dopolnilo objavljene literature. MEDLINE, največja in najpomembnejša biomedicinska bibliografska zbirka, se najpogosteje uporablja pri LBD. Obstajata dve inačici LBD, odprto odkrivanje in zaprto odkrivanje. Z odprtim odkrivanjem, lahko poiščemo nov terapevtski pristop za obstoječo bolezen, ali pa poiščemo nove terapevtske aplikacije za obstoječa zdravila. Z zaprtim odkrivanjem lahko poiščemo razlago za relacijo med koncepti. Kot primer, če že imamo hipotezo o tem da je določeno zdravilo koristno za določeno bolezen, z zaprtim odkrivanjem lahko identificiramo mehanizme skozi katere zdravilo lahko terapevtsko učinkuje na bolezen. Na kratko opisujemo LBD metodologijo in pojasnimo bolj natančno trenutno razpoložljiva LBD orodja; omenimo na kratko tudi nekatera, ki niso več na razpolago. Potem predstavimo nekaj primerov v katerih je pristop LBD uporabljen za identifikacijo novih terapevstskih pristopov. Za zaključek, LBD je zmogljiv pristop, ki lahko nadopolni tradicionalne metode odkrivanja zdravil, še zlasti pri odkrivanju novih tarč za zdravila in pri repozicioniranju obstoječih zdravil.
COBISS.SI-ID: 677804
Uvrščanje, kjer se uporablja neuravnotežene podatke, je pristrano v prid večjemu razredu. Pristranost je v primeru visoko-razsežnih podatkov, kjer število spremenljivk presega število enot, še večja. Pristranost lahko zmanjšamo z uporabo zmanjšanja večjega razreda (s slučajnim izborom enot, ki jih uporabljamo pri učenju) ali pa povečanjem manjšega razreda (s pomočjo ponovnega vzorčenja). V splošnem zmanjšanje večjega razreda pomaga pri zmanjšanju pristranosti, medtem ko metoda slučajnega povečanja manjšega razreda, v primeru visoko-razsežnih podatkov, ne deluje. Metoda SMOTE (sintetično generiranje novih enot) je zelo popularna metoda povečanja manjšega razreda, za katero je bilo pokazano, da deluje bolje od slučajnega povečanja manjšega razreda, vendar pa njeno delovanje v primeru visoko-razsežnih podatkov še ni bilo raziskano. V tem članku analiziramo teoretične in empirične lastnosti metode SMOTE, kjer uporabljamo prave in simulirane visoko-razsežne podatke. Kljub temu, da metoda SMOTE uspešno zmanjša pristranost v primeru nizko-razsežnih podatkov, ugotavljamo, da v primeru visoko-razsežnih podatkov metoda ne deluje dobro za večino uporabljenih klasifikatorjev. Metoda SMOTE je uporabna zgolj v kombinaciji z metodami najbližjega soseda, vendar samo, če pred učenjem zmanjšamo razsežnost podatkov z metodami za izbiro spremenljivk; pokažemo in razložimo, zakaj je v primeru, ko se razsežnost podatkov pred učenjem ne zmanjša, uvrščanje z metodami najbližjega soseda pristrano v prid manjšemu razredu. Teoretično pokažemo tudi, da z metodo SMOTE ne spremenimo pričakovane vrednosti manjšega razreda, vendar zmanjšamo njegovo variabilnost in v učno množico uvajamo odvisnost med enotami. Pokažemo kako te teoretične ugotovitve vplivajo na uvrščanje.
COBISS.SI-ID: 30528217