1.

Ocena SMOTE algoritma za visoko-razsežne neuravnotežene podatke pridobljene iz mikromrež

SMOTE (ang. Synthetic Minority Oversampling TEchnique ) je popularna metoda za povečanje velikosti manjšega razreda (ang. oversampling), ki je bila predlagana kot izboljšava metode slučajnega povečanja manjšega razreda (ang. simple oversampling). Do sedaj delovanje algoritma SMOTE ni bilo raziskano za visokorazsežne podatke. V tem članku ocenimo delovanje algoritma SMOTE na visokorazsežnih podatkih z uporabo podatkov o izraženosti genov, ki so pridobljeni z mikromrežami. Ugotavljamo, da SMOTE algoritem ne zmanjša pristranosti uvrščanja v prid prevladujočemu razredu in je manj učinkovit od metode, ki slučajno zmanjša prevladujoči razred (ang. simple undersampling). SMOTE zmanjša pristranost metod najbližjega soseda (k-NN), ki uporabljajo evklidsko razdaljo, če se predhodno zmanjša število spremenljivk (z metodami, ki so na voljo za zmanjšanje razsežnosti podatkov). Učinkovitost algoritma je večja, ko je število najbližjih sosedov večje. V kolikor se zmanjšanje razsežnosti ne opravi, so metode k-NN pristrane v prid manjšemu razredu. Zaradi tega v praksi ne bi smeli uporabljati algoritma SMOTE s k-NN brez predhodne izbire spremenljivk.

COBISS.SI-ID: 30373849

2.

Vpliv neravnotežja na uvrščanje visoko-razsežnih podatkov v več razredov

Cilj uvrščanja v več razredov (ang. multi-class) je razvoj pravil, s katerimi lahko ocenimo pripadnost razredu za nove enote; število razredov je v tem primeru večje kot dva. V članku se ukvarjamo z visoko-razsežnimi neuravnoteženimi podatki, kjer število spremenljivk presega število enot in kjer je število enot po skupinah različno. Osredotočimo se na Friedmanov pristop (poznan tudi kot pristop eden-proti-enemu) in na problem uvrščanja v tri razrede ter pokažemo, kako so verjetnosti uvrščanja v posamezen razred neposredno odvisne od verjetnosti za posamezen razred pri uvrščanju v dva razreda. V članku ocenimo delovanje Friedmanovega pristopa v kombinaciji z diagonalno linearno diskriminantno analizo (DLDA) in primerjamo njegovo delovanje z DLDA prilagojeno za uvrščanje v več razredov (ang. multi-class DLDA) z uporabo pravih in simuliranih podatkov. Ugotavljamo, da ima neravnotežje velik vpliv na rezultate uvrščanja: uvrščanje je pristrano v prid prevladujočemu razredu, problem je bolj izrazit, ko je število spremenljivk večje. Pristranost je odvisna tudi od velikosti razlik med razredi in od velikosti vzorca: pristranost je manjša, ko je razlika med razredi večja, ali ko je vzorec večji. Pomembno vlogo ima tudi zmanjšanje števila spremenljivk z metodami, ki so na voljo za zmanjšanje razsežnosti podatkov: kateri je najbolj učinkoviti pristop je odvisno od vrste razlike, ki je prisotna v podatkih. DLDA spada med klasifikatorje, ki so najmanj občutljivi na neravnotežje, zato priporočamo njeno uporabo tudi, ko gre za uvrščanje v več kot dva razreda. Pri načrtovanju raziskav priporočamo uporabo uravnoteženih podatkov.

COBISS.SI-ID: 31432285

3.

Problem neravnotežja za uvrščanje z visoko-razsežnimi podatki.

Namen raziskav, kjer gre za uvrščanje, je razvoj pravil, s katerimi lahko ocenimo pripadnost razredu za nove enote. Klasifikatorji se razlikujejo glede na način s katerim kombinirajo vrednosti spremenljivk, ki jih merimo za vsako enoto. Pogosto so podatki neuravnoteženi: število enot po skupinah je različno. Standardne metode za razvrščanje podatkov, ki so neuravnoteženi, pogosto manj natančno napovedujejo pripadnost za manjši razred; napoved je pristrana v prid večjemu razredu. Podatki so visoko-razsežni, ko število spremenljivk presega število enot. V tem članku pokažemo, da visoko-razsežnost dodatno prispeva k pristranosti v prid prevladujočemu razredu. Predstavljamo nove rezultate simulacij, kjer razširimo svoje izvirne podatke tudi na primer koreliranih spremenljivk.

COBISS.SI-ID: 30373593

J3-4246 — Letno poročilo 2012

1.

Ocena SMOTE algoritma za visoko-razsežne neuravnotežene podatke pridobljene iz mikromrež

2.

Vpliv neravnotežja na uvrščanje visoko-razsežnih podatkov v več razredov

3.

Problem neravnotežja za uvrščanje z visoko-razsežnimi podatki.