Ko učimo klasifikatorje, je naravno, da želimo, da klasifikator pravilno oceni verjetnost dogodka (omejitev 1), da ima enako občutljivost in specifičnost (omejitev 2), ali da ima enako pozitivno ter negativno napovedno vrednost (omejitev 3). Dokažemo, da v primeru uravnoteženih podatkov, kjer je delež dogodkov in nedogodkov enak, vsak klasifikator, ki doseže eno omejitev, doseže vse omejitve. Tako nepristransko obravnavo dogodkov in nedogodkov pa je precej težje doseči, ko imamo opravka z redkimi dogodki, to je primeri, ko je delež dogodkov (precej) manjši od 0,5. V tem primeru dokažemo, da je nemogoče doseči vse tri omejitve, razen, ko klasifikator dosega popolno točnost. Vsak drugi klasifikator pa lahko doseže le eno izmed omejitev, doseganje le-te pa pomeni kršenje preostalih dveh v točno določeni smeri. Naši rezultati imajo pomen za klasifikatorje, ki se jih optimizira z uporabo g-povprečja ali F1-mere, ki pomenita uresničevanje druge oziroma prve omejitve. Naši rezultati temeljijo na osnovah verjetnostne teorije in so ilustrirani s pomočjo simulacij za nekaj najbolj pogosto uporabljenih klasifikatorjev
COBISS.SI-ID: 33010393
Pogost cilj kliničnih raziskav je točna ocena verjetnosti nekega dogodka. Za ta namen se za skupino pacientov izmeri njihove značilnosti, ki se uporabijo za izgradnjo napovednega modela, ki se lahko uporablja za napovedovanje razreda za nove paciente. Ansambli klasifikatorjev so metode, ki združujejo množico različnih klasifikatorjev in so uporabni, ker združevanje napovedi iz različnih klasifikatorjev, običajno pomeni boljšo napovedno točnost. Metoda gradient boosting je ansambel klasifikatorjev, za katero je bilo ugotovljeno, da dobro deluje, ko število spremenljivk presega število statističnih enot (visoko-razsežni podatki), vendar pa metoda ni bila preučevana za primer redkih dogodkov. Pokažemo, da metoda trpi za izrazito pristranostjo redkih dogodkov in pravilno uvršča zgolj majhen delež enot iz redkega razreda. Pristranost je mogoče zmanjšati z vzorčenjem in ustrezno ravno krčenja, vendar pa le za dano število iteracij in pri uporabi binomske funkcije izgube. Pokažemo, da števila iteracij, kjer je pristranost odpravljena, ni mogoče učinkovito določiti iz učnih podatkov, ko je vzorec majhen. Zaradi tega predlagamo nekaj popravkov metode, ki jih evalviramo s pomočjo simuliranih in pravih visoko-razsežnih podatkov. Pokažemo, da je z uporabo predlaganih popravkov mogoče uspešno odstraniti pristranost, tako dobljena metoda pa deluje bolje od ostalih ansamblov klasifikatorjev, ki smo jih preučevali. Velika fleksibilnost in visoka intepretabilnost predlaganih metod je tudi prikazana.
COBISS.SI-ID: 32788953