1.

Metoda Gradient Boosting za visoko-razsežno napovedovanje redkih dogodkov

Pogost cilj kliničnih raziskav je točna ocena verjetnosti nekega dogodka. Za ta namen se za skupino pacientov izmeri njihove značilnosti, ki se uporabijo za izgradnjo napovednega modela, ki se lahko uporablja za napovedovanje razreda za nove paciente. Ansambli klasifikatorjev so metode, ki združujejo množico različnih klasifikatorjev in so uporabni, ker združevanje napovedi iz različnih klasifikatorjev, običajno pomeni boljšo napovedno točnost. Metoda gradient boosting je ansambel klasifikatorjev, za katero je bilo ugotovljeno, da dobro deluje, ko število spremenljivk presega število statističnih enot (visoko-razsežni podatki), vendar pa metoda ni bila preučevana za primer redkih dogodkov. Pokažemo, da metoda trpi za izrazito pristranostjo redkih dogodkov in pravilno uvršča zgolj majhen delež enot iz redkega razreda. Pristranost je mogoče zmanjšati z vzorčenjem in ustrezno ravno krčenja, vendar pa le za dano število iteracij in pri uporabi binomske funkcije izgube. Pokažemo, da števila iteracij, kjer je pristranost odpravljena, ni mogoče učinkovito določiti iz učnih podatkov, ko je vzorec majhen. Zaradi tega predlagamo nekaj popravkov metode, ki jih evalviramo s pomočjo simuliranih in pravih visoko-razsežnih podatkov. Pokažemo, da je z uporabo predlaganih popravkov mogoče uspešno odstraniti pristranost, tako dobljena metoda pa deluje bolje od ostalih ansamblov klasifikatorjev, ki smo jih preučevali. Velika fleksibilnost in visoka intepretabilnost predlaganih metod je tudi prikazana.

COBISS.SI-ID: 32788953

2.

Firthova logistična regresija z redkimi dogodki: natančno ocenjeni učinki in napovedi?

Firthova logistična regresija je postala standardni pristop za analizo dihotomnih izidov z majhnimi vzorci. Čeprav metoda zmanjšuje pristranost ocenjenih koeficientov z metodo največjega verjetja, hkrati uvede pristranost za ocenjene verjetnosti proti 0,5. Večja kot je neuravnoteženost podatkov, večja je pristranost. Predlagamo dve enostavni spremembi Firthove logistične regresije, s katerima odstranimo pristranost v ocenjenih verjetnostih. Prva metoda popravi ocenjene verjetnosti s post-hoc popravkom konstante. Druga je vezana na alternativno formulacijo Firthove penalizacije - kot na iterativno metodo z razširjenimi podatki (ang., iterative data augmentation procedure). Naša predlagana sprememba vključuje indikatorsko spremenljivko, ki loči izvirna opazovanja od pseudo-opazovanj v razširjenih podatkih. Z obsežnimi simulacijskimi študijami preučujemo ocenjene verjetnosti in ocenjene koeficiente. Obe predlagani metodi dosežeta nepristranost v ocenjenih verjetnostih in hkrati izboljšujeta natančnost, pogojno na vrednost pojasnjevalnih spremenljivk, v primerjavi z rezultati pridobljenimi s Firthovo penalizacijo. S prvo metodo so ocenjeni koeficienti enaki tistim, ki jih pridobimo s Firthovo penalizacijo. Druga metoda uvede nekaj pristranosti, ki pa jo kompenzira manjša srednja kvadratna napaka. Vse metode so prikazane in primerjane na podlagi podatkov iz raziskave o napravah za zapiranje arterij pri minimalno invazivni operaciji srca.

COBISS.SI-ID: 33134041

3.

Kaj lahko pričakujemo pri uvrščanju redkih dogodkov?

Ko učimo klasifikatorje, je naravno, da želimo, da klasifikator pravilno oceni verjetnost dogodka (omejitev 1), da ima enako občutljivost in specifičnost (omejitev 2), ali da ima enako pozitivno ter negativno napovedno vrednost (omejitev 3). Dokažemo, da v primeru uravnoteženih podatkov, kjer je delež dogodkov in nedogodkov enak, vsak klasifikator, ki doseže eno omejitev, doseže vse omejitve. Tako nepristransko obravnavo dogodkov in nedogodkov pa je precej težje doseči, ko imamo opravka z redkimi dogodki, to je primeri, ko je delež dogodkov (precej) manjši od 0,5. V tem primeru dokažemo, da je nemogoče doseči vse tri omejitve, razen, ko klasifikator dosega popolno točnost. Vsak drugi klasifikator pa lahko doseže le eno izmed omejitev, doseganje le-te pa pomeni kršenje preostalih dveh v točno določeni smeri. Naši rezultati imajo pomen za klasifikatorje, ki se jih optimizira z uporabo g-povprečja ali F1-mere, ki pomenita uresničevanje druge oziroma prve omejitve. Naši rezultati temeljijo na osnovah verjetnostne teorije in so ilustrirani s pomočjo simulacij za nekaj najbolj pogosto uporabljenih klasifikatorjev.

COBISS.SI-ID: 33010393

4.

Umetno generirani podatki bližnje infrardeče spektroskopije za probleme uvrščanja

Bližnja infrardeča spektroskopija (NIRS, near-infrared spectrometry) je postala pogosto uporabljena metoda na različnih področjih. Metoda je cenovno ugodna in nedestruktivna. Spektri vsebujejo veliko informacij, vendar so hkrati izjemno kompleksni in zato je potrebna uporaba naprednih statističnih metod za njihovo analizo. Določimo lahko empirične lastnosti uporabljenih statističnih metod s pomočjo umetno generiranih podatkov, ki dobro oponašajo lastnosti pravih NIRS podatkov. V tem članku predlagamo novo metodo za umetno generiranje NIRS podatkov (metoda ABS), ki upošteva teoretično znanje o funkcionalnih skupinah. Predlagano metodo primerjamo s pravimi podatki in z enostavnejšo metodo za generiranje podatkov (MVNorig), ki simulira podatke iz multivariatne Gaussove porazdelitve s parametri, ki so ocenjeni na podlagi pravih podatkov. Primerjava med pravimi in umetnimi podatki temelji na problemu uvrščanja neuravnoteženih podatkov s pomočjo metode linearne diskriminantne analize, metode klasifikacijskih in regresijskih dreves ter metode podpornih vektorjev. Oba simulacijska pristopa generirata podatke, ki se dobro ujemajo s pravimi podatki; MVNorig deluje rahlo bolje kot ABS. Z uporabo pravih in umetno generiranih podatkov bi prišli do podobnih zaključkov glede problema uvrščanja neuravnoteženih podatkov. Obe metodi sta uporabni za generiranje NIRS podatkov. Metodo MVNorig lahko uporabljamo, ko imamo na razpolago veliko pravih spektrov. Primernost podatkov pridobljenih z ABS metodo je odvisna od pravilnosti hipotez glede NIRS absorpcije vsake funkcionalne skupine.

COBISS.SI-ID: 33505753

N1-0035 — Zaključno poročilo

1.

Metoda Gradient Boosting za visoko-razsežno napovedovanje redkih dogodkov

2.

Firthova logistična regresija z redkimi dogodki: natančno ocenjeni učinki in napovedi?

3.

Kaj lahko pričakujemo pri uvrščanju redkih dogodkov?

4.

Umetno generirani podatki bližnje infrardeče spektroskopije za probleme uvrščanja