Napovedni modeli, ki uporabljajo neuravnoteženo učno množico, dosegajo neoptimalno točnost za manjši razred. Problem je mogoče odpraviti z uporabo metod vzorčenja, s katerimi se zagotovi uravnoteženo porazdelitev enot po razredih. Med te metode spadadata slučajno povečanje manjšega razreda in slučajno zmanjšanje večjega razreda. Pravilna ocena napovedne točnosti modela je pri tem ključna. Ob odsotnosti neodvisne testne množice se v ta namen uporablja prečno preverjanje. Pomembnost pravilne uporabe prečnega preverjanja je dobro dokumentirana, vendar pa izivi, ki jih predstavlja hkratna uporaba prečenega preverjanja in metod vzorčenja, še niso bili raziskani. V članku opozorimo, da mora biti prečno preverjanje uporabljeno pravilno, ter da je možnost za precenitev napovedne točnosti večja, v kolikor se uporablja metode povečanja manjšega razreda. Prikazani so primeri, ki temeljijo na ponovni analizi pravih podatkov in na simuliranih podatkih. Izpostavimo nekaj primerov iz literature, kjer je bilo prečno preverjanje uporabljeno napačno, kjer pričakujemo, da je bila ocena točnosti metod povečanja manjšega razreda močno precenjena.
COBISS.SI-ID: 32284377
Razloge za slabo delovanje razložimo in predlagamo modifikacijo, AdaBoost.M1.ICV, ki uporablja prečno preverjeno oceno točnosti in deluje bolje od prvotne metode, ko so podatki visoko-razsežni. Uporaba metode AdaBoost.M1.ICV je priporočljiva, ko se osnovni klasifikator prepriliga podatkom in sicer, ko je število spremenljivk veliko, ko je število enot majhno in/ali, ko je razlika med razredoma velika. V sicer manjšem obsegu smo tudi za metodo Gradient boosting, opazili podobne težave. V nasprotju z raziskavami, ki ne uporabljajo visoko-razsežnih podatkov, krčenje ne izboljša delovanja te metode, vendar pa je uporabno pri metodi Stochastic Gradient boosting, ki v naših analizah deluje bolje od ostalih metod ojačevanja. Rezultati kažejo, da lahko metode ojačevanja znatno izboljšajo točnost osnovnih klasifikatorjev tudi, ko so podatki visoko-razsežni. Vendar pa vse metode ojačevanja ne delujejo enako dobro. Metode LogitBoost, AdaBoost.M1 in Gradient boosting so manj uporabne pri tem tipu podatkov. Stochastic Gradient boosting s krčenjem in AdaBoost.M1.ICV sta metodi, ki delujeta dobro tudi, ko so podatki visoko-razsežni.
COBISS.SI-ID: 32198617