1.

Uporaba hierarhij oznak, pridobljenih iz podatkov, pri večoznačni klasifikaciji

Namesto tradicionalnih pristopov k večoznačnemu učenju, ki privzamejo neodvisnost med oznakami, so pri večoznačni klasifikaciji potrebni pristopi, ki znajo upoštevati tudi odvisnost in relacije med oznakami. Veliko metod te odvisnosti modelira med procesom učenja in jih integrira v napovedni model, brez jasnega razločevanja med učnim procesom in procesom modeliranja odvisnosti med oznakami. Zaradi tega relacije med oznakami niso vedno razvidne iz dobljenega modela in ne morejo biti uporabljene v drugih metodah učenja. V tem delu raziščemo uporabo hierarhij oznak, pridobljenih zgolj iz podatkov, pri večoznačni klasifikaciji. Iz množice oznak v učni množici sestavimo hierarhijo oznak s pomočjo hierarhičnega razvrščanja. Tako dobljene hierarhije oznak potem uporabimo v metodah za hierarhično večoznačno klasifikacijo (dvema lokalnima metodama, ki temeljita na metodah podpornih vektorjev (MPV) in dreves za napovedno razvrščanje (DNR), ter dvema globalnima metodama, ki prav tako temeljita na MPV in DNR, kot tudi z ansambli le-teh). Rezultati eksperimentov kažejo, da lahko takšen pristop občutno izboljša napovedno zmogljivost pri uporabi samostojnih modelov, ne pa tudi pri uporabi ansambelskih metod.

COBISS.SI-ID: 29561127

2.

Večoznačna klasifikacija z večciljno regresijo na podatkovnih tokovih

V aplikacijah strojnega učenja se vse pogosteje srečujemo z nalogami večoznačne klasifikacije. Medtem, ko obstaja veliko metod za večciljno klasifikacijo, ki delujejo v klasičnem okviru strojnega učenja, ko imamo celotno podatkovno množico podano v naprej, obstaja le malo tovrstnih metod, ki delujejo na podatkovnih tokovih. Predlagali smo novo metodologijo za večoznačno klasifikacijo s pomočjo večciljne regresije na podatkovnih tokovih. Za ta namen smo uporabili metodo za večciljno regresijo iSOUP-Tree, ki deluje na podatkovnih tokovih. Eksperimentalno smo primerjali uspešnost dveh različic metode iSOUP-Tree (za učenje regresijskih in modelnih dreves) ter ansamblov dreves, ki uporabljajo metodo iSOUP-Tree za grajenje osnovnih modelov, z relevantnimi metodami iz literature. Ovrednotili smo primerjane metode na osnovi različnih mer napovedovalne uspešnosti, ki so relevantne za nalogo večoznačne klasifikacije. Na osnovi rezultatov vrednotenja smo ugotovili, da so ansambli iSOUP-Tree dreves bolj uspešni kot ostale metode pri merah, ki temeljijo na pomembnosti označb, prav tako tudi niso slabši od ostalih metod pri vseh ostalih merah. Identificirali smo, da je problem določanja praga v nalogi večoznačne klasifikacije na podatkovnih tokovih ključen za pridobivanje boljših rezultatov v smislu napovedne uspešnost

COBISS.SI-ID: 30119463

3.

Ansambli za večciljno regresijo z naključno izbiranimi izhodnimi spremenljivkami

V sklopu projekta smo se ukvarjali z reševanjem naloge večciljne regresije, kjer gradimo globalne modele ki hkrati napovedujejo več numeričnih spremenljivk. Uporabljali smo ansamble posplošenih odločitvenih dreves, ki se imenujejo drevesa za napovedno razvrščanje (DNR), predvsem z uporabo metod bagging, random forests (naključnih gozdov, NG) ter izjemno naključnih DNR (inDNR). V omenjene ansambelske metode smo dodali novo dimenzijo naključnosti, pri kateri se posamezne modele v ansamblu učimo na podmnožicah ciljnih spremenljivk, hkrati pa ne spreminjamo naključnosti, ki jo metodi NG in inDNR uvajata v vhodnem prostoru. Poleg tega predlagamo tudi nov način združevanja napovedi ansamblov, pri katerem je končna napoved ansambla za neko ciljno spremenljivko podana zgolj na osnovi napovedi tistih modelov v ansamblu, ki so omenjeno ciljno spremenljivko upoštevali med učenjem. Izvedli smo obširno vrednotenje na vrsti podatkovij iz različnih domen, kjer smo primerjali razširjene ansambelske metode z originalnimi metodami, posameznimi drevesi za večciljno regresijo ter ansambli regresijskih dreves. Primerjali smo napovedno točnost, čase izvajanja ter velikost naučenih modelov. Rezultati kažejo, da se z uporabo predlagane razširitve ansambelskih metod lahko naučimo modele z boljšo napovedno točnostjo, skrajšamo čas učenja ali oboje, brez večjih sprememb v velikostih modelov. Predlagani način za združevanje napovedi se najbolje obnese ob uporabi metode inDNR. Na koncu smo vključili tudi primerjavo s tremi konkurenčnimi metodami, konkretno, naključnim kombiniranjem ciljnih spremenljivk ter dvema različicama naključnih projekcij.

COBISS.SI-ID: 31606055

4.

Rangiranje značilk za večciljno regresijo z ansambli dreves

V okviru projekta smo naslovili nalogo rangiranja značilk za večciljno regresijo (VCR). Rangiranju značilk raziskovalci namenjajo vse več pozornosti, vendar ta naloga v sklopu VCR še ni bila obravnavana. Predlagamo tri kazalnike rangiranja za VCR: simboličnega, kazalnik Genie3, in kazalnik iz naključnih gozdov (kNG), ki jih lahko izračunamo iz ansamblov dreves. Te kazalnike nato povežemo s tremi ansambelskimi metodami: Bagging, Random Forest (naključni gozdovi) in Extremely Randomized Trees (izjemno naključna drevesa). V vseh ansamblih so osnovni modeli drevesa za napovedno razvrščanje. Skupaj obravnavamo osem različnih metod (parov kazalnik-ansambel) in jih temeljito ovrednotimo na 26 VCR-podatkovjih. Rezultati pokažejo, da vse metode vrnejo relevantna rangiranja značilk, najboljša izmed njih pa je kombinacija kazalnika Genie3 in ansambelske metode naključnih gozdov (NG).

COBISS.SI-ID: 30862887

5.

Opcijska drevesa za hierarhično večoznačno klasifikacijo

V tem delu se posvečamo nalogi hierarhične večoznačne klasifikacije (HVK). HVK je posplošitev večoznačne klasifikacije, kjer vsakem primeru pripada več oznak, poleg tega pa so oznake organizirane v hierarhijo. Mnogo praktično relevantnih nalog lahko predstavimo kot probleme HVK, na primer napovedovanje genskih funkcij, modeliranje habitatov, označevanje slik in posnetkov, itd. Drevesa za napovedno razvrščanje (DNR) za HVK so razširitev odločitvenih dreves, ki se lahko uporablja za HVK. V tem delu predstavljamo razširitev DNR za HVK z opcijskimi vozlišči v opcijska drevesa za napovedno razvrščanje (ODNR) za HVK. ODNR imajo ob učenju možnost upoštevati več alternativnih delitev podatkov, s tem pa je zmanjšana požrešnost učenja dreves. Na opcijska drevesa lahko gledamo tudi kot na kompaktno predstavitev ansambla dreves. ODNR za HVK smo ovrednotili na 12 podatkovnih množicah oz. nalogah HVK iz različnih domen. S parametri, ki dovoljujejo več opcijskih vozlišč, ODNR dosežejo napovedno uspešnost ansamblov DNR in statistično značilno izboljšajo uspešnost posameznih DNR.

COBISS.SI-ID: 30862631

L2-7509 — Zaključno poročilo

1.

Uporaba hierarhij oznak, pridobljenih iz podatkov, pri večoznačni klasifikaciji

2.

Večoznačna klasifikacija z večciljno regresijo na podatkovnih tokovih

3.

Ansambli za večciljno regresijo z naključno izbiranimi izhodnimi spremenljivkami

4.

Rangiranje značilk za večciljno regresijo z ansambli dreves

5.

Opcijska drevesa za hierarhično večoznačno klasifikacijo