Učenje velikega števila vizualnih kategorij objektov za poizvedovanje v slikovnih in video podatkovnih zbirkah

Evidenčna št.

J2-3607 (B) - iz evidence ARIS

Vodja

dr. Aleš Leonardis

Obdobje

1.5.2010 - 30.4.2013

Obseg v 2013

0.55 FTE

Veda

Naravoslovje (2)
Tehnika (5)

Status raziskovalca

Raziskovalec (7)
Strokovni ali tehnični sodelavec (0)

Izobrazba

Doktorat znanosti (7)

Spol

Ženski (1)
Moški (6)

Status

Zaposlen v RO+RRD (6)
Ni podatka o zaposlitvi v RO (1)

Število publikacij

0 (7)

Projekti / Programi vir: ARIS

vir: ARIS

Učenje velikega števila vizualnih kategorij objektov za poizvedovanje v slikovnih in video podatkovnih zbirkah

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
2.07.07	Tehnika	Računalništvo in informatika	Inteligentni sistemi - programska oprema

Koda	Veda	Področje
P176	Naravoslovno-matematične vede	Umetna inteligenca

Koda	Veda	Področje
1.02	Naravoslovne vede	Računalništvo in informatika

Ključne besede

Računalniški vid, modeliranje vizualnih kategorij objektov, učenje vizualnih kategorij, vizualna kategorizacija objektov, hierarhično modeliranje oblike, slikovne zbirke, video zbirke, interaktivni uporabniški vmesniki.

Vrednotenje (pravilnik)

vir: COBISS

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

vir: WoS

vir: Scopus

vir: COBISS

Raziskovalci (7)

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	19284	dr. Marko Boben	Računalniško intenzivne metode in aplikacije	Raziskovalec	2010 - 2013	0
2.	29381	dr. Luka Čehovin Zajc	Računalništvo in informatika	Raziskovalec	2010 - 2013	0
3.	24057	dr. Sanja Fidler	Matematika	Raziskovalec	2010	0
4.	30155	dr. Matej Kristan	Računalništvo in informatika	Raziskovalec	2010 - 2013	0
5.	05896	dr. Aleš Leonardis	Računalništvo in informatika	Vodja	2010 - 2013	0
6.	18198	dr. Danijel Skočaj	Računalništvo in informatika	Raziskovalec	2010 - 2013	0
7.	34398	dr. Domen Tabernik	Računalništvo in informatika	Raziskovalec	2011 - 2013	0

Organizacije (1)

št.	Evidenčna št.	Razisk. organizacija	Kraj	Matična številka	Štev. publikacijŠtev. publikacij
1.	1539	Univerza v Ljubljani, Fakulteta za računalništvo in informatiko	Ljubljana	1627023	0

Povzetek

V zadnjem desetletju smo priča velikemu povečanju števila in obsega digitalnih slikovnih in video zbirk. Z vse večjo vlogo slikovnih informacij se je bistveno povečala tudi potreba po učinkoviti organizaciji in dostopu do vsebin. Vendar pa je izkoriščenost slikovnih zbirk še daleč pod mejo optimalnosti. Razlogi za to so predvsem v tem, da ne poznamo dovolj splošnih načinov strojne interpretacije slikovne informacije, ki bi odpravila ročno indeksiranje ter omogočila iskanje po semantičnih ključih. Ker so slikovni podatki raznoliki in odslikujejo poljubne podobe realnosti, morajo biti koncepti, ki opisujejo slike, dovolj široki in skladni z občimi razlagami prizorov. Potrebne so torej metode, ki se lahko v interakciji z uporabnikom iz velike količine podatkov naučijo konceptov in jih nato uporabijo za indeksiranje slik in videa, jih nadgrajujejo z novim znanjem, ter omogočijo poizvedovanje z uporabo jezikovnih ali shematskih opisov objektov, konteksta in prizorov. Dosedanji pristopi temeljijo pretežno na nizkonivojskih značilnicah in klasifikaciji celotnih slik oz. video segmentov. Taki pristopi so relativno neučinkoviti, pa tudi pogosto neintuitivni za uporabnika, saj interakcijo med strojem in uporabikom ovira t.i. "semantični prepad", torej pomanjkanje smiselnih povezav med nizkonivojskimi značilnicami, kot jih z osnovno obdelavo slike izračuna računalnik, in semantiko slikovne vsebine, kot jo dojema uporabnik. Zato so potrebni novi pristopi, ki z modeliranjem neposredno na nivoju objektov in konteksta premoščajo semantični prepad. V okviru projekta predlagamo razvoj in uporabo hierarhičnih modelov kategorij objektov, ki temeljijo na intuitivni kompozicionalni predstavitvi, za poizvedovanje po slikovnih in video zbirkah. Preliminarno delo v smeri hierarhičnih predstavitev je bilo opravljeno v okviru EU projekta POETICON, kjer smo razvili računske modele za samodejno učenje kompozicionalnih predstavitev za manjše število kategorij objektov. Poglavitno delo v predlaganem projektu pa bo usmerjeno k modeliranju in učenju večjega števila vizualnih kategorij objektov s hierarhično predstavitvijo, ki omogoča računsko učinkovito razpoznavo, sprotno učenje objektov ter semantično poizvedovanje po vizualni informaciji. Tak način modeliranja bo omogočil dolgoročno učenje novih objektov ter samodejno indeksiranje velikega števila kategorij v slikah. Hkrati bo podprl nove vidike uporabniške interakcije, kot so možnosti semantično usmerjenih povratno-zančnih poizvedb, kontekstnih poizvedb in poizvedb na različnih nivojih podrobnosti, ki pa še vedno ohranjajo vez s semantičnim pomenom celote. Prispevek projekta je trojen: nadgradili bomo hierarhično kompozicionalno predstavitev oblike objektov za modeliranje večjega števila vizualnih kategorij, razvili bomo algoritme za sprotno in dolgoročno učenje kategorij v interakciji z uporabnikom ter uporabili naučeno predstavitev za vizualno poizvedovanje v slikovnih in video zbirkah. Ker kompozicionalna arhitektura predstavitve odraža človeško dojemanje objektov in njihovih delov, bo uporabniku omogočena interakcija s predlaganim modelom na visokem semantičnem nivoju, sodelovanje pri gradnji novih konceptov ter uporaba obstoječega znanja pri sestavljanju novih in vedno bolj kompleksnih vizualnih poizvedb. Interakcijo z uporabnikom pri tem razumemo kot pomemben del sistema, saj je uporabnik tisti, ki strukturira in določa ustreznost semantičnih predstavitev. Projekt se uvršča v sam vrh znanstvenega področja računalniškega in umetnega kognitivnega vida in je prvi celovit predlog uporabe novejših kategoričnih predstavitev za indeksiranje in priklic v slikovnih zbirkah. Zato je relevantnost in znanstvena odmevnost rezultatov zagotovljena na obeh znanstvenih področjih. Rezultate nameravamo objaviti v vodilnih revijah na področjih računalniškega vida in slikovnih baz, predvidevamo pa tudi možnost takojšnjega koriščenja rezultatov v medijski in telekomunikacijski industriji in kognitivni robotiki.

Pomen za razvoj znanosti

Načrtovane raziskave in razvoj predlaganih metod za razpoznavanje velikega števila kategorij sodijo med posebej aktualna raziskovalna področja z veliko uporabno vrednostjo. Doseženi cilji projekta pomenijo korak naprej pri raziskavah detekcije in razpoznavanja objektov v slikah in video sekvencah, saj temeljijo na zgoščenem zapisu objektov, to pa omogoča hitro analizo slike in majhno prostorsko zahtevnost. Slednje odpira možnosti novih raziskovalnih področji kot so vizualno poizvedovanje z mobilnimi napravami, katerih računske in pomnilniške zmogljivosti so omejene.   Izboljšave hierarhičnih metod za opis oblike so v veliki meri prenosljive na širši spekter hierarhičnih kompozicionalnih modelov. Predlagane metode izboljšanega opisa delov oblik so pomemben korak v razvoju kompozicionalih modelov artikuliranih kategorij.  Zaradi splošnosti razvitih metod za avtomatsko izgradnjo taksonomije s postopki od-grobega-na-podrobno, v kombinaciji z implementacijo na vzporednih arhitekturah, smo pokazali možno smer učinkovite implementacije širšega spektra sicer počasnejših kompozicionalnih metod. Naši modeli za sprotno učenje predstavljajo napredek na širšem področju metod za sprotno učenje, saj se aplicirajo tako na generativne kot diskriminativne modele. Predlagani opisniki z deli hierarhij in metode za izbiro diskriminativnih delov prispevajo tako na širšem področju izbire značilnic, kakor tudi na specifičnem področju detekcije in razpoznave kategorij. Poleg tega so rezultati projekta korak v smeri premoščanja semantičnega prepada med značilnicami, s katerimi operira računalnik in semantiko slikovne vsebine, kot jo dojema uporabnik.

Pomen za razvoj Slovenije

Uspešna nadgradnja ter pohitritev hierarhičnega modela za detekcijo vizualnih kategorij je korak proti hitrim in natančnim metodam za poizvedovanje po slikovnih zbirkah, kar bo zagotovo imelo pozitivne ekonomske posledice, bi pa lahko vodilo tudi do razvoja novih modelov poslovanja. Poleg neposrednih ekonomskih učinkov, ki izhajajo iz pridobljenega znanja o učinkovitem zapisu vizualnih kategorij, pričakujemo tudi pozitivne učinke za širšo družbo. Razvito porazdeljeno platformo za poizvedovanje po slikovnih zbirkah z našim modelom smo javno objavili v obliki posebne spletne storitve kot demonstracijo vizualnega razpoznavanja objektov. Kot primer smo prav tako razvili in objavili aplikacijo za mobilne naprave z operacijskim sistemom Android, ki omogoča razpoznavanje objektov slikanih z mobilno napravo. Znanje, ki smo ga pridobili med izvajanjem projekta, že prenašamo v gospodarstvo preko sodelovanja s podjetji, ki razvijajo aplikacije, ki temeljijo na izvajanju računalniškega vida na mobilnih telefonih. V projektu razviti pristopi k masovni obdelavi slik na delno paralelnih arhitekturah so osnova za nudenje storitev računalniškega vida v oblaku, kar je trenutno komercialno izredno zanimivo področje. Implementiran sistem nakazuje smer razvoja modernih metod za poizvedovanje v slikovnih zbirkah brez vmesnih metapodatkov. Tehnologije, ki jih razvijamo, sodijo med osnovne (enabling) tehnologije za novo ekonomijo, ki temelji na nudenju storitev slikovnega poizvedovanja, in so dobra osnova za ustanavljanje novih visokotehnoloških podjetij v skladu z NRR.

Najpomembnejši znanstveni rezultati

Letno poročilo 2010, 2011, 2012, zaključno poročilo, celotno poročilo na dLib.si

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Letno poročilo 2010, 2011, 2012, zaključno poročilo, celotno poročilo na dLib.si