Nalaganje ...
Projekti / Programi vir: ARIS

Učenje velikega števila vizualnih kategorij objektov za poizvedovanje v slikovnih in video podatkovnih zbirkah

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
2.07.07  Tehnika  Računalništvo in informatika  Inteligentni sistemi - programska oprema 

Koda Veda Področje
P176  Naravoslovno-matematične vede  Umetna inteligenca 

Koda Veda Področje
1.02  Naravoslovne vede  Računalništvo in informatika 
Ključne besede
Računalniški vid, modeliranje vizualnih kategorij objektov, učenje vizualnih kategorij, vizualna kategorizacija objektov, hierarhično modeliranje oblike, slikovne zbirke, video zbirke, interaktivni uporabniški vmesniki.
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (7)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  19284  dr. Marko Boben  Računalniško intenzivne metode in aplikacije  Raziskovalec  2010 - 2013 
2.  29381  dr. Luka Čehovin Zajc  Računalništvo in informatika  Raziskovalec  2010 - 2013 
3.  24057  dr. Sanja Fidler  Matematika  Raziskovalec  2010 
4.  30155  dr. Matej Kristan  Računalništvo in informatika  Raziskovalec  2010 - 2013 
5.  05896  dr. Aleš Leonardis  Računalništvo in informatika  Vodja  2010 - 2013 
6.  18198  dr. Danijel Skočaj  Računalništvo in informatika  Raziskovalec  2010 - 2013 
7.  34398  dr. Domen Tabernik  Računalništvo in informatika  Raziskovalec  2011 - 2013 
Organizacije (1)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  1539  Univerza v Ljubljani, Fakulteta za računalništvo in informatiko  Ljubljana  1627023 
Povzetek
V zadnjem desetletju smo priča velikemu povečanju števila in obsega digitalnih slikovnih in video zbirk. Z vse večjo vlogo slikovnih informacij se je bistveno povečala tudi potreba po učinkoviti organizaciji in dostopu do vsebin. Vendar pa je izkoriščenost slikovnih zbirk še daleč pod mejo optimalnosti. Razlogi za to so predvsem v tem, da ne poznamo dovolj splošnih načinov strojne interpretacije slikovne informacije, ki bi odpravila ročno indeksiranje ter omogočila iskanje po semantičnih ključih. Ker so slikovni podatki raznoliki in odslikujejo poljubne podobe realnosti, morajo biti koncepti, ki opisujejo slike, dovolj široki in skladni z občimi razlagami prizorov. Potrebne so torej metode, ki se lahko v interakciji z uporabnikom iz velike količine podatkov naučijo konceptov in jih nato uporabijo za indeksiranje slik in videa, jih nadgrajujejo z novim znanjem, ter omogočijo poizvedovanje z uporabo jezikovnih ali shematskih opisov objektov, konteksta in prizorov. Dosedanji pristopi temeljijo pretežno na nizkonivojskih značilnicah in klasifikaciji celotnih slik oz. video segmentov. Taki pristopi so relativno neučinkoviti, pa tudi pogosto neintuitivni za uporabnika, saj interakcijo med strojem in uporabikom ovira t.i. "semantični prepad", torej pomanjkanje smiselnih povezav med nizkonivojskimi značilnicami, kot jih z osnovno obdelavo slike izračuna računalnik, in semantiko slikovne vsebine, kot jo dojema uporabnik. Zato so potrebni novi pristopi, ki z modeliranjem neposredno na nivoju objektov in konteksta premoščajo semantični prepad.  V okviru projekta predlagamo razvoj in uporabo hierarhičnih modelov kategorij objektov, ki temeljijo na intuitivni kompozicionalni predstavitvi, za poizvedovanje po slikovnih in video zbirkah. Preliminarno delo v smeri hierarhičnih predstavitev je bilo opravljeno v okviru EU projekta POETICON, kjer smo razvili računske modele za samodejno učenje kompozicionalnih predstavitev za manjše število kategorij objektov. Poglavitno delo v predlaganem projektu pa bo usmerjeno k modeliranju in učenju večjega števila vizualnih kategorij objektov s hierarhično predstavitvijo, ki omogoča računsko učinkovito razpoznavo, sprotno učenje objektov ter semantično poizvedovanje po vizualni informaciji. Tak način modeliranja bo omogočil dolgoročno učenje novih objektov ter samodejno indeksiranje velikega števila kategorij v slikah. Hkrati bo podprl nove vidike uporabniške interakcije, kot so možnosti semantično usmerjenih povratno-zančnih poizvedb, kontekstnih poizvedb in poizvedb na različnih nivojih podrobnosti, ki pa še vedno ohranjajo vez s semantičnim pomenom celote.  Prispevek projekta je trojen: nadgradili bomo hierarhično kompozicionalno predstavitev oblike objektov za modeliranje večjega števila vizualnih kategorij, razvili bomo algoritme za sprotno in dolgoročno učenje kategorij v interakciji z uporabnikom ter uporabili naučeno predstavitev za vizualno poizvedovanje v slikovnih in video zbirkah. Ker kompozicionalna arhitektura predstavitve odraža človeško dojemanje objektov in njihovih delov, bo uporabniku omogočena interakcija s predlaganim modelom na visokem semantičnem nivoju, sodelovanje pri gradnji novih konceptov ter uporaba obstoječega znanja pri sestavljanju novih in vedno bolj kompleksnih vizualnih poizvedb. Interakcijo z uporabnikom pri tem razumemo kot pomemben del sistema, saj je uporabnik tisti, ki strukturira in določa ustreznost semantičnih predstavitev. Projekt se uvršča v sam vrh znanstvenega področja računalniškega in umetnega kognitivnega vida in je prvi celovit predlog uporabe novejših kategoričnih predstavitev za indeksiranje in priklic v slikovnih zbirkah. Zato je relevantnost in znanstvena odmevnost rezultatov zagotovljena na obeh znanstvenih področjih. Rezultate nameravamo objaviti v vodilnih revijah na področjih računalniškega vida in slikovnih baz, predvidevamo pa tudi možnost takojšnjega koriščenja rezultatov v medijski in telekomunikacijski industriji in kognitivni robotiki.
Pomen za razvoj znanosti
Načrtovane raziskave in razvoj predlaganih metod za razpoznavanje velikega števila kategorij sodijo med posebej aktualna raziskovalna področja z veliko uporabno vrednostjo. Doseženi cilji projekta pomenijo korak naprej pri raziskavah detekcije in razpoznavanja objektov v slikah in video sekvencah, saj temeljijo na zgoščenem zapisu objektov, to pa omogoča hitro analizo slike in majhno prostorsko zahtevnost. Slednje odpira možnosti novih raziskovalnih področji kot so vizualno poizvedovanje z mobilnimi napravami, katerih računske in pomnilniške zmogljivosti so omejene. Izboljšave hierarhičnih metod za opis oblike so v veliki meri prenosljive na širši spekter hierarhičnih kompozicionalnih modelov. Predlagane metode izboljšanega opisa delov oblik so pomemben korak v razvoju kompozicionalih modelov artikuliranih kategorij. Zaradi splošnosti razvitih metod za avtomatsko izgradnjo taksonomije s postopki od-grobega-na-podrobno, v kombinaciji z implementacijo na vzporednih arhitekturah, smo pokazali možno smer učinkovite implementacije širšega spektra sicer počasnejših kompozicionalnih metod. Naši modeli za sprotno učenje predstavljajo napredek na širšem področju metod za sprotno učenje, saj se aplicirajo tako na generativne kot diskriminativne modele. Predlagani opisniki z deli hierarhij in metode za izbiro diskriminativnih delov prispevajo tako na širšem področju izbire značilnic, kakor tudi na specifičnem področju detekcije in razpoznave kategorij. Poleg tega so rezultati projekta korak v smeri premoščanja semantičnega prepada med značilnicami, s katerimi operira računalnik in semantiko slikovne vsebine, kot jo dojema uporabnik.
Pomen za razvoj Slovenije
Uspešna nadgradnja ter pohitritev hierarhičnega modela za detekcijo vizualnih kategorij je korak proti hitrim in natančnim metodam za poizvedovanje po slikovnih zbirkah, kar bo zagotovo imelo pozitivne ekonomske posledice, bi pa lahko vodilo tudi do razvoja novih modelov poslovanja. Poleg neposrednih ekonomskih učinkov, ki izhajajo iz pridobljenega znanja o učinkovitem zapisu vizualnih kategorij, pričakujemo tudi pozitivne učinke za širšo družbo. Razvito porazdeljeno platformo za poizvedovanje po slikovnih zbirkah z našim modelom smo javno objavili v obliki posebne spletne storitve kot demonstracijo vizualnega razpoznavanja objektov. Kot primer smo prav tako razvili in objavili aplikacijo za mobilne naprave z operacijskim sistemom Android, ki omogoča razpoznavanje objektov slikanih z mobilno napravo. Znanje, ki smo ga pridobili med izvajanjem projekta, že prenašamo v gospodarstvo preko sodelovanja s podjetji, ki razvijajo aplikacije, ki temeljijo na izvajanju računalniškega vida na mobilnih telefonih. V projektu razviti pristopi k masovni obdelavi slik na delno paralelnih arhitekturah so osnova za nudenje storitev računalniškega vida v oblaku, kar je trenutno komercialno izredno zanimivo področje. Implementiran sistem nakazuje smer razvoja modernih metod za poizvedovanje v slikovnih zbirkah brez vmesnih metapodatkov. Tehnologije, ki jih razvijamo, sodijo med osnovne (enabling) tehnologije za novo ekonomijo, ki temelji na nudenju storitev slikovnega poizvedovanja, in so dobra osnova za ustanavljanje novih visokotehnoloških podjetij v skladu z NRR.
Najpomembnejši znanstveni rezultati Letno poročilo 2010, 2011, 2012, zaključno poročilo, celotno poročilo na dLib.si
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Letno poročilo 2010, 2011, 2012, zaključno poročilo, celotno poročilo na dLib.si
Zgodovina ogledov
Priljubljeno