1.

Metoda NoiseRank za odkrivanje anomalij v podatkih

NoiseRank je ansambelska metoda odkrivanja in rangiranja šuma, napak in osamelcev v podatkih. Metoda omogoča izbor algoritmov za odkrivanje šuma ter pregled odkritih šumnih primerov. Metoda je bila uspešno uporabljena v medicini za odkrivanje atipičnih ali napačno diagnosticiranih primerov, kot tudi pri analizi tekstov za odkrivanje nenavadnih člankov in napak pri zajemanju korpusa. Javno uporabo metodologije NoiseRank smo omogočili z njeno implementacijo v spletni platformi ClowdFlows. Razvili smo tudi spletno okolje ViperCharts, ki omogoča vizualno vrednotenje in primerjavo uspešnosti algoritmov za odkrivanje anomalij v podatkih, uporabno tudi za vrednotenje drugih algoritmov strojnega učenja in podatkovnega rudarjenja. Dosežek je bil objavljen v reviji Data Mining and Knowledge Discovery, ki ima najvišji faktor vpliva na področju raziskav rudarjenja podatkov.

F.15 Razvoj novega informacijskega sistema/podatkovnih baz

COBISS.SI-ID: 26557479

2.

Analiza podatkov v realnem času na platformi ClowdFlows

ClowdFlows je odprta platforma v oblaku za sestavljanje, izvajanje in souporabo interaktivnih delotokov za podatkovno rudarjenje. V članku opisujemo razširitev platforme ClowdFlows z zmožnostmi za obdelavo podatkovnih tokov v realnem času. Te zmožnosti smo vključili z razvojem specializiranih tipov delotočnih komponent in programa za rudarjenje podatkovnih tokov, ki razporeja izvajanje delotokov v realnem času. Na ta način smo platformo za obdelavo statičnih podatkov spremenili v platformo za obdelavo podatkovnih tokov z intuitivnim uporabniškim vmesnikom. Rudarjenje podatkovnih tokov v realnem času je prikazano s primerom analize sentimenta na socialnem omrežju Twitter, kjer smo analizirali en mesec vnešenih tvitov o Edwardu Snowdenu.

F.15 Razvoj novega informacijskega sistema/podatkovnih baz

COBISS.SI-ID: 27392039

3.

Semantično podatkovno rudarjenje člankov s področja financ

Odsek za tehnologije znanja je bil poglavitni tehnološki partner projekta FIRST (Large scale information extraction and integration infrastructure for supporting financial decision making), ki je na zaključni recenziji dobil oceno odlično. Novost projekta je bila analiza tekstovnih novic, blogov in tvitov na področju financ. Razvili smo prototipe za oceno ugleda finančnih institucij (partner banka Monte dei Paschi di Siena iz Italije), za odkrivanje finančnih manipulacij (partner b-next iz Nemčije), za pomoč pri borznem trgovanju (partner Interactive Data Managed Solutions iz Nemčije) in za spremljanje dogodkov, povezanih z aktualno finančno krizo.

F.15 Razvoj novega informacijskega sistema/podatkovnih baz

COBISS.SI-ID: 27322151

4.

Odločitveni model za ugotavljanje zlorab v finančnem poslovanju

V okviru projekta FIRST (Large scale information extraction and integration infrastructure for supporting financial decision making) smo skupaj s strokovnjaki iz Nemčije razvili večparametrski odločitveni model za ugotavljanje zlorab v finančnem poslovanju. Gre za vrsto zlorab, imenovanih "Pump and Dump", ki se nanašajo na nedovoljeno manipulacijo vrednosti finančnih instrumentov z razširjanjem lažnih informacij. Bistvena novost našega pristopa je, da pri ugotavljanju teh zlorab povezuje notranje finančne informacije z analizo sentimenta v dokumentih na medmrežju. Razvito rešitev smo predstavili v referatu, ki je dobil priznanje na mednarodni konferenci. Rešitev je tudi že vključena v znani in razširjeni informacijski sistem, ki ga proizvaja nemški projektni partner. Oboje nakazuje, da je rešitev uporabna v praksi, kjer lahko pomembno pomaga finančnim organizacijam pri odkrivanju zlorab in posledično zmanjševanju njihove škode.

F.15 Razvoj novega informacijskega sistema/podatkovnih baz

COBISS.SI-ID: 26828583

5.

Metoda URL Tree za pridobivanje vsebin iz toka spletnih dokumentov

Metoda URL Tree se uporablja za pridobivanje vsebin iz toka dokumentov HTML. Metoda je sestavni del infrastrukture, ki neprekinjeno zajema HTML datoteke in jih pretvarja v tok prečiščenih tekstov. Metoda URL Tree predstavlja nov algoritem za pridobivanje vsebin, ki je učinkovit, nenadzorovan in neodvisen od jezika. Zasnovan je na opažanju, da HTML dokumenti iz enakega vira običajno uporabljajo enake predloge spletnih strani. Glavni del metode za pridobivanje vsebine predstavlja preprosta podatkovna struktura URL Tree, po kateri je metoda dobila ime. Uspešnost metode je bila ovrednotena na množici časovno urejenih, polavtomatsko označenih dokumentov, ki je zdaj tudi javno dostopna. Uspešnost metode URL Tree smo primerjali z desetimi odprtokodnimi algoritmi za pridobivanje vsebin iz spletnih dokumentov. Rezultati so pokazali, da uspešnost našega tokovno zasnovanega algoritma preseže uspešnost ostalih algoritmov že po 10 do 100 analiziranih dokumentih iz določenega vira.

F.15 Razvoj novega informacijskega sistema/podatkovnih baz

COBISS.SI-ID: 27245863

P2-0103 — Letno poročilo 2013

1.

Metoda NoiseRank za odkrivanje anomalij v podatkih

2.

Analiza podatkov v realnem času na platformi ClowdFlows

3.

Semantično podatkovno rudarjenje člankov s področja financ

4.

Odločitveni model za ugotavljanje zlorab v finančnem poslovanju

5.

Metoda URL Tree za pridobivanje vsebin iz toka spletnih dokumentov