Název projektu
Machine Intelligence
Kód
SP/2010196
Řešitel
Školitel řešitele projektu
prof. RNDr. Václav Snášel, CSc.
prof. Ing. Ivo Vondrák, CSc.
Období řešení projektu
01. 01. 2010 - 31. 12. 2010
Předmět výzkumu
Hlavním cílem tohoto projektu je budování teorie a modulů pro podporu rozhodování na základě znalostí. Při zpracování rozsáhlých souborů dat (např. novinových zpráv, databáze proteinů, XML dokumentů, rozsáhlé sociální sítě, lékařské zprávy, webové stránky, streamová data atd.) je nutno nasadit metody jejich inteligentního zpracování tak, aby byly získány relevantní znalosti, a tedy relevantní informace všude tam, kde je jich skutečně potřeba, a to rychle, včas a ve formě srozumitelné pro běžného lidského uživatele. Vývoj hardwarové i softwarové složky informačních systémů, kvalitativní i kvantitativní rozšiřování jejich datových základen a zvyšující se požadavky a nároky uživatelů představují trvalý tlak na vývoj nových modelů zpracování informací a znalostí.
Požadavky na zpracování takovýchto rozsáhlých kolekcí dat zahrnují jak relativně jednoduché úlohy, např. nalezení několika málo nejrelevantnějších textových dokumentů obsahujících daná slova, až po nalezení z daného hlediska zajímavých souvislostí hluboko skrytých ve struktuře proteinů. I zdánlivě jednoduché úlohy se však stávají obtížnými, pokud jsou uchovávaná data velmi rozsáhlá.
Předmět výzkumu v rámci projektu bude rozdělen do těchto oblastí:
• analýza dat,
• efektivní práce s daty,
• vyhledávání vzorů v datech,
• použití metod pro zpracování a sdílení znalostí v krizovém řízení.
ANALÝZA DAT
V oblasti analýzy dat se budeme dále zabývat především zpracováním proudových dat a logů informačních systémů. Aktuálně řešené úlohy jsou z oblasti zpracovávání meteorologických dat a biomedicínských dat. Dále se budeme zabývat analýzou herních strategií a sociálních sítí. S touto problematikou rovněž úzce souvisí zapojení nových technologií zpracování dat.
Analýza logů s využitím dataminingových metod (např. SVD, spectral clustering, sequential pattern mining) zaměřená na oblast sociálních sítí. Hledání vzorů chování v prostředí vyhledávání na webu, ve firemním prostředí (analýza business procesů), v prostředí vzdělávání se zaměřením na elearning a content management systémy. Analýza logů zaměřená na chování v síti, hledání závislostí a vzorů chování v prostředí sítí v závislosti na jejím vývoji v čase. Vizualizace chování uživatelů v sociálních sítích na základě informací získaných prostřednictvím analýzy logů.
Z pohledu řešení celého projektu je důležité zmínit, že veškeré zpracování dat a jejich analýzy budou vycházet z reálných dat. Řešitelský tým má k dispozici reálná data (proudová data i „event-log“ data), která jsou použitelná při řešení vědecko-výzkumných projektů. Možnost využití těchto dat odrážejících reálné chování sledovaných systémů, veličin či objektů, je zcela zásadním prvkem pro efektivní aplikaci teorie a její validaci.
V oblasti analýzy dat budou řešeny dále tyto úlohy:
• analýza EEG a EKG signálů,
• analýza a indexování terciální struktury proteinových struktur z databáze RCSB PDB – Protein Data Bank – pomocí sufixových stromů a s využitím neuronových sítí,
• hledání tutorů v sociálních sítích,
• určování strategie soupeře ve fotbale robotů a predikce hry robotů,
• využití lexikální databáze WordNet.
EFEKTIVNÍ PRÁCE S DATY
Při shlukování rozsáhlých dat je třeba provést optimalizaci, která bude brát v úvahu řídká data. Další oblastí, kterou se chceme zabývat je paralelizace datových struktur sloužících k uložení dat. Zde se jako vhodné jeví použití architektury HPC (High-performance computing) a CUDA (Compute Unified Device Architecture). CUDA je architektura pro paralelní výpočty vyvinutá společností nVidia. Naším cílem je využití této technologie zejména pro implementaci algoritmů nad řídkými maticemi, automaty apod., které mají velmi široké možnosti svého uplatnění. Díky paralelizaci těchto algoritmů a přesunutí výpočtů na jádro grafické karty si slibujeme velmi výrazné urychlení těchto úloh.
VYHLEDÁVANÍ VZORŮ V DATECH
Také vyhledávání vzorů v datech hraje významnou roli při jejich klasifikaci na základě předchozích znalostí. Extrakce vzorů je umožňuje nejen efektivnější návrh systémů, ale také lepší možnosti vyhledávání v textových a multimediálních datech. V rámci tohoto projektu bychom chtěli řešit hledání vzorů v rozsáhlejších kolekcích (např. multimediálních) dat, a v sítích, ať již sociálních (přítel, nepřítel, celebrita, fanoušek, tutor, atd.) nebo počítačových (standardní chování, chybové stavy, selhání uzlů, útoky na infrastrukturu).
KRIZOVÉ ŘÍZENÍ
Samotnou oblastí, která využije metod pro analýzu rozsáhlých dat je krizové řízení (tzv. disaster managementu) a. Cílem v této oblasti projektu je nalézt vhodný způsob zpracování a vyhodnocování dat z oblasti krizového řízení a jejich následné využití pro predikci nově nastalých situací.
Samotná náplň této práce se skládá z:
• Analýza historických dat (srážky, znečištění apod.) a jejich transformace do formátu vhodného pro uložení a vstup do hydrologických modelů. Zde bude potřeba vytvořit metodu pro vyhledávání vhodných epizod charakterizujících typické situace, které budou následně použity jako parametry při ověření správnosti hydrologických modelů.
• Analýza a návrh sociální sítě vhodné pro sběr dat z oblasti krizového řízení. Bude zhotovena analýza dnes velmi populárních sociálních sítí a jejich způsobilosti pro získávání dat v oblasti krizového řízení. V případě potvrzení tohoto předpokladu bude následně zpracován návrh takovéto sítě a provedeny příslušné experimenty. Data získaná ze sociální sítě pro krizové řízení by mohla být zužitkována jako vstup do systému pro predikci škod.
HISTORIE ŘEŠITELSKÉHO TÝMU
Počty vybraných publikací členů týmu od roku 2008:
• 18 článků na mezinárodních konferencí uvedených na Web of Science,
• 11 článků v mezinárodních sbornících, které zatím nejsou na Web of Science,
• 1 článek v časopise,
• 4 připravované kapitoly v knihách, které vyjdou v roce 2010.
Účast členů týmu na projektech v posledních letech:
• MK4006011 FLOREON - Flood Recognition on the Net,
• GAČR 201/03/0912 - Search and indexing of XML documents,
• GAČR 201/03/1318 - Intelligent analysis of WWW contents and structure,
• AV 4554011 - Strategic control in multi-agent systems,
• AVČR 1ET400300414 - Intelligent methods for better reliability of electrical power network,
• GA ČR, 201/05/P145 - Speciální metody komprese dat
Členové týmu také spolupracují s praxí, což je dokládáno hospodářskými smlouvami se společnostmi:
• Microsoft Corporation, USA
o Dohodnuta další spolupráce na rok 2010, do které bude zapojeno až 30 studentů fakulty FEI
• D3Soft, s.r.o., Ostrava
• A&&L Soft s.r.o., Praha
Členové týmu byli součásti organizačních výboru těchto konferencí:
• CISIM 2008,
• AWIC 2009,
• NWeSP 2009,
• a dalších.
TÝM TVOŘÍ
• 3 zaměstnanci,
• 6 (3 interní a 3 kombinovaní) doktorandů, jejichž školitel je prof. Václav Snášel,
• 1 interní doktorand, jehož školitel je prof. Ivo Vondrák,
• 4 magisterští studenti,
• Dále předpokládáme možné zapojení dalších 2 studentů.
Tým je tvořen tak, ať jsou zapojeni jak studenti doktorského studia, tak studenti magisterského studia. Dále jsou v týmu dva magisterští studenti, u kterých se předpokládá, že budou pokračovat v doktorském studiu.
Nedílnou součástí našeho týmu jsou 2 zahraniční studenti. Díky tomu již při setkáních výzkumného týmu budou ostatní studenti zapojeni do projektu nuceni komunikovat v anglickém jazyce. Dále nám to otvírá další mezinárodní spolupráci v budoucnu.
HARMONOGRAM
Předkládaný projekt je plánován na dobu jednoho roku. Projekt bude zpracováván paralelně v několika úlohách:
• komplexní rešerše, zpracování podrobného stavu současného poznání, Q1
• práce na experimentech, výsledky experimentů budou průběžně shrnovány do technického reportu, Q1, Q2, Q3
• obeslání konferencí, Q1 až Q3
• zpracování poznatků do formy časopiseckého článku, výběr vhodného časopisu (časopisů), Q4
Členové řešitelského týmu
Ing. Jan Martinovič, Ph.D.
Ing. Pavel Moravec, Ph.D.
Mgr. Pavla Dráždilová, Ph.D.
doc. Mgr. Jiří Dvorský, Ph.D.
Ing. Jan Martinovič, Ph.D.
Ing. Tomáš Kocyan
Ing. Gamila Ahmed Nasser Obadi
Ing. Peter Scherer
Ing. Jie Wu
Ing. Václav Svatoň, Ph.D.
Ing. Martin Vicher
Ing. Kateřina Slaninová, Ph.D.
Mgr. Tomáš Novosád, Ph.D.
Ing. Michal Holiš
Ing. Lucie Žoltá
prof. RNDr. Václav Snášel, CSc.
prof. Ing. Ivo Vondrák, CSc.
Specifikace výstupů projektu (cíl projektu)
Výsledky řešení budou publikovány na mezinárodních workshopech a konferencích a v časopisech v průběhu let 20010 - 2011. Doktorandi a zaměstnanci budou publikovat své výsledky na mezinárodních konferencích. Cílem je publikovat práce na konferencích, jejichž sborník je indexován na Web of Science, nebo jsou prestižní v dané oblasti. Dále bude tým aktivně pracovat publikování svých výstupů v impaktovaných časopisech (cílem je poslat minimálně 2 články do impaktovaných časopisů).
Tým bude dále spolupracovat při organizaci workshopu mezinárodních konferencí.
Proto předmět výzkumu v rámci tohoto projektu jsme vybírali takové oblasti, které přímo souvisí s projektem IT4Innovations a konkrétně s částí Knowledge Management a Disaster Management.
Mimo snahy o získání grantových projektů je možné, vzhledem k tematickému zaměření projektu, vidět potenciální přínos také ve výzkumných projektech spojených s praxí. Takovouto spolupráci je řešitelský tým připraven navazovat v průběhu celého trvání projektu a také po jeho skončení.