Název projektu
Paralelní zpracování velkých dat IX
Kód
SP2022/12
Řešitel
Období řešení projektu
01. 01. 2022 - 31. 12. 2022
Předmět výzkumu
Předmět výzkumu v rámci projektu:
Tento projekt navazuje na předchozí úspěšné projekty, které byly zaměřeny na analýzu dat v různých oblastech lidského konání. Aktuální projekt je zaměřen na několik oblastí a reflektuje současné výzkumné zaměření skupiny Analýzy a zpracování dat a její výzkumné projekty.
Celá skupina se zaměřuje na zpracování dat, nejen průmyslových ale i sociologických, a to v různých formách. Nejvýznamnější jsou data ve vektorové podobě odpovídající senzorickým záznamům,
dotazníkovým šetřením apod. Další formou jsou časové řady, které vychází z předchozích podob dat. Zde pracujeme v oblastech hledání podobných záznamů a predikce v různých oborech. Průmysl je velkým generátorem těchto typů záznamů, a to zejména ze senzorů různých typů, kdy je nutné
agregovat údaje za dlouhé časové úseky v různé kvalitě a řešit chybějící nebo nesprávné údaje.
Velkou oblastí, které se budeme dále věnovat je predikce v časových řadách. V roce 2020 jsme
vytvořili novou kolekci dat a nový framework pro jejich zpracování. Článek publikovaný v roce 2021 udal směr dalšímu výzkumu pro zpracování časových řad zejména v predikci v krátkodobém a
střednědobém horizontu, který budeme dále rozvíjet a směřovat k další publikaci ve špičkovém
časopise. Další oblastí je zpracování dat z výrobních podniků, a jejich využití při optimalizaci výroby, predikci selhání a dalších. V neposlední řadě pracujeme na aplikaci metod v oblasti pohybu a sportu, tedy optimalizace testovacích procesů, extrakce důležitých atributů a kvalitní vizualizace výsledků.
V neposlední řadě se dále budeme zabývat analýzou komplexních sítí a textů. V obou oblastech již
dlouhodobě pracujeme a jejich další rozvoj bude v hledání nových metrik pro shlukování a měření
podobností či vzdáleností v sítích a textech. Textová data jsou zajímavá, protože problematika jejich generování a přesné analýzy je v současnosti velmi aktuální a souvisí s inteligentním tříděním, porozuměním a případně s generováním fake news (falešných zpráv). V souvislosti s prací na dalších projektech se budeme zabývat také optimalizačními metodami a to zejména v jejich vícekriteriální variantě, kde nestačí zaměření v jednom pohledu, ale je nutné hledat řešení, které bude optimální pro více omezujících kritérií.
Členové řešitelského týmu
prof. Ing. Jan Platoš, Ph.D.
prof. Ing. Pavel Krömer, Ph.D.
prof. RNDr. Václav Snášel, CSc.
doc. Mgr. Jiří Dvorský, Ph.D.
Ing. Jana Nowaková, Ph.D.
Ing. Vojtěch Uher, Ph.D.
Hossein Barghi Jond, Ph.D.
Sebastian Basterrech, PhD.
Mgr. Pavla Dráždilová, Ph.D.
Mgr. Asim Mohammed Eltahir Ali
Ing. Jaroslav Hořejší
Van Vang Le
Lingping Kong
Phi Cuong Trinh
Yujia Sun
Quang Thinh Bui
Ing. Vojtěch Kotík, Ph.D.
Mgr Inż. Monika Falk
Ing. Petr Prokop
Ing. Radek Svoboda
Bc. Ondřej Foukal
Ing. Vojtěch Prokop
Bc. Martin Ševčík
Ing. Ondřej Szkandera
Bc. Jakub Chynoradský
Bc. Karel Konupčík
Nhan Trong Nguyen
Hoa Thanh Doan Nguyen
Mgr. David Prycl, MPA
Asghar Ali
Ing. Lukáš Klein
Bc. Martin Kahánek
Bc. Lukáš Moravec
Ing. Jozef Krkoška
Bc. Jan Kusák
Bc. Matúš Ozaniak
Ing. Lukáš Maloň
Ing. Josef Žáček
Bc. Ondřej Javorský
Bc. Veronika Pěčonková
Nguyen Huy Phuong Pham
Thi Bich Ngan Nguyen
Dung Quoc Nguyen
Feng Liu
Ing. Khalifa A. S. Saghair
Ing. Martin Bielik
Bc. Vojtěch Kožuch
Ing. Karel Mašlík
Lam Chan Quan Loi
Ing. Ondřej Slíva
Specifikace výstupů projektu (cíl projektu)
Specifikace cílů:
Cílem projektu je návrh efektivních algoritmů a provádění analýz nad daty z různých oblastí. Pro
daná data bude nutné nalézt vhodné metody, které budou na těchto datech aplikovatelné a budou
dosahovat dostatečných výsledků. Ve finále je potřeba výsledky a data transformovat do
srozumitelné a čitelné podoby. Všechny tyto operace vyžadují dostatečné výpočetní prostředky.
Proto je mnoho algoritmů upravených pro využití výpočetních karet a speciálních výpočetních
platforem.
V projektu bude pracovat několik týmů soustředěných na konkrétní úlohy. Tyto týmy budou tvořeny
z doktorandů a dalších studentů pod vedením jednoho nebo více garantů z řad zaměstnanců.
Zapojení magisterských studentů je velmi žádoucí, neboť povede k motivaci studentů pro vědu a
další studium. Studenti budou zapojeni zejména prostřednictvím semestrálních projektu,
bakalářských i magisterských prací. Přímé zapojení studentů do výzkumu je však také možné.
Metody vyvinuté v předchozích projektech budou využity a doplněny v rámci tohoto projektu.
Na tento rok si v projektu klademe následující cíle:
Aplikace a výzkum v oblasti hlubokého učení na časových řadách.
Aplikace a výzkum bio-inspirovaných metod se zaměřením na multikriteriální problémy.
Bio-inspirované metody pro kombinatorickou optimalizaci.
Vizualizace bio-inspirovaných výpočtů.
Komprese dat pro analýzu podobnosti a přesnosti v datech.
Konstrukce a analýza heterogenních, komplexních a orientovaných sítí.
Detekce odlehlých pozorování v dotazníkových datech.
Zpracování textových dat a dolování kontextů, sumarizace a další textově závislé analýzy.
Příprava a publikace článků v časopisech s impaktním faktorem (plánujeme zaslat
minimálně tři články do časopisů s IF) a také účast na prestižních konferencích.
Navázání a prohloubení spolupráce s tuzemskými a zahraničními pracovišti.
V rámci výstupu projektu plánujeme zaslat minimálně 3 publikace do časopisů s hodnocením
v Q1/Q2 a dále budeme připravovat na základě dosažených výsledků publikace pro minimálně 4 další
publikace do indexovaných časopisů. Publikace na konferencích budeme připravovat zejména pro
propojení na vědeckou komunitu. Jejich počet nelze přesně stanovit, neboť tyto budou sloužit
zejména pro prezentaci prvotních výstupů experimentů a nových metod. Z historie lze očekávat, že
půjde o cca 5 výstupů, ale Covidová doba to může změnit.