Studentská grantová soutěž - předchozí roky

Název projektu

Detekce plagiátů v textových dokumentech

Kód

SP2011/172

Řešitel

Martinovič Jan Ing., Ph.D.

Období řešení projektu

01. 01. 2011 - 31. 12. 2011

Předmět výzkumu

Rozsah digitálních zdrojů a jejich nárůst, a také snadný přístup k těmto zdrojům, nabízejí poměrně jednoduchou možnost kopírovat (a vydávat za své) různě velké části existujících dokumentů. A to od úrovně prosté kopie textu až po kopii myšlenek. Míra plagiátorství převzatých zdrojů tedy může být různá. Barnbaum [1] uvádí následující typologii plagiátů: 1. copy&paste plagiátorství (word-by-word plagiátorství, přímé plagiátorství), 2. změna pořadí slov, 3. změna stylu plagiovaného textu, 4. plagiátorství metafor, 5. ideové plagiátorství. Efektivní způsob detekce plagiátů je problémem o značné výpočetní složitosti, a to zejména vzhledem k obrovskému rozsahu datových skladů, v jejichž rámci je nutné detekci provádět. Detekce plagiátů proto patří k dlouhodobě intenzivně zkoumaným problémům, z nichž většina není dosud uspokojivě vyřešena. O tom svědčí také to, že se této oblasti věnují špičková pracoviště (viz např. [2, 3]). Detailní popis projektu: V současné době existuje velké množství systémů pro detekci plagiátů. Většina řešení má různé nevýhody. 1. Jako klíčový problém existujících řešení vidíme rychlost, s jakou jsou schopny detekovat podezření na plagiát. Výsledné posouzení, zda se jedná o plagiát, vždy záleží na člověku, proto je časový faktor velmi důležitý. 2. Dalším omezujícím faktorem, na který se v projektu zaměříme, je způsob vizualizace výsledků hledání plagiátů a vazeb mezi plagiovanými dokumenty. V předloženém projektu se budeme věnovat převážně prvním dvěma typům plagiátů v textových dokumentech, tedy copy&paste plagiátorství včetně předpokládané změny pořadí slov. Z pohledu výzkumu je hlavním cílem projektu vývoj a implementace metody detekce textových plagiátů v rozsáhlých souborech dat (dokumentových skladech, korpusech), která bude vykazovat čtyři základní charakteristiky: • bude dostatečně rychlá, • bude dostatečně přesná, • bude komplexní, to znamená, že odhalí dostatečné množství plagiátů, • umožní realizaci inteligentního rozhraní pro podporu rozhodování. Konkrétní hranici akceptovatelné rychlosti přitom lze definovat jen velmi nejasně; cílem by však mělo být, aby analýza plagiátu proběhla „v reálném čase“, tedy do několika sekund v případě textového dokumentu o standardní délce, a to bez ohledu na rozsah korpusu, vůči němuž je takovýto dokument kontrolován. Hranici přesnosti můžeme definovat tak, že by systém měl v kontrolovaném textu odhalit co nejvíce plagiovaných úseků v porovnání s metodou hrubé síly. Je tedy třeba nalézt takový algoritmický postup, který bude na reálných datech: • dosahovat velmi podobných výsledků jako systém využívající hrubé síly, • vykazovat co nejnižší chybovost (nebude neplagiované úseky označovat za plagiované). Je třeba však stále mít na vědomí, že ukazatel přesnosti je velmi úzce navázán na ukazatel rychlosti – přesnost a rychlost jsou na sobě totiž vzájemně závislé nepřímou úměrou. Dílčí cíle: Řešení projektu bude založeno na zkušenostech s vývojem systému AmphorA [4], který je na katedře informatiky FEI dlouhodobě rozvíjen. Další důležitou složkou řešení bude vizualizace nalezených výsledků, zde budeme využívat metody založené na SOM [5], teplotních mapách [6], konceptuálních svazech, sociálních sítích apod. Efektivní implementace těchto algoritmů bude založena na využití GPU. Jako základní testovací kolekci chceme využít úložiště diplomových a bakalářských prací na VŠB-TUO. Průběh řešení projektu (1. rok): První část projektu bude probíhat v relativně samostatných částech, nad kterými se bude realizovat výzkum, vývoj a experimentování, na jehož základě budou postupně zpřesňovány požadavky na dílčí řešení. Druhá část bude zaměřena na propojení částí a vyladění systému do funkční podoby. Cíle a plánované úlohy: 1. Návrh a implementace efektivní datové struktury pro uložení a vyhledáváni n-gramů. 2. Návrh a implementace podpory fulltextového vyhledávání založeného na n gramech nebo neuspořádaných n gramech. 3. Návrh a implementace metod inteligentní extrakce textů z textových dokumentů. 4. Návrh a implementace integračních prvků systému (např. webová služba jako rozhraní do systému). 5. Návrh a implementace uživatelského rozhraní a vizualizačních metod (teplotní mapy, SOM, konceptuální svazy). 6. Návrh efektivních implementací založených na paralelizaci výpočtů. 7. Návrh a implementace algoritmů odhalujících skryté vazby mezi plagiovanými dokumenty s využitím postupů SNA (Social Network Analysis). 8. Příprava společných publikací na konferencích a v časopisech s impaktním faktorem. Tabulka publikační činnost řešitelského týmu: Václav Snášel 229,238 114 11 9* 2 Radim Bača 32 8 0 3* 0 Jiří Dvorský 146,667 16 0 5* 0 Radoslav Fasuga 8 1 0 4* 0 Petr Gajdoš 120 6 0 6* 0 Michal Krátký 120 18 2 5* 1 Miloš Kudělka 12 15 0 2* 0 Jan Martinovič 166 17 0 8* 0 Michal Radecký 88 3 0 3* 0 Pavel Moravec 18,666 15 1 3* 0 Pavla Dráždilová 6 2 0 3* 0 Jan Platoš 133,785 24 3 12* 1 Pavel Krömer 0 35 3 9* 1 Eliška Ochodková 0 0 0 5* 0 Celkem (s duplicitami) 1080,356 274 20 77 5 Jednotlivé sloupec tabulky obsahují: 1. RIV 2010 2. Publikace 2005-2009 - Články ve sbornících ISI 3. Publikace 2005-2009 - IF časopisy WoS 4. Publikace 2010 (předpoklad) - Články ve sbornících ISI 5. Publikace 2010 (předpoklad) - IF časopisy WoS Poznámka: * momentálně nejsou na ISI, minulé ročníky byly, takže pravděpodobně budou Řešitelský tým studenti: 4 doktorandi kombinované formy studia: Kateřina Slaninová, Tomáš Novosád, Zdeněk Horák a David Bednář. Minimálně 13 doktorandů prezenční formy studia: Martin Vicher, Gamila Ahmed Obadi, Václav Svatoň, Jie Wu, Peter Scherer, Lukáš Vojáček, Lukáš Hlaváček, Jiří Walder, Filip Křížka, Hussam M. Dahwa Abdulla, Asim Mohammed El Tahr Ali, a další. Minimálně 10 studentů magisterské formy studia: Michal Holiš, Birka Antonin, Sergey Kostin, Adam Glumbík, Daniel Hic, Kamila Nykodýmová, Ondřej Bialas, Tomáš Janečko, Lenka Skanderová a další. Historie řešitelského týmu: Akademičtí pracovníci, kteří se budou podílet na realizaci projektu, se dlouhodobě (více let) věnují pestré škále výzkumných témat, která mají blízký vztah k řešenému projektu. Jedná se zejména o oblasti spojené s vyhledáváním, analýzou a vytěžováním informací z textových dat, s detekcí a extrakcí informací z nestrukturovaných nebo částečně strukturovaných dat, se shlukováním a vizualizací shluků dat, s analýzou sociálních sítí, s návrhem a implementací specifických databází. Dále budou součástí řešitelského týmu výše uvedeni studenti různých typu studií, kteří pracují pod vedením výše uvedených akademických pracovníků. Finanční náklady na řešení: Náklady na řešení jsou navrženy tak, aby prostředky byly vynaloženy především na lidské zdroje (studenty) a financování pobytů hostujících profesorů z dané oblasti. Částečně pak do výzkumné oblasti formou zahraničních cest na konference a organizace workshopu (IHCI 2011, Springer). Vzhledem k povaze týmu, který je z důvodu širokého odborného záběru projektu rozsáhlý, se jeví semináře cílené na všechny členy týmu jako velmi účelné. Pro cestovné předpokládáme náklady 30 tis. Kč na jednu zahraniční konferenci, náklady na jeden odborný seminář předpokládáme ve výši 100 tis. Kč na při pozvání jednoho hosta. Literatura: [1] Barnbaum, C. (2009). PLAGIARISM: A Student's Guide to Recognizing It and Avoiding It. [online]. [cit. 2010-12-14]. http://www.valdosta.edu/~cbarnbau/personal/teaching_MISC/plagiarism.htm [2] Brin, S.; Davis, J.; Garcia-Molina, H. Copy Detection Mechanisms for Digital Documents [online]. [cit. 2010-12-14]. Appeared in SIGMOD '95, 1995. <http://dbpubs.stanford.edu:8090/pub/1995-43>. [3] Si, A.; Leong, H. V.; Lau, R. W. Check. A Document Plagiarism Detection System. In Proceedings of ACM Symposium for Applied Computing. February 1997, s. 70–77. [4] AmphorA, [online]. [cit. 2010-12-14]. http://altknihovny.cvut.cz/akp/clanky/16.pdf [5] Klement, P. Snášel, V. Using SOM in the performance monitoring of the emergency call-taking system, Simulation Modelling Practice and Theory, Elsevier, Volume 19, Issue 1, January 2011, Pages 98-109 [6] Atterer, R. Lorenzi, P. A. Heatmap-based visualization for navigation within large web pages. In Proceedings of the 5th Nordic conference on Human-computer interaction: building bridges (NordiCHI '08). ACM, New York, NY, USA, 2008, 407-410.

Členové řešitelského týmu

Ing. Michal Radecký, Ph.D., MBA
prof. Ing. Jan Platoš, Ph.D.
prof. Ing. Pavel Krömer, Ph.D.
Ing. Radoslav Fasuga, Ph.D.
doc. Ing. Radim Bača, Ph.D.
doc. Ing. Petr Gajdoš, Ph.D.
prof. Ing. Michal Krátký, Ph.D.
Ing. Pavel Moravec, Ph.D.
prof. RNDr. Václav Snášel, CSc.
RNDr. Eliška Ochodková, Ph.D.
doc. Mgr. Pavla Dráždilová, Ph.D.
doc. Mgr. Jiří Dvorský, Ph.D.
doc. Mgr. Miloš Kudělka, Ph.D.
Ing. Jan Martinovič, Ph.D.
Ing. Gamila Ahmed Nasser Obadi
Ing. Jiří Walder
Ing. Lukáš Hlaváček
Ing. Filip Křižka
Mgr. Zdeněk Horák, Ph.D.
Ing. Peter Scherer
Ing. Jie Wu, PhD.
Ing. Václav Svatoň, Ph.D.
Ing. Lukáš Vojáček, Ph.D.
Ing. Martin Vicher
Ing. Hussam Abdulla, Ph.D.
Ing. David Bednář
Ing. Kateřina Slaninová, Ph.D.
Mgr. Tomáš Novosád, Ph.D.
doc. Ing. Lenka Skanderová, Ph.D.
Ing. Michal Holiš
Ing. Tomáš Janečko
Bc. Daniel Hic
Ing. Antonín Birka
Bc. Ondřej Bialas
Ing. Sergey Kostin
Bc. Kamila Nykodýmová
Bc. Adam Glumbík

Specifikace výstupů projektu (cíl projektu)

Cílem navrženého projektu je výzkum v oblasti dále uvedených úloh a vývoj softwarového systému, který bude poskytovat implementaci vybraných řešení a který bude navržen s ohledem na využití moderních postupů a technologií tak, aby bylo možné jeho rozšiřování a optimalizace jeho komponent. Díky takto navržené architektuře bude možné rozdělit řešitelský tým na relativně samostatné sub-týmy, které mohou řešit jednotlivé úlohy samostatně. To umožní velmi efektivní zapojení studentů jak do výzkumu, tak do vývoje, a to i v dlouhodobém horizontu.

Projekt je koncipovaný jako víceletý (s celkovým odhadem dva až tři roky). Cíle prvního roku lze formulovat takto:
• Detailní specifikace dílčích cílů a výběr úloh pro první rok projektu.
• Výzkum v oblasti vybraných úloh, návrh a implementace vybraných algoritmů a datových struktur, provedení experimentů.
• Návrh softwarové architektury a implementace funkčního prototypu systému.
• Publikování výsledků na konferencích ISI a v časopisech s impaktním faktorem.
• Navázání spolupráce se zahraničními pracovišti.

Rozpočet projektu - uznané náklady

	Návrh	Skutečnost
1. Osobní náklady Z toho	26800,-	26000,-
1.1. Mzdy (včetně pohyblivých složek)	20000,-	26000,-
1.2. Odvody pojistného na veřejné zdravotně pojištění a pojistného na sociální zabezpečení a příspěvku na státní politiku zaměstnanosti	6800,-	0,-
2. Stipendia	250000,-	250000,-
3. Materiálové náklady	38200,-	25048,-
4. Drobný hmotný a nehmotný majetek	0,-	0,-
5. Služby	0,-	13412,-
6. Cestovní náhrady	270000,-	270540,-
7. Doplňkové (režijní) náklady max. do výše 10% poskytnuté podpory	65000,-	65000,-
8. Konference pořádané VŠB-TUO k prezentaci výsledků studentského grantu (max. do výše 10% poskytnuté podpory)	0,-	0,-
9. Pořízení investic	0,-	0,-
Plánované náklady	650000,-
Uznané náklady	650000,-
Celkem běžné finanční prostředky	650000,-	650000,-