Masarykova univerzita: Nový algoritmus pomáhá MU vyhledávat plagiáty

12.10.2021 12:39

Informační systém Masarykovy univerzity spustil nový algoritmus vyhledávání podobností.

Masarykova univerzita: Nový algoritmus pomáhá MU vyhledávat plagiáty
Foto: MUNI
Popisek: Masarykova univerzita - logo

Opisování, zhotovování napodobenin je neetická činnost a podvodné jednání, která nemá na vysoké škole svoje místo. Plagiáty mezi závěrečnými pracemi jsou nyní na MU odhalovány novým algoritmem, který vyvinul tým Informačního systému MU a Theses.cz. 

Anketa

Je v pořádku spekulovat o sesazení prezidenta Zemana ze zdravotních důvodů?

hlasovalo: 18001 lidí

Soubory v datovém úložišti v ISu jsou průběžně strojově analyzovány. Může se jednat o text seminární práce, eseje, prezentace, ale nejčastější a nejdůležitější texty na porovnání jsou závěrečné práce. Studenti si mohou sami algoritmus vyzkoušet a zkontrolovat, s jakými zdroji se jejich text shoduje, na kterých místech a na kolik procent je dokument podobný s ostatními. Stejnou kontrolu následně dělá vedoucí a oponent závěrečné práce, který tak může zhodnotit, jestli byl text opsán nebo ne, případně jestli byl dostatečně ozdrojován.

Vlastnosti nového algoritmu
Je zřejmé, že správná funkcionalita algoritmu na hledání podobností je velmi důležitá, a proto tým ISu MU a Theses.cz přišel s dalším vylepšením. Nově by měly být lépe odhaleny parafrázované texty, tedy takové, které student zkopíroval a lehce přeformuloval. Dále poskytuje nové funkce a modernější, uživatelsky přívětivější design. Vývojáři reagují především na podněty uživatelů a zkušenosti s novými způsoby opisování a pečlivým parafrázováním textů.

Nový algoritmus je schopen lépe poznat přeformulovanou informaci v delších pasážích. Naopak ignoruje kratší úseky, které se sice mohou podobat, ale často se jedná o používané definice, zaužívané víceslovné odborné termíny, předepsaná prohlášení v závěrečných pracích a podobné druhy textu, jejichž výskyt ve více dokumentech ještě neznamená plagiátorství.

Co se týče již zmíněného designu, oproti předchozí verzi také přibylo barevné rozlišení různých zdrojů podobných úseků. Navíc jsou skryty zdroje, které by oproti zobrazeným nepřidaly žádnou hodnotu v případě, že je dokument podobný na více textů. Tyto duplikované zdroje však lze zobrazit.

Další vítanou vlastností nového algoritmu je jeho rychlost. Navíc podobnosti lze zobrazit hned po vytvoření textové verze souboru, která je nutná pro spuštění algoritmu. Převést soubor do textové verze lze přímo v úložišti ISu. 

Porovnání dokumentů napříč archivy

Systém hledá podobnosti jak napříč dokumentovým serverem IS MU, tak mezi závěrečnými pracemi škol, které jsou zapojené v systému Theses.cz. Dále mezi seminárními a závěrečnými pracemi v systému Odevzdej.cz, vědeckými publikacemi v systému Repozitar.cz a mezi dalšími dokumenty v informačních systémech provozovaných MU. Studentům tak neprojde ani odevzdání práce známého z jiné školy i přesto, že je databáze instituce neveřejná. Součástí systému je také časově a výpočetně náročnější algoritmus, který vyhledává zdroje z internetu. Právě kvůli jeho technickým omezením jsou archivy závěrečných prací používanější.

Porovnávané dokumenty mohou být v češtině, slovenštině a angličtině. Navíc mohou být zkoumány opakovaně a to například vyjde-li nová verze algoritmu, jako právě teď. Navíc se databáze neustále rozšiřuje o další zdroje, takže opakované prohledávání není zbytečné.

Algoritmus má smysl spouštět pro delší texty, kde má možnost odhalit podobnost s dalšími dokumenty. Ale může být spouštěn i pro odpovědníky, a to pokud se jedná o psané odpovědi, které mají více než 50 znaků.

Procento podobnosti

Jednou z nejviditelnějších informací po doběhnutí algoritmu je procento podobnosti. Toto číslo však nemusí jednoznačně určit, jestli je práce plagiátem nebo ne, ale upozorňuje na jisté podezření. Práci je vždy nutné posoudit odborníkem z daného oboru, který vyhodnotí, jestli je práce dostatečně ocitovaná a jakou závažnost podobnosti mají. Pokud autor prohlašuje nějakou část práce za svoji a procento a zobrazený text z archivu ukazují, že tomu tak není, může studentovi hrozit sankce.

Starý vs. nový algoritmus

Prozatím jsou v ISu k dispozici algoritmy oba. Přece jen fungují na trochu jiném principu, a proto mohou zobrazovat víceméně odlišné výsledky v krátkých úsecích a také v celkovém procentu podobnosti. Může se tedy vyplatit zkusit jak novou, tak starou verzi. O vypnutí staré verze budou správci ISu informovat.

Další informace o systému naleznete v Nápovědě a v Průvodci, který je odkazovaný přímo z aplikace, kterou najdete v možnostech dokumentu pod ikonou Vejce vejci (Vyzkoušejte novou verzi).

Přidejte si PL do svých oblíbených zdrojů na Google Zprávy. Děkujeme.

reklama

autor: Tisková zpráva

FactChecking BETA

Faktická chyba ve zpravodajství? Pomozte nám ji opravit.

Přezkoumat

migrační pakt

Dobrý den, prý budete ve sněmovně jednat o migračním paktu. Znamená to, že jde ještě zvrátit jeho schválení nebo nějak zasáhnout do jeho znění? A můžete to udělat vy poslanci nebo to je záležitost jen Bruselu, kde podle toho, co jsem slyšela, ale pakt už prošel. Tak jak to s ním vlastně je? A ještě ...

Odpověď na tento dotaz zajímá celkem čtenářů:


Tato diskuse je již dostupná pouze pro předplatitele.

Další články z rubriky

Český statistický úřad: Důvěra spotřebitelů i podnikatelů v ekonomiku dále roste

13:21 Český statistický úřad: Důvěra spotřebitelů i podnikatelů v ekonomiku dále roste

Souhrnný indikátor důvěry (indikátor ekonomického sentimentu), vyjádřený bazickým indexem, se mezimě…