Graf praví: K určení autora stačí sledovat 12 slov

Pavel Houser 16. 7. 2019 Články

Doporučujeme

Z kolika slov jde identifikovat autora textu a jak přesně se to ale myslí? Poznatky počítačové lingvistiky ukazují, že lidé používají jazyk originálnějším způsobem, než se na pohled zdá. V angličtině prý stačí 10-12 slov, tvrdí alespoň Stanislaw Drozdz z Krakovské technické univerzity a jeho kolegové z Polské akademie věd. Výsledek působí překvapivě; neznamená to však, že by šlo identifikovat autora desetislovného komentáře, 12 slovy se myslí sledování 12 zvolených slov v delším textu.
Autoři výzkumu své závěry zakládají na vlastní stylometrii, k niž si museli vyvinout údajně zcela nové metody založené na teorii grafů, pro tradiční kvantitativní analýzu by 12 slov bylo málo. Nové metoda pokládá jednotlivá slova za vrcholy grafu, spojnice mezi nimi pak odpovídají mj. tomu, jak bývají slova v jednotlivých textech od sebe vzdálena atd. V nejjednodušším případě „Pavel má hlad“ má graf 3 vrcholy, ale jen 2 hrany (nejsou spojeny vrcholy Pavel a hlad). Graf je navíc orientovaný, záleží na tom, které slovo se vyskytuje častěji před jiným.
Oněch zmíněných 10-12 slov znamená, že když si vyberete právě tento počet slov, jejich graf bude pro každého člověka charakteristický. Autoři výzkumu to zkoušeli na dílech z projektu Gutenberg i v dalších veřejně dostupných textech. A co je zajímavé, větší počet slov už úspěšnost metody nijak zvlášť nezmění.
V polštině (a nejspíš i jiných slovanských jazycích) lze autora textu odhalit navíc ještě snáze než v angličtině, v polštině se prý vystačí s 5-6 slovy, ba pravděpodobnost správného rozlišení je pak vyšší než v angličtině (95 vs. 90 %). To se naopak zdá být docela logické (i když ne to, že rozdíl oproti angličtině je tak obrovský), protože když nemáme pevný slovosled ve větě, můžeme své zvláštnosti a libůstky projevovat i tímto způsobem. Mimochodem do oněch slov se jako samostatné jednotky započítávají i interpunkční znaky; pokud je nepovolíme, spolehlivost metody se tím kupodivu naruší (člověk by čekal, že zrovna použití teček a čárek nebude pro různé autory zvlášť charakteristické).

Andrzej Kulig et al, In narrative texts punctuation marks obey the same statistics as words, Information Sciences (2016). DOI: 10.1016/j.ins.2016.09.051

Zdroj: Phys.org

Sciencemag.cz

Graf praví: K určení autora stačí sledovat 12 slov

Doporučujeme

Objev složení první zemské kůry přepisuje geologickou časovou osu

Napsat komentář

Graf praví: K určení autora stačí sledovat 12 slov

Doporučujeme

Kdepak lesy. Většina pevninského uhlíku se ukládá jinam

Podivný planetární systém „naruby“ s vnější kamennou planetou

Týden na ITBiz: Kvůli investicím do infrastruktury pro AI je málo paměťových čipů

Objev složení první zemské kůry přepisuje geologickou časovou osu

Napsat komentář