(c) Graphicstock

Graf praví: K určení autora stačí sledovat 12 slov

Z kolika slov jde identifikovat autora textu a jak přesně se to ale myslí? Poznatky počítačové lingvistiky ukazují, že lidé používají jazyk originálnějším způsobem, než se na pohled zdá. V angličtině prý stačí 10-12 slov, tvrdí alespoň Stanislaw Drozdz z Krakovské technické univerzity a jeho kolegové z Polské akademie věd. Výsledek působí překvapivě; neznamená to však, že by šlo identifikovat autora desetislovného komentáře, 12 slovy se myslí sledování 12 zvolených slov v delším textu.
Autoři výzkumu své závěry zakládají na vlastní stylometrii, k niž si museli vyvinout údajně zcela nové metody založené na teorii grafů, pro tradiční kvantitativní analýzu by 12 slov bylo málo. Nové metoda pokládá jednotlivá slova za vrcholy grafu, spojnice mezi nimi pak odpovídají mj. tomu, jak bývají slova v jednotlivých textech od sebe vzdálena atd. V nejjednodušším případě „Pavel má hlad“ má graf 3 vrcholy, ale jen 2 hrany (nejsou spojeny vrcholy Pavel a hlad). Graf je navíc orientovaný, záleží na tom, které slovo se vyskytuje častěji před jiným.
Oněch zmíněných 10-12 slov znamená, že když si vyberete právě tento počet slov, jejich graf bude pro každého člověka charakteristický. Autoři výzkumu to zkoušeli na dílech z projektu Gutenberg i v dalších veřejně dostupných textech. A co je zajímavé, větší počet slov už úspěšnost metody nijak zvlášť nezmění.
V polštině (a nejspíš i jiných slovanských jazycích) lze autora textu odhalit navíc ještě snáze než v angličtině, v polštině se prý vystačí s 5-6 slovy, ba pravděpodobnost správného rozlišení je pak vyšší než v angličtině (95 vs. 90 %). To se naopak zdá být docela logické (i když ne to, že rozdíl oproti angličtině je tak obrovský), protože když nemáme pevný slovosled ve větě, můžeme své zvláštnosti a libůstky projevovat i tímto způsobem. Mimochodem do oněch slov se jako samostatné jednotky započítávají i interpunkční znaky; pokud je nepovolíme, spolehlivost metody se tím kupodivu naruší (člověk by čekal, že zrovna použití teček a čárek nebude pro různé autory zvlášť charakteristické).

Andrzej Kulig et al, In narrative texts punctuation marks obey the same statistics as words, Information Sciences (2016). DOI: 10.1016/j.ins.2016.09.051

Zdroj: Phys.org

Neutronové hvězdy mají asi několik vrstev

Neutronové hvězdy rotují rychle a konstantní rychlostí, alespoň za normálních okolností. Občas se však v …

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Používáme soubory cookies pro přizpůsobení obsahu webu a sledování návštěvnosti. Data o používání webu sdílíme s našimi partnery pro cílení reklamy a analýzu návštěvnosti. Více informací

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close