Zipfův zákon, rozdělení s krátkým a dlouhých chvostem

Pavel Houser 14. 4. 2016 Knihy

Doporučujeme

Zadejme do internetového vyhledávače různá jména. U některých nedostaneme žádný výsledek, většina povede k několika málo výsledkům, pár z nich ale vydá miliony odkazů. Nebo si vezměme rozlohy ostrovů. Grónsko a Madagaskar jsou obrovské, zatímco na druhé straně existuje nespočet drobných ostrůvků. A co třeba nerovnost ve velikosti jednotlivých států USA? Anebo ještě větší nerovnosti v rozloze francouzských provincií, než je revoluce nasekala na téměř stejně velké departementy, nebo ve velikosti sovětských republik po Stalinových změnách, popřípadě v rozloze správních celků současného Ruska?
Extrémní nerovnost je v přírodě i v lidských výtvorech známým jevem. Takováto statistická rozdělení se nazývají distribuce s dlouhým chvostem, veličinu nelze rozumně vystihnout žádnou průměrnou hodnotou. Kontrast mezi rozděleními s krátkým a s dlouhým chvostem ještě sehraje v mé práci ústřední roli.
Většina typů rozdělení s dlouhým chvostem se týká důležitých věcí, ale všechny studie a knihy, které na toto téma za dlouhá léta vyšly, mě zklamaly. Bylo štěstí, že jsem začal s rozdělením frekvence slov – je to naprosto atypický příklad bez zásadnějších důsledků a je jedinečný tím, jak snadno se s ním pracuje.
Moje první výzkumy dlouhých chvostů v roce 1952 se obešly bez počítačů. Počítač jsem poprvé spatřil v roce 1953 a poprvé jej využil až o pět let později, kdy jsem přišel do IBM.

ZIPFŮV UNIVERZÁLNÍ ZÁKON FREKVENCE SLOV

V psaném textu nebo v řeči mají některá slova, například „ten“ nebo „tento“, dobře definovanou četnost výskytu čili frekvenci. Jiná slova jsou natolik vzácná, že žádnou definovanou frekvenci nemají. Zipf vymyslel hru: vyberme nějaký text a spočítejme, kolikrát se v něm každé ze slov vyskytne. Pak dejme každému slovu pořadí neboli rank: 1 pro nejobvyklejší slovo, 2 pro druhé nejčastější a tak dále. Statistici tuto metodu používají jen zřídka, nic špatného na ní ale není. Nakonec vytvořme graf, v němž bude na jedné ose frekvence každého slova a na druhé jeho rank.
Vznikne zvlášní a těžko čitelný obrazec. Křivka totiž nesestupuje rovnoměrně od nejčastějšího k nejméně častému slovu. Nejprve se závratně propadne, pak klesá pozvolněji a pokračuje dlouhým chvostem, který už směřuje dolů jen velmi pozvolna – podobá se zvětšenému profilu dráhy skokana na lyžích po doskoku – nejprve sjíždí po prudkém svahu, který se stále zmírňuje, až nakonec dojíždí po rovince na konec dráhy. Podle definice ranku je frekvence nepřímo úměrná ranku. Zipf ale tvrdil něco daleko závažnějšího: že frekvence je zhruba desetinou převrácené hodnoty ranku, tedy že součin frekvence a ranku každého slova se přibližně rovná jedné desetině. Na začátku i na konci křivka téměř splývá se souřadnými osami a je od nich takřka nerozlišitelná.
Pokud chceme takové křivky srovnávat, je výhodné nahradit jak rank, tak frekvenci jejich logaritmem. To může znít trochu děsivě, je to ale docela jednoduché. Desítkový logaritmus daného čísla je zhruba stejný jako délka jeho zápisu pomocí číslic od 0 do 9. Přesněji řečeno, rovný nebo nanejvýš o 1 menší než počet číslic daného čísla. Například logaritmy čísel od 100 do 1 000 mají hodnoty rostoucí od 2 do 3. Přijmeme-li Zipfovo tvrzení, že frekvence každého slova se rovná jedné desetině převrácené hodnoty ranku, plyne z toho, že na grafu s oběma osami logaritmickými budou údaje klesat po přímce se sklonem –1, to znamená takové, která svisle sestoupí o 1 na každý přírůstek o 1 na horizontální ose.
Na jazyku zkoumaného textu přitom nezáleží – může to být angličtina, francouzština, latina či cokoli jiného. A nezáleží ani – což je docela divné – na jazykové úrovni pisatele či řečníka. Je to příklad fenoménu, který fyzikové brzy nazvou univerzálním vztahem. Další pojem, škálovací symetrie čili neměnnost při změně měřítka, je už základem teorie fraktálů.
Příslušný vzorec vymyslel právě Zipf, když konstruoval své grafy podle dat a studoval je. Walsh jeho vzorec zprostředkoval ostatním, a každého, kdo jej spatřil, vyvedl z míry. S obezřetným zkoumáním takových grafů začali fyzikové kolem roku 1900 a vzkřísili jej v 70. a 80. letech – já jsem to dělal od počátku 50. let.
Zipfův předpoklad bohužel vede k závěrům, které jsou jednoduše nemožné. Kupříkladu z něj plyne, že jak text plyne, stále se zhruba každé desáté slovo objevuje poprvé – přitom by se dalo čekat, že nová slova budou přicházet stále řidčeji. Ještě horší je, že již z definice frekvence musí součet procentních podílů jednotlivých slov činit 100 % – jenomže Zipfův vzorec tomuto absolutnímu matematickému požadavku odporuje.
Jedním ze snadných způsobů, jak to obejít, je „osekávání“: je to předpoklad, že nová slova se přestanou vyskytovat, jakmile celkový počet jednotlivých slov dosáhne 22 000 (tedy e na 10). Jak by takové univerzální omezení mohlo současně platit pro Jamese Joyce i pro někoho negramotného?
Řečeno slangem fyziků z počátku 20. století, Zipfův původní zákon trpěl „divergenčním problémem“ zvaným „ultrafialová katastrofa“, což znamená, že se jeho tvrzení sama matematicky vyvracejí.
Bylo snad toto důvodem, proč celou věc zavrhl jako pošetilost každý, kdo se na ni blíže podíval? Zipfova tvrzení vypadají velmi objektivně, ve skutečnosti ale skrývají, že na jeho grafech se součin frekvence a ranku nerovná přesně univerzální konstantě 1/10, ale trochu se mění! Přiznám se, že ani já jsem tomu zpočátku nevěnoval pozornost. Vybavuji si, že jsem víceméně teoreticky přijal předpoklad, že původní vzorec reprezentuje do určité míry empirické údaje, a pokoušel jsem se ho redukovat na nějaký základní princip – bez jakékoli „katastrofy“, která by zahrnovala Joyce, negramotné a všechno mezi tím.
To, že se Zipfův zákon vztahuje na všechny jazyky – že je univerzální – znamená, že pro jádro lingvistiky, tedy pro gramatiku, žádný význam nemá. V jednom z velmi mála jasných momentů prozření ve svém životě jsem zjistil, že Zipfův zákon může být hluboce propojen s teorií informace a tím i se statistickou termodynamikou – a postihla mě celoživotní posedlost mocninným zákonem statistických rozdělení. Tyto „detaily“ neunikly jen Zipfovi, který ostatně neměl žádné systematické matematické ani statistické vzdělání – ale i Walshovi. Člověk se nestane protřelým vědeckým badatelem jen tím, že má hluboké znalosti z historie vědy. Mé štěstí spočívalo v nespravedlivé výhodě: ze školených matematiků jsem byl první – a po dlouhou dobu jediný – kdo bral Zipfův zákon vážně.

Tento text je úryvkem z knihy:
Benoit B. Mandelbrot: Fraktalista
Argo a Dokořán 2014
O knize na stránkách vydavatele

Sciencemag.cz

Zipfův zákon, rozdělení s krátkým a dlouhých chvostem

Doporučujeme

Dlouhé mohyly z raných dob pozdní doby kamenné

Napsat komentář