Zdroj: Oleg Alexandrov – Wkipedie, licence obrázku public domain
Zdroj: Oleg Alexandrov – Wikipedie, licence obrázku public domain

Taje Benfordova zákona

Benfordův zákon byl několik desetiletí po svém objevu považován za pouhou zvláštnost, kouzelnický a numerologický trik, a ne matematický fakt.

/Benfordův zákon: Jednička je první cifrou v 30,1 % případů, dvojka v 17,6 % případů a trojka v 12,5 % případů. Pokles v četnosti je tak dramatický, že se jednička vyskytuje skoro sedmkrát častěji než devítka./

V devadesátých letech se však profesor Ted Hill z Georgia Institute of Technology rozhodl najít pro něj matematické vysvětlení. Dnes bydlí v Los Osos v Kalifornii, o 1 300 km jižněji na pobřeží Pacifiku než Darrell D. Dorrell. Ted je bývalý voják, což se odráží na jeho vzhledu: je vysoký, štíhlý, má široká ramena, vyholenou hlavu a bílý knírek. Když jsem ho navštívil, zavedl mě do malé dřevěné chatky na konci své zahrady, z níž byl výhled na moře a dva národní parky. Vevnitř hořel krb. Své chatce říká „matematická dača“. Je to globální středisko výzkumu Benfordova zákona.
Tedův první velký výsledek byl důkaz, že pokud existuje nějaký univerzální zákon, který řídí rozdělení prvních číslic, může to být jedině Benfordův zákon. Ukázal, že jediné rozdělení, které se nemění v závislosti na měřítku, je právě to Benfordovo. V souvislosti s tím vymyslel hru, kterou si se mnou zahrál:
„Oba si vybereme nějaké číslo,“ řekl. „Obě čísla mezi sebou vynásobíme. Pokud výsledek začíná jedničkou, dvojkou nebo trojkou, vyhrávám já, jinak vyhráváš ty.“
Zdánlivě jsem ve výhodě, protože se snažím získat jednu z šesti počátečních číslic, tedy dvakrát víc než Ted. On ale vyhraje většinu her, pokud si bude vybírat čísla podle Benfordova zákona, tedy pokud si vybere číslo začínající jedničkou v asi 30,1 % her, číslo začínající dvojkou v 17,6 % her a tak dále. Když hraje tímto způsobem, nezáleží na tom, jaké číslo si vyberu já: v 30,1 % her bude výsledek končit jedničkou, v 17,6 % her dvojkou a v 12,5 % her trojkou. Součet těchto hodnot je 60,2 %, takže Ted vyhraje 60,2 % her. V této hře se dobře vyhrávají peníze: když usilujete o výsledek začínající 1, 2 nebo 3, máte nad soupeřem velkou výhodu, i když to tak na první pohled nevypadá.
Na této hře je dobře vidět, proč se tolik různých souborů dat řídí Benfordovým zákonem. Představte si, že s Tedem hrajeme sto her – jeho čísla jsou (a1, a2, a3 … a100) a moje jsou (b1, b2, b3 … b100). Víme, že pokud se Tedova čísla řídí Benfordovým zákonem, pak se jím řídí i soubor mých čísel vynásobených jeho čísly, tedy (a1 × b1, a2 × b2, a3 × b3 … a100 × b100). Takže pokud tato čísla vynásobíme náhodně vygenerovanými čísly (c1, c2, c3 … c100), získáme soubor (a1 × b1 × c1, a2 × b2 × c2, a3 × b3 × c3 … a100 × b100 × c100), který se opět řídí Benfordovým zákonem. To znamená, že stačí, aby se jen jeden z mnoha souborů čísel, která mezi sebou násobíme, řídil Benfordovým zákonem, a bude se jím řídit i výsledný soubor násobků. Jinými slovy, tento zákon je tak nakažlivý, že jediný Benfordův soubor v řetězci násobení ovlivní celkový výsledek. Protože různá data – například ceny akcií, počet obyvatel, délky řek a tak dále – závisí na růstu a poklesu mnoha různých nezávislých a náhodných faktorů, není divu, že se v nich tak často projevuje Benfordův zákon.

Tedova nejslavnější věta říká, že:

Při náhodném výběru vzorků z náhodně zvolených souborů dat platí, že čím více různých vzorků a souborů dat se vybere, tím více se poměry prvních číslic vybraných vzorků blíží Benfordovu zákonu.

Tato věta specifikuje, na jaké případy se Benfordův zákon vztahuje. „Pokud můžeme předpokládat, že se data skládají z náhodně vybraných vzorků souboru řídícího se normálním rozdělením, pak by měla do značné míry odpovídat Benfordovým zákonem,“ říká Ted. To vysvětluje, proč lze Benfordův zákon snadno demonstrovat na novinových článcích. Čísla, která se v nich objevují, jsou v podstatě náhodné vzorky z náhodných souborů dat, jako například ceny akcií, teploty vzduchu, volební předpovědi nebo výherní čísla z loterie. Mnohé z těchto souborů čísel se sice Benfordovým zákonem neřídí, ale čím více různých zdrojů vezmeme, tím více se mu bude výsledný soubor čísel blížit. Kdybychom pokračovali do nekonečna, řídila by se naše čísla Benfordovým zákone se stoprocentní pravděpodobností.
Zeptal jsem se Teda, jestli pro jeho větu existuje nějaké jednoduché a intuitivní vysvětlení. Zakroutil hlavou. Ke svému důkazu požil ergodickou teorii, komplexní vědecký obor, který kombinuje teorii pravděpodobnosti a statistickou fyziku a vyučuje se až na postgraduální úrovni. Jeho věta se snadno definuje, ale těžko dokazuje. „Jednoduchý důkaz nejspíš ani není možný. Nedá se snadno odvodit.“

Tento text je úryvkem z knihy
Alex Bellos: Alex za zrcadlem
Jak se čísla odrážejí v životě a život v číslech

Dokořán 2016
O knize na stránkách vydavatele
obalka_knihy

Středověk - ilustrační obrázek. Rukopis rukopisu Ruralia commoda, 14. století, licence obrázku public domain

Středověká Praha

Praha se od říšských i polských velkoměst lišila tím, že nebyla multifunkční. Pražská řemeslná produkce …

7 comments

  1. Na tomhle článku je vidět, jak digitální svět odtrhl myšlení některých lidí od analogové reality. To, že malé číslice jsou častější než velké je prostým důsledkem toho, že většina měření je relativní – srovnává se s nějakou referenční hodnotou a chyba měření je pak také relativní, což přirozeně vede na logaritmickou škálu. Ve světě spojitých, analogových veličin to není zase tak velké překvapení, třeba v elektrotechnické praxi se součástky vyrábějí v řadách, kde je poměr následujících hodnot v řadě vždy stálý. Takže nemáme odpory 1,2,3,4,5,.. ale 1, 2.2, 3.3 ,4.7, 6.8, 8.2 (E6). Můžete na to vymyslet důmyslné teorie, ale žádná numerologická záhada v tom fakt není.

  2. s tim uplne nesouhlasim, protoze benforduv zakon se tyka i souboru dat, kde se myslim neuplatnuje logaritmicka skala ani se nezaokrouhluje (cisla domu v ulicich jsou digitalni). u tech odporu ta rada nejak nevychazi, ne?

  3. No nevychází, 8.2 tam nepatří, to je z řady E12 ale za to tam má být 1.5. Prostě si to z hlavy už přesně nepamatuju. Co se týká čísel domů, tak nejsou číslovány 001, 002, 003 atd. takže i tam je logaritmická škála v jisté míře přítomna a statistika velikosti obcí by nám prozradila jak (menších obcí je více). Já jsem jen chtěl říci, že pro naše smysly je logaritmická škála přirozenější, pro řadu technických oborů je základem a proto mě nijak neudivuje, že se projeví v měřených hodnotách a jejich statistických souborech. Dál si všimněte, že se mluví o operaci násobení – což je opět v logaritmické škále prostý součet. Prostě mě vadí, že se dělá záhada z něčeho, co záhada není, je to prostá vlastnost způsobu jak popisujeme svět pomocí matematiky. A my starší, co pamatujeme logaritmické pravítko se odmítáme divit. Jestli ho někde najdete, koukněte se na něj a bude vám to celkem jasné.

  4. on i prvni objev benfordova zakona snad nejak souvisel s logaritmickymi tabulkami, mimochodem. jinak nejake narody v logaritmicke skale myslim i urcovaly vzdalenosti. ramcove souhlasim (snad dokonce i smysly nam funguji dost na logaritmnicke skale – vnimani inzenzity zvuku, pachu, chuti…). jenze s tim „mensich je vic“ to take neni univerzalni, jine jevy maji stredni hodnoty/normalni apod. rozdeleni… nerekl bych tedy „zahada“ ve smyslu nejakeho tajemna, ale presneji rict/urcovat, jake soubory se tim ridi a jake ne a jake castecne apod., se mi nezda zrovna trivialni – a asi ani neni. myslim se napr. uvadi, ze data musi jit pres nekolik radu vzhledem k zakladu prislusne ciselne soustavy, vuci ktere pak pomerujeme ruzne zasoupeni cislic. (jestli by tomu pak vubec cisla domu v ulicich vyhovela, treba zrovna tenhle zdanlive velmi ilustrativni jev zase tak vhodny priklad neni – apod.)

  5. Hynek Černoch

    V České republice to platí velmi přesně jak na domovních číslech popisných tak na číslech orientačních, plus minus jedno procento četnosti. (databáze RÚIAN 2015)
    – Obecně není příliš složité dosáhnout alespoň větší četnosti čísel začínajících číslicemi 1, 2, 3 vůči zbytku nebo v extrémním případě alespoň stejné četnosti. V případě délek stačí tytéž délky namíchat jak v metrických jednotkách tak i ve stopách (304.8 mm) nezávisle na statistickém rozdělení měřené veličiny. Nerovnost je splněna pro mantisy 1.000 až 1.312 a 3.281 až 3.999. Pro ostatní mantisy je to alespoň nerozhodně. Funguje to pro míchání dat s mantisou převodního koeficientu mezi 2.5 a 3.99, nejlépe okolo odmocniny z 10.
    – U souborů čísel od jedničky do N dochází k „míchání“ dat a Benfordův „zákon“ není splněn pro N od 6 do 12 a od 66 do 132 a od 666 do 1332 atd, přičemž u hraničních hodnot nastává rovnost. Díky tomuto míchání je nerovnost splněna asi u 70.0% náhodných velikostí množin. Velikostí katastrálních území bývají řádově odlišné. Přesto jsem překvapen, jak to hezky vyšlo.

  6. dekuji za prispevek zajimavosti rozhodne presahujici puvodni clanek!

  7. Mrazik, skus si to viac nastudovat.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *