Kolik je překlepů v textu, který prošel dvěma korekturami? A další statistická kouzla.
Produkce knih a novin byla od nepaměti sužována řáděním tiskařských šotků. Překlepů se však nevyvarujeme ani v éře automatické kontroly pravopisu, ta totiž přináší dočista nové typy překlepů. Lze nějak jednoduše odhadnout, kolik chyb je v určitém článku?
Prostý odhad lze učinit tak, že necháte pracovat dva redaktory nezávisle na sobě a porovnáte výsledky. Předpokládejme, že první redaktor našel A chyb a druhý B chyb, z nichž C chyb našel i první. Je-li číslo C velmi malé, usoudíte asi, že to vaši redaktoři s pečlivostí nepřehánějí, kdežto je-li C velké, znamená to, že mají oči jako ostříži a existuje jen malá pravděpodobnost, že by v článku zůstalo příliš mnoho dalších chyb, na které nepřišel ani jeden. Stojí za pozornost, že pouhá znalost tří čísel označených jako A, B a C nám umožňuje dobře odhadnout, kolik chyb se v náhledu sazby ještě může skrývat. Řekněme, že celkový počet chyb je M. Po nezávislé revizi dvou redaktorů je tedy nutno nalézt ještě M – A – B + C chyb (výraz „+ C“ musíme přidat, abychom nezapočítali dvakrát chyby, jež našli oba). Pravděpodobnosti, že naši dva redaktoři najdou danou chybu, nechť jsou po řadě a a b. To znamená, že statisticky vzato A = aM a B = bM. Jelikož pracují nezávisle, pravděpodobnost, že danou chybu najdou oba dva, je dána obyčejným součinem obou pravděpodobností ab, takže C = abM. Tyto tři vzorce lze zkombinovat, abychom vyloučili faktory a a b, které neznáme. Vyjde nám AB = abM2 = C/M × M2, takže odhad celkového počtu chyb v náhledu sazby činí M = AB/C. Odhad počtu chyb, které nenašel ani jeden redaktor, je proto
M – A – B + C = (AB/C) – A – B +C = (A – C)(B – C)/C.
Počet dosud neobjevených chyb je tedy roven počtu chyb nalezených pouze prvním redaktorem krát počet chyb nalezených pouze druhým, to celé děleno počtem chyb, které nalezli oba. To se shoduje s naší intuicí. Je-li číslo C malé a A i B jsou velká, pak nejspíš existuje mnoho chyb, které nenašel žádný.
Tento jednoduchý příklad ukazuje důležitost předpokladu, že oba redaktoři pracují nezávisle. Díky němu lze eliminovat efektivitu a a b obou redaktorů, sílu výpočtu lze napřít i proti dalším problémům, kde máme k dispozici neúplné informace. Můžeme kupříkladu nasadit redaktory tři, anebo můžeme předem odhadnout rozumný vzorec k určení pravděpodobnosti, že redaktoři najdou určitý počet chyb, a po zjištění jejich skutečného výkonu přijít na vzorec, který činnost každého redaktora popíše detailněji. Statistikové upozornili na další zajímavé problémy, na něž lze tento vzorkovací přístup aplikovat. Kupříkladu odhad, kolik existuje druhů ptáků, lze provést na základě nezávislých hlášení více lidí o počtu druhů ptáků, jež zaznamenali na svých zahradách během určené doby.
Obzvláště fascinující je použít vzorkování k odhadu, kolik slov znal Shakespeare, na základě počtu různých slov užitých v každé z jeho her. Zajímá nás, kolik slov se objevuje výhradně v jedné hře, kolik ve dvou hrách, ve třech, ve čtyřech a tak dál. Také bychom rádi věděli, kolik slov použil Shakespeare ve všech hrách. Tyto počty odpovídají počtům A, B, …, C z našeho předchozího příkladu o kontrole pravopisu, s příslušným rozšířením. Analogicky lze odhadnout celkový počet slov, z nichž mohl Shakespeare při psaní her čerpat, aniž bychom potřebovali znát pravděpodobnosti užití konkrétních slov. Je mimochodem známo, že byl mistrem výstižných neologismů, z nichž mnoho se stalo nepostradatelnou součástí dnešní anglické slovní zásoby (třeba „critical“ – kritický či „vast“ – ohromný). Tvrdí se, že jen text Hamleta představil divákům 600 nových slov. Filologové při tvorbě konkordancí spočítali, že Shakespeare použil ve všech hrách 31 534 různých slov. Když započteme opakovaná užití, použil jich celkem 884 647, z toho 14 376 slov jedenkrát, 4 343 dvakrát, 2 292 třikrát, 1 463 čtyřikrát, 1 043 pětkrát, 837 šestkrát, 638 sedmkrát, 519 osmkrát, 430 devětkrát a 364 desetkrát. Díky této informaci lze odhadnout, kolik nových slov by se objevilo, kdybychom našli soubor dosud neznámých Shakespearových děl o stejném rozsahu, jaký má souhrn již známých. Budeme-li tento postup znovu a znovu opakovat, dospějeme k počtu slov, která Shakespeare sice znal, ale ve známých dílech nepoužil. Odhad se blíží 35 000 slovům. Připočteme-li je k 31 534 různým slovům, o jejichž použití ve známých hrách už víme, lze celkovou Shakespearovu slovní zásobu odhadnout na 66 534 slov.
První z těchto frekvenčních analýz provedli Efron a Thisted v roce 1976. Několik let poté byl objeven neznámý Shakespearův sonet o 429 slovech. Naskytla se zajímavá možnost prověřit výsledky předchozích analýz a pokusit se předpovědět, kolik najdeme v novém sonetu slov, která se v žádném díle ještě neobjevila; kolik najdeme slov, která se objevila jednou, dvakrát atd. Z analýzy výskytu slov ve všech předchozích dílech vzešla předpověď, že by nový sonet měl obsahovat přibližně sedm slov, která se zatím nikde neobjevila (ve skutečnosti se jich našlo devět), přibližně čtyři, která se dosud objevila jednou (ve skutečnosti sedm) a přibližně tři, která se objevila dvakrát (ve skutečnosti pět). Přesnost předpovědí lze považovat za celkem dobrou, čímž se potvrzuje, že základní statistický model Shakespearovy slovní zásoby je životaschopný. Stejný přístup lze použít pochopitelně i u jiných spisovatelů a může se hodit při ověřování sporného autorství. Čím je text delší, tím větší vzorek slov získáme a tím přesvědčivější jsou výsledky.
Tento text je úryvkem z knihy:
John D. Barrow: Sto důležitých věcí o umění a matematice, které nevíte (a ani nevíte, že je nevíte)
Dokořán 2017
O knize na stránkách vydavatele