Pixabay License. Volné pro komerční užití

Jak těžké je vymýšlet data?

Základem vědeckých padělků je přesvědčení, že je snazší a levnější si data, která odpovídají vaší oblíbené teorii, vymyslet, nežli je shromáždit (navíc by skutečná data teorii nemusela podporovat). Ukazuje se však, že vymyslet data, která vypadají realisticky, není jednoduché.
Život by byl mnohem jednodušší, kdyby všechna měření v experimentu dávala stejné výsledky, ale veškerá skutečná data mají náhodné aspekty. Velmi jemné měření hmotnosti, náboje nebo tlaku ve fyzikálním experimentu obecně poskytne náhodný rozptyl hodnot v důsledku fl uktuací v podmínkách pozadí, i když se doufá, že budou rozloženy kolem skutečné hodnoty toho, co se měří. Měření výšky lidí v populaci vede k rozptylu hodnot, protože výšky se liší. Počty a hmotnosti semen vyprodukovaných rostlinami určitého druhu nejsou u každé rostliny stejné z téhož důvodu. Chceme-li si tedy vymyslet data, která vypadají reálně, musíme si vymyslet i tuto náhodnost.
Lidé však jednoduše nejsou dost dobří ve vymýšlení dat, která vypadají přesvědčivě náhodně, tj. která nemají vnitřní zákonitosti. Pokud například požádáte lidi, aby náhodně vytvořili řetězec číslic (například 26217833383774811256…), mají tendenci vytvářet příliš málo skupin stejných čísel (jako 333, 77 a 11 v našem příkladu), vytvářet příliš často vzestupné nebo sestupné řady číslic (například 654 a 4567), opakovat sekvence číslic a tvořit příliš často jiné druhy vzorů. A opravdu, Bernie Madoff, s nímž jsme se seznámili v kapitole 1, produkoval příliš mnoho dvojic čísel 8 a 6 (jak ve svých finančních výkazech, tak ve svých vymyšlených golfových výsledcích).
Vše samozřejmě závisí na stupni sofi stikovanosti podvodníka. Někdo s hlubokými statistickými znalostmi si bude vědom mnoha různých druhů postupů, kterými se mohou falešná data odchylovat od skutečných dat, a bude se snažit tyto aspekty sladit. Případně může zkopírovat data odjinud, nebo dokonce, při větší rafi novanosti, zkopírovat data a přidat do nich drobné náhodné perturbace. To vše mě nutí přemýšlet o tom, zda by od určitého bodu nebylo jednodušší provést skutečný experiment, než vynaložit tolik úsilí na výrobu přesvědčivých falešných dat!

Ořezávání
Ořezávání je úprava dat tak, aby lépe odpovídala teorii. Babbage ji popsal jako „odstřihávání malých kousků tu a tam z těch pozorování, která se nejvíc liší od průměru, a jejich lepení k těm, která jsou příliš malá“. Pokud se to dělá strategicky, může to například ponechat průměrnou hodnotu nezměněnou a zároveň vyvolat dojem, že rozsah hodnot, a tedy i nejistota měření je menší, než doopravdy je.
Ve skutečnosti existují některé rozumné statistické techniky, které něco takového dělají a které jsou za určitých okolností obhajovány, aby se omezil nepatřičný vliv, který mohou mít neobvykle vysoké nebo nízké (a případně falešné) hodnoty na výsledky. Jedna taková metoda, zvaná winsorizace podle Charlese P. Winsora, nahrazuje extrémní pozorování hodnotami v určité vzdálenosti od průměru. Například hodnoty přesahující dvě směrodatné odchylky od průměru lze považovat za nespolehlivé a nahradit je hodnotami na úrovni dvou směrodatných odchylek. Průměr výsledných dat je méně variabilní než průměr dat výchozích – musíme si však být vědomi toho, že data prošla úpravou. Pokud byste neuvedli, co jste s daty provedli, znamenalo by to, že skrýváte pravdu. A všimněte si, že tento technický přístup nejde tak daleko, abyste kousky dat, které jste odřízli, nalepili na ostatní hodnoty!
V dramatické verzi Babbageova ořezávání s úmyslem oklamat se segmenty dat přesouvají nebo kopírují ve velkém z jedné části velkého souboru dat. Stejně jako u prostého vymýšlení dat to může ušetřit tolik námahy!

Pozoroval jsem také, že k něčemu, co je v podstatě ořezávání, dochází na vyšší úrovni. Práce zaslané do kvalitních vědeckých časopisů procházejí recenzním řízením, v němž jsou rozeslány několika dalším vědcům, aby se k nim vyjádřili – zda jsou podle nich studie přesné, dobře provedené a dostatečně důležité, aby si zasloužily zveřejnění. Pokud některý z recenzentů upozorní na to, že mu připadá, že ve studii, jak je popsána v článku, není něco v pořádku, jsou známy případy, kdy ji autoři pozměnili tak, aby byla nejednoznačná a ostatní recenzenti (a čtenáři) nebyli schopni odhalit případné chyby. Následně ji poslali do jiného časopisu.
Například platnost statistického testu nebo modelovacího postupu může být založena na předpokladech, které se při zkoumání dat zdají být pochybné, což může vést k neplatnosti závěrů. V jednom případě, se kterým jsem se setkal, byl uveden průměr i medián vzorku dat a jejich relativní hodnoty vyvolávaly obavy, že rozdělení je zkreslené, což by zneplatnilo statistickou analýzu provedenou později v článku. Když jsem na tuto svou obavu upozornil v posudku, autoři místo toho, aby provedli nějakou jinou analýzu, která by se s touto situací vypořádala (případně změnila jejich závěry), prostě zmínku o mediánu vymazali, načež článek odeslali jinam. Naneštěstí pro ně se redakce nového časopisu rozhodla poslat ji témuž recenzentovi!

Tento text je úryvkem z knihy
David J. Hand: Temná data. Proč záleží na tom, co nevíme
Academia 2023
O knize na stránkách vydavatele
obalka-knihy

Foto: © Dollar Photo Club

Evoluce spolupráce: Reciprocita

Reciprocita, často též nazývaná reciproční altruismus (reciprocal altruism), je jedním z možných mechanismů vysvětlujících kooperaci …

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *