V roce 2009 oznámil tým odborníků z Googlu v jednom z nejvýznamnějších vědeckých časopisů na světě, Nature, pozoruhodný úspěch. Aniž by potřeboval záznam o jediné lékařské prohlídce, podařilo se mu vysledovat šíření chřipky po USA. Navíc to zvládl rychleji než americké Centrum pro kontrolu a prevenci nemocí (CDC), které se o zprávy z ordinací praktiků opíralo. Google ve svém algoritmu vyhledával pravidelnosti v datech CDC z let 2003 až 2008 a objevil korelaci mezi případy chřipky a mezi tím, co lidé z téže oblasti vyhledávali na internetu. Na základě zjištěné souvislosti nyní algoritmus dokázal podle dnešního vyhledávání odhadnout počet dnešních případů chřipky, týden i víc předtím, než vyšly oficiální statistiky CDC.
Služba „Google Flu Trends“ nebyla jen rychlá, přesná a levná, ale obešla se taky kompletně bez teorie. Hypotézu toho, jaké vyhledávané výrazy by mohly s šířením nemoci korelovat, se vývojáři Googlu neobtěžovali formulovat. Můžeme sice odůvodněně tipovat, že slovní spojení typu „příznaky chřipky“ nebo „lékárny v okolí“ by mohla případy chřipky předpovídat líp než třeba vyhledávání „Beyoncé“, lidem z Googlu to však bylo jedno. Prostě jen algoritmu předhodili 50 milionů nejhledanějších výrazů a nechali ho, aby je schroupal.
Úspěch Google Flu Trends se stal symbolem nového žhavého obchodního, technického i vědeckého trendu: „velkých dat“ a „algoritmů“. Slovní spojení „velká data“ může nabývat řady významů, my se však zaměříme na vytěžená data, která jsme rozebírali v minulé kapitole – digitální zplodiny internetových vyhledávání, plateb bankovní kartou a přihlašování mobilů k nejbližšímu vysílači, podpořené třeba ještě úředními daty vzniklými při organizačních procesech institucí.
Algoritmus pak představuje podrobný recept k provedení sledu kroků, ve většině případů znamenající prostě totéž co „počítačový program“. V posledních několika letech se však tento výraz začal spojovat s konkrétním významem: algoritmy dnes představují nástroje k vyhledávání pravidelností ve velkých souborech dat. Služba Google Flu Trends byla postavena na tom, že algoritmy v oněch 50 milionech zadaných výrazů z vyhledávání pátraly po takových, jejichž výskyt se podle všeho časově shodoval s nárůstem případů chřipky podle záznamů CDC.
A právě takové údaje a takové algoritmy bych chtěl v této kapitole probádat. Soubory vytěžených dat můžou být obrovské. Často se taky dají relativně levně sbírat a v reálném čase aktualizovat a mnohdy je v nich s prominutím pěkný bordel – působí jako koláž datových bodů sebraných k vzájemně nesouvisejícím účelům. S tím, jak se naše komunikace, volný čas i obchodní činnost přesouvají na internet a ten se zase stěhuje do našich telefonů, aut, a dokonce i brýlí, se dá život zaznamenávat a kvantifikovat tak, jak by si ještě před pouhou desítkou let sotvakdo uměl představit. Knihovny s podnikatelskou literaturou a stránky manažerských časopisů se nadouvají množstvím knih a článků o příležitostech, které taková data otevírají.
K celkovému vyznění ve stylu „vezměte rozum do hrsti a zbohatněte“ přidávají apoštolové velkých dat tři nadšená tvrzení, která se všechna odrážejí v úspěchu Google Flu Trends. Zaprvé že analýza dat může přinést neskutečně přesné výsledky. Zadruhé že lze zachytit každý jednotlivý datový bod – což je obdoba onoho „N = Všechny“, s nímž jsme se setkali v minulé kapitole –, a staré metody statistického výběru tak bude možné hodit do starého železa (v tomto případě služba Flu Trends zachytila každé jednotlivé vyhledávání). A konečně že tamtéž můžeme přihodit i vědecké modely: není prostě potřeba vyvíjet a ověřovat teorie toho, proč vyhledávání „příznaky chřipky“ nebo „Beyoncé“ může nebo nemusí souviset s šířením chřipky, protože – jak se píše v provokativním článku v časopise Wired z roku 2008 – „při dostatku dat mluví čísla sama za sebe“.
To jsou vpravdě revoluční záležitosti. Jenže čtyři roky po vydání původního článku v časopise Nature zvěstoval web Nature News špatné zprávy: poslední epidemie chřipky si připsala nečekanou oběť, Google Flu Trends. Poté, co několik zim spolehlivě poskytoval rychlý a přesný přehled o tom, kde bude chřipka právě řádit, nyní tento model bez teorie, zato se spoustou dat ohledně dalšího vývoje nemoci šlápl vedle.
Hbitý produkt Googlu naznačoval výrazný nárůst počtu případů, jenže když svým hlemýždím tempem dorazila data od CDC, ukázalo se, že odhady Googlu jsou ohledně šíření chřipkových onemocnění nadhodnocené – v jednu chvíli hlásily více než dvojnásobek skutečného počtu případů. Nedlouho poté byl projekt Google Flu Trends zastaven.
Co se pokazilo? Jádro problému zčásti vězelo v onom třetím nadšeném výroku: Google nevěděl – a ani nemohl začít vědět –, co vyhledávané pojmy s šířením chřipky spojuje. Jeho vývojáři se nesnažili přijít na to, co je příčinou čeho. Hledali čistě jen statistické pravidelnosti v datech, k čemuž ostatně takové algoritmy běžně slouží. Je pravda, že výzkumníci z Googlu do nalezených souvztažností přece jen nakoukli a objevili některé nepravé korelace, jejichž sledování mohli algoritmu klidně zakázat – případy chřipky například korelovaly s vyhledáváním slovního spojení „vysokoškolský basketbal“. Na tom není nic tajemného – v polovině listopadu se rozjíždí jak chřipka, tak právě vysokoškolské basketbalové soutěže. Znamenalo to však, že Flu Trends byl zčásti detektor chřipky, ale zčásti taky detektor zimy. Potíž nastala, když v roce 2009 vypukla letní chřipková epidemie – Google Flu Trends dychtivě pátral po známkách zimy, které nenalézal, a tak mu mimosezónní nárůst onemocnění unikl tak výrazně, že skutečný počet případů představoval čtyřnásobek jeho odhadů.
Problém „detektoru zimy“ se při analýze velkých dat objevuje běžně. Další zimní příklad, který uvádí informatik Sameer Singh, představuje algoritmus k vyhledávání pravidelností, jenž se učil z mnoha fotek vlků v divočině a z mnoha vyobrazení domácích psů husky. Zpočátku se zdálo, že mu rozlišování mezi oběma dosti podobnými druhy psovitých šelem opravdu jde, jenže pak vyšlo najevo, že jako vlka označuje jednoduše zvířata na všech fotkách se sněhem. Příklad se závažnějšími dopady pak popisuje Janelle Shaneová v knize You Look Like a Thing and I Love You: algoritmu byly předloženy fotografie zdravé kůže a kůže postižené rakovinou. I tento algoritmus si našel pravidlo: pokud je na fotce zachycené pravítko, jde o rakovinu. Když nevíme, proč algoritmus dělá to, co dělá, vydáváme svůj život všanc detektoru pravítek.
Přijít na to, co je příčinou čeho, je těžké, a podle některých nemožné. Dovtípit se, co s čím koreluje, je mnohem levnější a snazší. A podle některých milovníků velkých dat – k nimž patří třeba Chris Anderson, autor onoho provokativního článku v časopise Wired – nemá smysl nic jiného než korelace zkoumat. „Nejdřív data zpracujte matematicky a kontext v nich hledejte až pak,“ popsal své přesvědčení, že čísla mluví sama za sebe. Bez obalu by se jeho názor dal shrnout slovy: „Když počty vyhledávání vysokoškolského basketbalu rostou pokaždé ve stejnou dobu jako případy chřipky, je úplně jedno, proč se tak děje.“
Jenže ono to není jedno, protože analýza bez teorie, založená výlučně na korelacích, je hrozně křehká. Když netušíte, co korelaci způsobuje, netušíte taky, kvůli čemu se tatáž korelace může rozpadnout.
tento text je úryvkem z knihy
Tim Harford: Jak číst čísla. Deset pravidel pro orientaci ve statistikách
Argo a Dokořán 2022
O knize na stránkách vydavatele
priznam se, ze povazuji naopak pristup „nema smysl zkoumat nic jineho nez korelace“ za velmi chytry…