Dnešní digitální technologie umožňují získat o sportovních utkáních obrovské množství informací. Zdaleka nejde jen o samotný výsledek. Zůstaneme-li u her typu fotbalu a hokeje, pak vedle gólů třeba zjistíme, kdo po většinu času držel míč, na jaké polovině se převážně hrálo, kolik střel směřovalo na bránu, jaký měly „koeficient“ (pravděpodobnost, že z daného místa padne gól, třeba přepočtená hodně daleko do minulosti) atd.
Zajímavé ale je, že máme-li odhadnout výsledek utkání (ať už v průběhu nebo před začátkem), pak nám tyto detailní informace nejsou k úspěšnému tipu příliš platné. Stále platí, že výsledek zápasu nejlépe předpovíme na základě současného stavu, respektive na základě výsledků minulých zápasů obou družstev.
Alespoň Laurence Shaw na The Conversation uvádí, jak složitější modely (namísto gólů např. zahrnout do výpočtu kvality týmu „očekávané góly“) nedávají lepší výsledky (předpovědi). Je to paradoxní, protože zohledníme-li pouze výsledky minulých zápasů plus třeba úpravu za domácí hřiště, pak se dobrovolně vzdáme spousty informací. Vycházíme vlastně z „dat 19. století“. A přesto takto jednoduchý model funguje alespoň prozatím lépe. Možná proto, že data jsou opravdu relevantní (hraje se na góly, na na šance nebo držení míče). L. Shaw dále uvádí, že další výhodou je dostupnost dat ve velkém množství (složitější kritéria by třeba nebyla k dispozici pro všechny zápasy). Zde lze ale namítnout, že stejně nevíme, kolik dat je ideální zahrnout (záleží na tom, jak hrála Sparta před 2 lety, když se mezitím měnily sestavy a forma, třeba i dost podstatně?), takže nejlepší výsledky může dávat nejen jednoduchý model, ale navíc založený i na omezených datech jen z nedávné minulosti. Samozřejmě ale závěry udělané z méně dat jsou méně spolehlivé… (čím bychom se dostali k tomu, co se ve statistice označuje jako bias-variance trade-off).
„Již v roce 1968 byla provedena statistická studie, která nedokázala najít žádnou souvislost mezi střelami, držením míče nebo přihrávkami a výsledky fotbalových zápasů,“ uvádí původní článek. To je možná přehnané, ale pouhý počet gólů zřejmě poskytne předpovědi lepší. A to dokonce i přesto, že gólů ve fotbale padá málo, výsledky jsou relativně těsné. Skutečně nelze ze zápasu „užitečně vytěžit“ nic jiného než třeba skóre 2:1?
Samozřejmě jiná věc je, že diváci se dalšími informacemi budou nadšeně zaobírat, jistě se je pokusí nějak využívat i trenéři. Dodavatelé analytického softwaru a nástrojů data science se zákazníky jistě snaží přesvědčit, že podrobná analýza má svůj smysl. (A samozřejmě snaha o nalezení lepší strategie/taktiky je zase jiná kategorie úlohy než předpovídání výsledku.)
Závěr zní, že prozatím žádný jiný model nedokázal předpovídat výsledky lépe než analýza založená na gólech (25 let starý Dixon-Colesův model). Změní se to v blízké budoucnosti s tím, jak bude k dispozici ještě více a více dat a další techniky jejich zpracování? (Poznámka: pochopitelně další věc je, mnoho takových modelů nejisté hodnoty si jejich autoři střeží jako klíčové know-how.)
Zdroj: Laurence Shaw: A brief history of statistics in soccer: Why actual goals remain king in predicting who will win, The Conversation/Phys.org
Poznámka: A co jiné sporty. Tenis? Šachy? Budou zde lepší předpovědi dávat složitější modely než ty založené čistě na výsledcích? (Třeba v individuálních sportech má cenu zahrnovat nejen celkové výsledky – ty jsou už i zahrnuty v žebříčcích typu ATP, ELO apod., ale speciálně i minulé výsledky hráčů přímo proti sobě? Atd.)