AlphaZero: Obrovský triumf umělé inteligence v šachách

Pavel Houser 7. 12. 2017 Glosy, Nepřehlédněte

Doporučujeme

Samotná dominance šachových programů již nikoho nepřekvapí. Ten nejlepší se ale hru dokázal sám naučit.

Šachový program Alpha Zero přesvědčivě porazil dosavadního mistra světa, program StockFish. Co je na této zprávě tak významného?
AlphaZero, algoritmus vyvinutý firmami Google a DeepMind, není totiž žádným specializovaným šachovým programem. Jde o obecný algoritmus umělé inteligence, který jako zadání dostal pouze pravidla a herní sílu si vybudoval sám – tím, že hrál proti sobě a odvozoval obecné vzory na základě výsledků. K obrovské herní síle se prý dopracoval za pouhé 4 hodiny samoučení. Šachisté i tvůrci dosavadních šachových programů nešetří obdivem.
Nejlepší šachové programy dosud hrály metodou hrubé síly, šlo o jednoúčelové systémy, víceméně založené na dvou algoritmech a řadě doplňkových optimalizací, které používají metodu hrubé síly. Naopak umělá inteligence se pro vývoj šachových motorů nepovažovala za příliš praktickou (také zde na rozdíl od Go nebyla taková motivace, když na nejlepší lidské hráče i hrubá síla už zhruba 13 let stačí).
Zase tak překvapivý úspěch umělé inteligence v šachách ale není. Google totiž nejprve přišel s programem pro Go AlphaGo, který porážel nejlepší lidské hráče, pak ale sám sebe překonal. Další, ještě silnější verze AlphaGoZero také získala svou sílu pouze tím, že hrála sama se sebou. A i když hlavním cílem týmu bylo Go, jeden ze zakladatelů DeepMind Demis Hassabis je sám bývalý šachista, takže zájem se nepřekvapivě upřel i tímto směrem. Stejný algoritmus se dá v principu použít na veškeré hry tohoto typu, kromě šachů už triumfoval také v šogi („japonské šachy“).
AlphaZero porazil StockFish v zápasu na 100 partií 28:0 při 72 remízách, bez porážky. Pro šachisty může být zajímavé, že bílými vyhrál 25 partií z 50, černými pouze 3 partie. Ne že by kvůli tomu mělo platit, že v základní pozici stojí bílý na výhru (stále předpokládáme, že černý musí udělat nějakou chybu), nicméně se ukazuje, že i na tak vysoké úrovni je výhoda bílých kamenů docela velká.
Po nadřazenosti člověka nad strojem v šachách padla další zdánlivě výhradně lidská dovednost – schopnost alespoň vyvinout nejsilnější program; zde už se v jistém ohledu vyvinul sám a bez člověka se obešel. Další zajímavost: Dosud i nejlepší šachové programy byly stále slabší než stejný program hrající v tandemu se špičkovým velmistrem (= člověk měl stále „co nabídnout“). Platilo by ještě vůbec u AlphaZero?
Trochu technických podrobností. Samoučení probíhalo pomocí algoritmu Monte Carlo, program měl ovšem během učení přístup k impozantnímu hardwaru založeného na vlastních procesorech Googlu (TPU – tensor processing unit); celkem šlo o 5 000 TPU první generace pro generování partií a 64 TPU druhé generace pro učení neuronových sítí. Algoritmus při samotné hře pak fungoval na jediném stroji se 4 TPU.
Neuronová síť je ale spíše chytrá než rychlá: StockFish dokáže za sekundu projít 70 milionů pozic, AlphaZero pouze 80 tisíc. Jeho přístup se více blíží lidskému, kdy se soustředí jen na nějaké varianty stromečku (samozřejmě jakési optimalizace v tomto ohledu provádějí i programy na bázi hrubé síly). Čím větší čas dostaly oba programy na přemýšlení, tím byla neuronová síť relativně silnější než StockFish se svými základními algoritmy Minimax a Alphabeta.
AlphaZero by nejspíš navíc mohl využít i některé triky implementované do dalších šachových programů a tím ještě posílit. Cílem Googlu/DeepMind byla ovšem v tuto chvíli především demonstrace, že to jde samo, dokonce i bez programátorů šachových strojů. Z hlediska šachistů je úžasné, že AlphaZero nedostal ani žádnou databázi zahájení, ale sám došel k řadě moderních zahájení – vývoj šachové teorie v posledních 150 letech tedy opravdu „dával smysl“. AlphaZero hraje francouzskou, španělskou (včetně dnes oblíbené berlínské obrany), sicilskou, dámský gambit… Přitom s růstem herní síly AlphaZero od určitých zahájení, např. francouzské nebo Caro-Kannu, ale zase upouštěl. Data/publikované partie jsou prostě zlatým dolem.
Další osud programu je nejasný. Vzpomeňte třeba, že Deep Blue byl po triumfu nad Kasparovem v roce 1997 přímo rozebrán. Uvolní tvůrci svůj program, nebo ho zkusí šachistům prodávat (nadšencům, ale pro špičkové velmistry by mohlo jít i o rozumnou ekonomickou investici)? Co lidští programátoři šachových algoritmů a stávající programy, kde bude jejich místo? Ukáže se třeba, že AlphaZero přece jen vyžaduje jiný než běžně dostupný hardware?

Zdroj: Chess24.com a další

One comment

pavel houser
8. 12. 2017 at 11:07

dodatek: někteří kritici tvrdí, že zase taková senzace to není, respektive „zmirnuji senzacnost“. kolika hodinam casu na beznem pocitaci odpovidaly 4 hodiny na specialnim stroji s TPU? na jakem hardwaru pak hral AlphaZero? (take pry programy nemely databaze zahajeni, coz jasne zvyhodnovalo AlphaZero, u nehoz se to predpokladalo predem a on si ji vyvinul sam)

Sciencemag.cz

AlphaZero: Obrovský triumf umělé inteligence v šachách

Doporučujeme

EuroHPC JU vyhlásilo tendr na dodavatele kvantového počítače konsorcia LUMI-Q

One comment

Napsat komentář