(c) Graphicstock

Umělá inteligence MuZero se učí šachová pravidla – to už je mimo chápání

Umělá inteligence Googlu (respektive technologie vyvíjená dceřinou firmou DeepMind) se již v minulosti stala nejlepším šachovým programem. V další fázi se program AlphaZero naučil šachy (a go) prostě jen tím, že hrál sám se sebou a zdokonaloval se na základě zkušenosti. Dopředu dostal ale stále zadaná pravidla. Nyní MuZero dopředu neznal ani pravidla, i ta musel odvodit. Přiznám se, že se zde už nějak ztrácím. Samozřejmě – to je můj problém.
MuZero představuje obecný přístup, dokáže se naučit stejně dobře pravidla šachů, go i PacMana. Na tom posledním se novinka demonstrovala nejčastěji a tam si lze celkem i představit, že pochopíte, že nelze vrážet do zdí. Zase tolik dalších omezujících pravidle hra prostě nemá. Zde ale zůstaneme u šachů prostě proto, že s nimi mám nějakou větší vlastní zkušenost.
V případě šachů se sice uvádí, že se pár géniů naučilo pravidla prostě tak, že sledovali tatínkovy partie, jenže je otázka, zda pak stejně nebylo třeba nějakého doučení. (Vyskytlo se braní mimochodem? Třikrát opakovaná pozice. Macení střelcem a koněm do 50 tahů?) Nemůžete hrát dobře bez toho, abyste si samotnými pravidly byli jisti. Zde se samozřejmě dostáváme k tomu, že systémy umělé inteligence pro fungování v reálném světě pracují s pravidly (např. fyzikálními zákony), která často přesně neznáme, nelze je zadat dopředu, systém se je doučuje – ale i přes nedokonalou znalost pravidel by měl fungovat.
Vůbec nezpochybňuji, že MuZero může proto znamenat obrovský přínos, jen prostě nerozumím, jak se může stát špičkovým šachistou. Navíc totiž, chápu-li dobře, umělá inteligence MuZero žádné lidské (nebo jakékoliv jiné předem zadané) šachové partie nesledovala, aby si z toho odvozovala pravidla, protože pointou má být právě to, že nedostane dopředu žádnou znalost o systému. Představuji si, že dopředu je jako pravidlo třeba zadáno pouze to, že existují objekty (figurky), pole a tahy (figurka změní pole).
Budeme nejprve systém učit pravidla a až od nějaké fáze, jak hrát dobře? Nebo současně? Pokud ale kvalitu možného tahu posuzujeme nějakou hodnotící funkcí, pak tahy dle pravidel nemožné zde budou muset mít nekonečné hodnoty. V této fázi není možná žádná sofistikovanější optimalizace, nejsou tahy více či méně podle pravidel, ale jen buď-nebo.
A můžete se vůbec učit hrát dobře šachy bez toho, abyste si už byli jisti pravidly? (Navíc nejspíš při hraní s někým, kdo si také není jist pravidly.)
Stavový prostor šachů je příliš velký, než aby ho mohly současné (a nejspíš i budoucí) počítače projít prostě výčtem. Ale to je stále prostor partií hraných podle pravidel. Zde se dostáváme někam úplně mimo – jakkoliv příslušný prostor nemožných partií bude z větvících se stromů odsekáván hned v zárodku.

DeepMind blog

Schrittwieser, J., Antonoglou, I., Hubert, T. et al. Mastering Atari, Go, chess and shogi by planning with a learned model. Nature 588, 604–609 (2020). https://doi.org/10.1038/s41586-020-03051-4
Nature, volně přístupný jen abstrakt
https://www.nature.com/articles/s41586-020-03051-4

Po záporné teplotě i záporná pravděpodobnost?

V kvantové fyzice se pracuje s pravděpodobnostmi, amplitudami pravděpodobností apod. Je to často divné, ale …

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Používáme soubory cookies pro přizpůsobení obsahu webu a sledování návštěvnosti. Data o používání webu sdílíme s našimi partnery pro cílení reklamy a analýzu návštěvnosti. Více informací

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close