Umělá inteligence MuZero se učí šachová pravidla – to už je mimo chápání

Pavel Houser 2. 1. 2021 Glosy

Doporučujeme

Umělá inteligence Googlu (respektive technologie vyvíjená dceřinou firmou DeepMind) se již v minulosti stala nejlepším šachovým programem. V další fázi se program AlphaZero naučil šachy (a go) prostě jen tím, že hrál sám se sebou a zdokonaloval se na základě zkušenosti. Dopředu dostal ale stále zadaná pravidla. Nyní MuZero dopředu neznal ani pravidla, i ta musel odvodit. Přiznám se, že se zde už nějak ztrácím. Samozřejmě – to je můj problém.
MuZero představuje obecný přístup, dokáže se naučit stejně dobře pravidla šachů, go i PacMana. Na tom posledním se novinka demonstrovala nejčastěji a tam si lze celkem i představit, že pochopíte, že nelze vrážet do zdí. Zase tolik dalších omezujících pravidle hra prostě nemá. Zde ale zůstaneme u šachů prostě proto, že s nimi mám nějakou větší vlastní zkušenost.
V případě šachů se sice uvádí, že se pár géniů naučilo pravidla prostě tak, že sledovali tatínkovy partie, jenže je otázka, zda pak stejně nebylo třeba nějakého doučení. (Vyskytlo se braní mimochodem? Třikrát opakovaná pozice. Macení střelcem a koněm do 50 tahů?) Nemůžete hrát dobře bez toho, abyste si samotnými pravidly byli jisti. Zde se samozřejmě dostáváme k tomu, že systémy umělé inteligence pro fungování v reálném světě pracují s pravidly (např. fyzikálními zákony), která často přesně neznáme, nelze je zadat dopředu, systém se je doučuje – ale i přes nedokonalou znalost pravidel by měl fungovat.
Vůbec nezpochybňuji, že MuZero může proto znamenat obrovský přínos, jen prostě nerozumím, jak se může stát špičkovým šachistou. Navíc totiž, chápu-li dobře, umělá inteligence MuZero žádné lidské (nebo jakékoliv jiné předem zadané) šachové partie nesledovala, aby si z toho odvozovala pravidla, protože pointou má být právě to, že nedostane dopředu žádnou znalost o systému. Představuji si, že dopředu je jako pravidlo třeba zadáno pouze to, že existují objekty (figurky), pole a tahy (figurka změní pole).
Budeme nejprve systém učit pravidla a až od nějaké fáze, jak hrát dobře? Nebo současně? Pokud ale kvalitu možného tahu posuzujeme nějakou hodnotící funkcí, pak tahy dle pravidel nemožné zde budou muset mít nekonečné hodnoty. V této fázi není možná žádná sofistikovanější optimalizace, nejsou tahy více či méně podle pravidel, ale jen buď-nebo.
A můžete se vůbec učit hrát dobře šachy bez toho, abyste si už byli jisti pravidly? (Navíc nejspíš při hraní s někým, kdo si také není jist pravidly.)
Stavový prostor šachů je příliš velký, než aby ho mohly současné (a nejspíš i budoucí) počítače projít prostě výčtem. Ale to je stále prostor partií hraných podle pravidel. Zde se dostáváme někam úplně mimo – jakkoliv příslušný prostor nemožných partií bude z větvících se stromů odsekáván hned v zárodku.

DeepMind blog

Schrittwieser, J., Antonoglou, I., Hubert, T. et al. Mastering Atari, Go, chess and shogi by planning with a learned model. Nature 588, 604–609 (2020). https://doi.org/10.1038/s41586-020-03051-4
Nature, volně přístupný jen abstrakt
https://www.nature.com/articles/s41586-020-03051-4

Sciencemag.cz

Umělá inteligence MuZero se učí šachová pravidla – to už je mimo chápání

Doporučujeme

Pravlk obrovský možná nevstal z mrtvých, ale stejně je to fascinující

Napsat komentář