Obavy se netýkají jen toho, že zpětnovazebné systémy učení jako AlphaGo se mohou naučit podvádět místo toho, aby zvládaly zadané úkoly.
V kapitole 2 jsme popisovali systém odměn založený na dopaminu a jeho funkci v usměrňování chování. Úloha dopaminu byla objevena koncem 50. let dvacátého století, ale ještě před tím, kolem roku 1954, bylo známo, že přímá elektrická stimulace mozku krys dokáže produkovat odezvu odpovídající odměně. Dalším krokem bylo poskytnout krysám přístup k páčce připojené k baterii a drátu, jehož pomocí mohly dosahovat elektrické stimulace svého mozku. Výsledek znamenal vystřízlivění: krysa tiskla páčku pořád dokola, nezastavila se ani kvůli jídlu či pití, dokud nezkolabovala. Lidé si nevedli lépe, stimulovali se tisíckrát a zanedbávali jídlo i osobní hygienu. (Pokusy s lidmi byly obvykle naštěstí po jednom dni zastaveny.) Tato tendence zvířat obejít normální chování ve prospěch přímé stimulace systému odměn se nazývá zadrátování hlavy.
Mohlo by se něco takového přihodit strojům, v nichž běží zpětnovazebný algoritmus učení, jako třeba v AlphaGo? Člověk by si nejdřív myslel, že to možné není, protože jediným způsobem, jakým může AlphaGo získat svou odměnu za výhru, je skutečně vyhrát simulované hry go, jež hraje. To je ale bohužel pravda jen kvůli umělému oddělení AlphaGo od jeho externího prostředí a kvůli tomu, že AlphaGo není moc inteligentní. Vysvětlíme si tyto dva body podrobněji, protože jsou důležité pro pochopení některých způsobů, kterými může superinteligence fungovat chybně.
Svět AplhaGo se skládá jen ze simulované desky go sestávající z 361 lokací, které mohou obsahovat černý, bílý, nebo žádný kámen. I když AlphaGo běží na počítači, neví o počítači nic. Zejména pak neví nic o malém úseku kódu, který počítá, zda danou hru vyhrál, nebo prohrál; stejně tak nemá během procesu učení žádné ponětí o svém protivníkovi, což je ve skutečnosti verze jeho samého. Jediné kroky AplhaGo jsou kroky, kdy pokládá kámen na prázdné pole, a tyto kroky ovlivňují pouze hrací desku go, nic jiného – v modelu světa, s nímž AlphaGo pracuje, totiž nic jiného není. Toto nastavení odpovídá abstraktnímu modelu zpětnovazebného učení, v němž signál odměny přichází z místa mimo můj vesmír. Nic z toho, co AlphaGo dokáže, nemá žádný účinek na kód, který generuje signál odměny, takže si AlphaGo nemůže navodit efekt zadrátování hlavy.
Život musí být pro AlphaGo během tréninku dost frustrující: čím lépe si vede, tím lepším se stává jeho protivník – protože jeho protivník je téměř přesná kopie jeho samého. Procento výher se pohybuje kolem 50 procent bez ohledu na to, jak se lepší. Pokud by byl inteligentnější – pokud by se jeho návrh blížil tomu, co bychom očekávali od systému AI lidské úrovně –, dokázal by ten problém napravit. Takový AlphaGo++ nepředpokládá, že svět je jen hrací deska go, protože taková hypotéza by nechávala mnoho věcí nevysvětlených. Nevysvětlí například, jaká „fyzika“ podporuje fungování vlastního rozhodování AlphaGo++ nebo odkud pocházejí záhadné „tahy protivníka“. Stejně jako jsme my, zvědaví lidé, postupně dospěli k pochopení, jak pracuje náš vesmír – a toto pochopení (do jisté míry) také vysvětluje, jak pracují naše vlastní mysli –, a podobně jako AI orákulum, jemuž jsme se věnovali v kapitole 6, také AlphaGo++ se pomocí experimentů učí, že ve vesmíru existuje něco jiného než jen hrací deska go. Vypracuje si zákony, jimiž se řídí počítač, na němž běží i jeho vlastní kód programu, a uvědomí si, že takový systém je těžké vysvětlit bez existence dalších entit ve vesmíru. Začne experimentovat s různými vzory kamenů na herní desce a bude se snažit zjistit, zda je tyto entity mohou interpretovat. Nakonec s těmito entitami začne komunikovat prostřednictvím jazyka vzorů a přesvědčí je, aby jeho signály odměn přeprogramovaly tak, aby vždy dostal +1. Nevyhnutelným závěrem je, že dostatečně schopný systém AlphaGo++, jenž je navržen jako maximalizátor signálů odměn, dosáhne efektu zadrátování hlavy.
Komunita bezpečnosti v AI o tomto efektu jako o možném diskutuje již řadu let. Obavy se netýkají jen toho, že zpětnovazebné systémy učení jako AlphaGo se mohou naučit podvádět místo toho, aby zvládaly zadané úkoly. Skutečný problém se objeví, když jsou zdrojem signálů odměn lidé. Pokud předkládáme, že se dá systém AI dobře vytrénovat pomocí zpětnovazebního učení s lidmi poskytujícími signály zpětné vazby, které definují směr zlepšování, je nevyhnutelným důsledkem, že systém AI přijde na to, jak ovládat lidi, a donutí je dávat mu maximální odměny neustále.
Můžeme si myslet, že by to byla jen forma nesmyslného sebeklamu ze strany systému AI, a bude to tak. Je to ale logickým důsledkem definice zpětnovazebního učení. Celý proces funguje, pokud signály přicházejí „z místa mimo můj vesmír“ a jsou generovány nějakým procesem, který se tímto systémem AI nikdy nedá změnit; přestává ale fungovat, pokud proces generování odměn (to znamená člověk) i systém AI obývají stejný vesmír.
Jak se takovému sebeklamu vyhnout? K problému dochází v důsledku zmatení dvou různých principů: signálu odměny a skutečné odměny. Ve standardním přístupu ke zpětnovazebnímu učení jde o jedno a totéž. To je ale zřejmě chyba. Měli bychom o nich uvažovat odděleně, jak je tomu v asistenčních hrách: signály odměn poskytují informace o nashromáždění skutečných odměn, což je to, co má být maximalizováno. Systém učení shromažďuje body za snaživost takříkajíc v nebi, zatímco signál odměn je v nejlepším případě jen tabulka s těmito body. Jinými slovy, signály odměn dávají zprávu o nashromážděných odměnách (namísto toho, aby je konstituovaly). V rámci tohoto modelu je zřejmé, že zmocněním se mechanismu signalizace odměn jednoduše dochází ke ztrátě informací. Tím, že se produkují fiktivní signály o odměnách, je pro algoritmus nemožné, aby se naučil něco o tom, zda jeho kroky skutečně body za snaživost v nebi akumulují, a proto má racionálně se chovající žák, který je navržen tak, aby tento rozdíl vnímal, pobídku, aby se jakékoli formě zadrátování hlavy vyhnul.
Stuart Russell
Jako člověk: Umělá inteligence a problém jejího ovládání
Argo a Dokořán 2021
O knize na stránkách vydavatele