Umělá inteligence tentokrát příliš nepřesvědčila, není ani moc racionální. Studie vědců University College London testovala nejpokročilejší velké jazykové modely (LLM) pomocí testů kognitivní psychologie, aby zjistila jejich schopnost uvažování. V nedávné minulosti byla zaznamenána řada případů, kdy umělá inteligence halucinuje, reaguje nekonzistentně nebo se třeba i dopustí chyby při jednoduchém sčítání.
V této studii výzkumníci z UCL systematicky analyzovali, zda je sedm LLM schopno racionálního uvažování. Definicí racionálního agenta (lidského nebo umělého), kterou autoři přijali, je, zda uvažuje podle pravidel logiky a pravděpodobnosti. Iracionální agent je takový, který se těmito pravidly neřídí.
LLM dostaly baterii testů obsahující i známé problémy (Wason, Linda, Monty Hall; Wason jsou karty vs. sociální úloha, „feministka Linda“ odpovídá omezujícím podmínkám/statistice, Monty Hall to známé otevírání 1 ze 3 krabic atd.). Schopnost lidí řešit tyto úlohy je nízká; v nedávných studiích správně vyřešilo Lindin problém pouze 14 % účastníků a Wasonovu úlohu 16 %.
Modely vykazovaly v mnoha svých odpovědích iracionalitu, například při desetkrát položené stejné otázce poskytovaly různé odpovědi. Byly náchylné k jednoduchým chybám, včetně základních chyb při sčítání a záměně souhlásek za samohlásky, což je vedlo k poskytování nesprávných odpovědí. Například správné odpovědi na Wasonův test se pohybovaly od 90 % u GPT-4 po 0 % u GPT-3,5 a Google Bard. Lama 2 70b, která odpověděla správně v 10 % případů, zaměnila písmeno K za samohlásku, a proto odpověděla nesprávně. Většina lidí by sice také ve Wasonově testu selhala, ale sotva proto, že by nevěděli, co je samohláska.
Olivia Macmillan-Scott, první autorka studie z UCL Computer Science, uvedla: „Na základě výsledků naší studie a dalších výzkumů velkých jazykových modelů lze s jistotou říci, že tyto modely zatím ‚nemyslí‘ jako lidé. Nicméně model s největším souborem dat, GPT-4, si vedl mnohem lépe než ostatní modely, což naznačuje, že se rychle zlepšují.“
Některé modely odmítly na úlohy odpovědět z etických důvodů, přestože otázky byly nevinné. Je to důsledek ochranných parametrů, které nefungují tak, jak mají.
Výzkumníci také poskytli k úlohám další kontext, který prokazatelně zlepšuje odpovědi lidí. U testovaných LLM se však žádné konzistentní zlepšení neprojevilo.
V této souvislosti samozřejmě vzniká otázka – chceme (respektive nakolik chceme), aby modely uvažovaly stejně jako lidé? Vlastně jim tím vnutíme i své vlastní chyby, omezení…
The models tested were GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b and Llama 2 70b.
Olivia Macmillan-Scott and Mirco Musolesi. (Ir)rationality and cognitive biases in large language models, Royal Society Open Science (2024). DOI: 10.1098/rsos.240255. royalsocietypublishing.org/doi/10.1098/rsos.240255
Zdroj: University College London / TechXplore.com
Poznámka PH: Tady je třeba říct, že zrovna ty 3 uvedené úlohy jsou hodně specifické, někdy jde vlastně o chytáky, trochu i o paradoxy…