Velké jazykové modely pod lupou: v testu z kognitivní psychologie si vedl nejlépe GPT-4

Pavel Houser 12. 6. 2024 Články, Nepřehlédněte

Doporučujeme

Umělá inteligence tentokrát příliš nepřesvědčila, není ani moc racionální. Studie vědců University College London testovala nejpokročilejší velké jazykové modely (LLM) pomocí testů kognitivní psychologie, aby zjistila jejich schopnost uvažování. V nedávné minulosti byla zaznamenána řada případů, kdy umělá inteligence halucinuje, reaguje nekonzistentně nebo se třeba i dopustí chyby při jednoduchém sčítání.

V této studii výzkumníci z UCL systematicky analyzovali, zda je sedm LLM schopno racionálního uvažování. Definicí racionálního agenta (lidského nebo umělého), kterou autoři přijali, je, zda uvažuje podle pravidel logiky a pravděpodobnosti. Iracionální agent je takový, který se těmito pravidly neřídí.
LLM dostaly baterii testů obsahující i známé problémy (Wason, Linda, Monty Hall; Wason jsou karty vs. sociální úloha, „feministka Linda“ odpovídá omezujícím podmínkám/statistice, Monty Hall to známé otevírání 1 ze 3 krabic atd.). Schopnost lidí řešit tyto úlohy je nízká; v nedávných studiích správně vyřešilo Lindin problém pouze 14 % účastníků a Wasonovu úlohu 16 %.
Modely vykazovaly v mnoha svých odpovědích iracionalitu, například při desetkrát položené stejné otázce poskytovaly různé odpovědi. Byly náchylné k jednoduchým chybám, včetně základních chyb při sčítání a záměně souhlásek za samohlásky, což je vedlo k poskytování nesprávných odpovědí. Například správné odpovědi na Wasonův test se pohybovaly od 90 % u GPT-4 po 0 % u GPT-3,5 a Google Bard. Lama 2 70b, která odpověděla správně v 10 % případů, zaměnila písmeno K za samohlásku, a proto odpověděla nesprávně. Většina lidí by sice také ve Wasonově testu selhala, ale sotva proto, že by nevěděli, co je samohláska.
Olivia Macmillan-Scott, první autorka studie z UCL Computer Science, uvedla: „Na základě výsledků naší studie a dalších výzkumů velkých jazykových modelů lze s jistotou říci, že tyto modely zatím ‚nemyslí‘ jako lidé. Nicméně model s největším souborem dat, GPT-4, si vedl mnohem lépe než ostatní modely, což naznačuje, že se rychle zlepšují.“
Některé modely odmítly na úlohy odpovědět z etických důvodů, přestože otázky byly nevinné. Je to důsledek ochranných parametrů, které nefungují tak, jak mají.
Výzkumníci také poskytli k úlohám další kontext, který prokazatelně zlepšuje odpovědi lidí. U testovaných LLM se však žádné konzistentní zlepšení neprojevilo.
V této souvislosti samozřejmě vzniká otázka – chceme (respektive nakolik chceme), aby modely uvažovaly stejně jako lidé? Vlastně jim tím vnutíme i své vlastní chyby, omezení…
The models tested were GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b and Llama 2 70b.

Olivia Macmillan-Scott and Mirco Musolesi. (Ir)rationality and cognitive biases in large language models, Royal Society Open Science (2024). DOI: 10.1098/rsos.240255. royalsocietypublishing.org/doi/10.1098/rsos.240255
Zdroj: University College London / TechXplore.com

Poznámka PH: Tady je třeba říct, že zrovna ty 3 uvedené úlohy jsou hodně specifické, někdy jde vlastně o chytáky, trochu i o paradoxy…

Sciencemag.cz

Velké jazykové modely pod lupou: v testu z kognitivní psychologie si vedl nejlépe GPT-4

Doporučujeme

Nejstarší potvrzená černá díra ve vesmíru – už krátce po velkém třesku má hmotnost 300 milionů Sluncí

Napsat komentář