Jedna z úloh v benchmarku ARC-AGI: stačí 3 příklady na odvození pravidla? Credit: ARC Prize

Umělá inteligence o3 dosáhla 85 % v testu obecné inteligence ARC-AGI, má jít o další významný pokrok

Nový systém o3 společnosti OpenAI v testu ARC-AGI získal 85 %, což je mnohem více než předchozí nejlepší výsledek umělé inteligence (55 %). Stejně úspěšní jsou a v průměru lidé. Dobře si model vedl také ve velmi obtížném matematickém testu.
Význam tohoto výsledku nejlépe pochopíme, když se podíváme na to, co vlastně ARC-AGI měří. Jde o test schopnosti se učit, adaptovat se na něco nového – kolik příkladů nové situace musí systém (nebo člověk/lidský mozek, samozřejmě) vidět, aby zjistil, jak vše funguje.
Podívejte se na obrázek – dokážete z kombinace několika vstupů a výstupů správně odvodit obecné pravidlo a tedy přiřadit neznámému vstupu správný výstup? (I další úlohy textu mají takto mřížkovou podobu, je zde tedy i viditelná podobnost s jednou variantou testů IQ.)
Schopnost zobecňovat je základem inteligence. Systémy umělé inteligence, jako je ChatGPT (GPT-4), nepracovaly v úlohách zobecňování dosud zrovna efektivně. Byly prostě „vycvičeny“ na milionech příkladů lidského textu a vytvořily si „pravidla“ o tom, které kombinace slov jsou nejpravděpodobnější. Výsledek je v běžných úlohách docela dobrý, 3 vzory v ARC-AGI jsou ale pro tento přístup málo. Prostě neobvyklé úlohy chatbotům zatím moc nejdou. Fascinaci dokázaly vzbudit rozhodně i bez toho, takže vlastně tlak na větší efektivitu učení ani zatím nenastával.
Dokud se ale systémy umělé inteligence nebudou schopny učit už z malého počtu příkladů (ale samozřejmě se dále přizpůsobovat, bude-li vstupních dat dost), budou se používat pouze pro velmi se opakující úlohy nebo v případech, kdy občasné selhání zase tolik nevadí.
Výsledky naznačují, že nový model o3 je vysoce přizpůsobivý – a v tomto ohledu – chytrý. Jenže kdoví. Nevíme totiž, jak přesně společnost OpenAI svých zlepšení dosáhla.
Jak dále rozbírá komentář na The Conversation: Abychom zjistili vzor, neměli bychom vytvářet zbytečné předpoklady, být „konkrétnější“, než je skutečně nutné. Právě pokud dokážete určit „nejslabší“ pravidla, která dělají to, co chcete, pak jste maximalizovali svou schopnost přizpůsobit se novým situacím. (poznámka PH: je v tom i analogie s Occamovou břitvou.) V naší úloze je to tedy nějak jako „Jakýkoli tvar s vyčnívající čarou se posune na konec této čáry a ‚zakryje‘ všechny ostatní tvary, s nimiž se překrývá“.
Autoři komentáře nepokládají za pravděpodobné, že by model o3 byl speciálně optimalizován na nacházení co „nejslabších“ pravidel. Společnost OpenAI začala s univerzální verzí modelu o3 a poté jej natrénovala speciálně pro test ARC-AGI. Možná tedy o3 prohledává různé „myšlenkové řetězce“ popisující kroky k vyřešení úlohy. Poté vybere ten „nejlepší“ podle nějakého volně definovaného pravidla nebo „heuristiky“. To by se nelišilo od toho, jak systém AlphaGo od Googlu prohledává různé možné sekvence tahů a některé tahy vyhodnotí jako silnější.
Kdyby to tak ale bylo i u o3, stále by nešlo o až tak chytrou umělou inteligenci. Základ model o3 (stále jde o LLM, učí se z lidského jazyka) by nemusel být o moc lepší než konkurence ani něž starší verze věcí od OpenAI a šlo by jen o to, že byl dobře připraven, doučen pro konkrétní test.
O modelu o3 toho ovšem zatím mnoho nevíme. Společnost OpenAI se zatím omezila na několik prezentací a počáteční testování pro hrstku výzkumníků, laboratoří a institucí zabývajících se bezpečností AI. Musíme si počkat, až bude model uvolněn a projde podrobnější testy.

Zdroj: Michael Timothy Bennett, Elija Perrier: An AI system has reached human level on a test for ‚general intelligence’—here’s what that means
The Conversation / TechXplore.com

Štěněčí oči mají i kojoti

Nový výzkum texaské Baylor University odhalil, že kojoti, stejně jako domácí psi, mají schopnost vytvářet …

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *