Na MIT přišli se systémem strojového učení, který se dokáže naučit rozpoznávat souvislost mezi obrázkem a jeho popisem. Dopředu přitom nedisponuje žádnou informací.
Je to jen kuriozita, nebo by takový přístup mohl mít praktický význam? Vždyť systémy pro porozumění jazyku již máme, totéž platí pro rozpoznávání obrazu. Podle autorů výzkumu má jejich nasazení umělé inteligence výhodu v tom, že nevyžaduje na začátku žádný speciální lidský vstup, tj. např. ruční anotaci obrázků. Vstupní data jsou prostě vizuální informace a k tomu hlas/text, který lidé v souvislosti s obrázkem používají. Systém se pak čistě na principu pokus/omyl naučil asociovat několik stovek obrázků a v souvislosti s nimi nejčastěji se vyskytujících slov. Navíc do systému lze mohou jednoduše vstupovat nová slova; naopak systémy typu Siri, které se něco naučí až na základě obrovského množství předzpracovaných vstupů, mají problémy, když narazí na nová slova či jejich spojení/kontexty.
Nový model si vytváří různé abstraktní vrstvy, dokáže na obrázku rozlišit dívku, její oči, její vlasy, jejich barvu, dům v pozadí… Byl vytrénován na obrázcích z řady typických situací – ulice, nákupní centra, byty, pláže… Výstup funguje tak, že na zadaný proud řeči přiřazuje jednotlivým slovům (časovým okamžikům) pixely v obrázku, tj. rozlišuje části obrázku i jednotlivá sdělení, neomezuje se na přiřazování scén jako celku (to by pak těžko mohl správně přiřazovat nové scény obsahující neznámé kombinace známých objektů).
Podle autorů by tímto způsobem mohly vznikat on-line překlady pro dosud nespárované jazyky, když např. ve více jazycích bude k dispozici stejný popis jednoho obrázku.
Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input. arxiv.org/abs/1804.01452
Zdroj: TechXplore.com
Poznámka PH: Úplně srozumitelné to subjektivně bohužel není a zrovna příklad využití pro překladače se zdá být dost klopotný. (Buď jde o ručně vytvářené anotace, nebo naopak spontánně pronesené věty, pak ale těžko získat slova neznámého jazyka…? Nebo by se dokonce mohl používat „překlad“ sdělení do grafické informace, jakýchsi piktogramů?)