Vezměme množinu textů v jednom jazyce a přidejme slovníky jiných jazyků. Úkolem je zjistit, která slova v textech jsou cizí a odkud byla převzata. Současným systémům umělé inteligence to moc nejde.
Pokud by AI zvládala výpůjčky identifikovat spolehlivě (což bychom ověřili na případech, kde jsme si sami jisti), určitě by nám to rozšířilo obzory. V některých případech stále existují různé teorie a mnohdy nás prostě to, že by se mohlo jednat o převzaté slovo, vůbec nenapadlo. Sledovat takhle cesty slov je zajímavé samo o sobě, ale také to ukazuje na širší souvislosti ovlivňování a historie různých národů/kultur. Přebírána mohou být mimochodem i celkem základní slova.
Jak převzatá slova detekují lingvisté? Někdy to člověka (respektive člověka příslušné odbornosti/znalostí) samozřejmě napadne na první pohled, jindy ale prostě vychází z toho, že dané slovo do jazyka jakoby nepatří (aniž by rovnou připomínalo výraz jiném jazyce). Divně zní, obsahuje netypická písmena, slabiky (fonémy/zvuky, uvádí tisková zpráva) nebo netypickým způsobem poskládaná. To ovšem platí spíš pro výpůjčky nedávné, u těch starších může být převzaté slovo různě přizpůsobeno novému jazyku. Postup odhalování výpůjček je do značné míry intuitivní, i když formalizovat a tím i automatizovat se určitě nějak dá.
Výzkumníci z Pontificia Universidad Católica del Perú a Max Planck Institute při své analýze každopádně zjistili, že pro současné modely strojového učení je rozpoznávání převzatých slov zatím docela obtížné a nedávají uspokojivé výsledky. Slušněji to fungovalo pouze tam, kde byl podíl výpůjček vysoký a navíc pocházely téměř všechny z jediného cizího jazyka. Pokrok v této oblasti bude nejspíš přímo úměrný úsilí, které do řešení problému bude někomu stát za to investovat…
PLOS ONE (2020). DOI: 10.1371/journal.pone.0242709
Zdroj: Max Planck Society / TechXplore.com
Výdaje na umělou inteligenci se zdvojnásobí už za necelé 4 roky