Foto: kentoh / Dollar Photo Club

Překladač z Matfyzu dohání v kvalitě běžné překladatele

Automatický překladač sice nepatrně pokulhával za lidskými překladateli v hodnocení plynulosti, byl ale v průměru o něco přesnější, pokud jde o obsahovou správnost překladu.

Prestižní vědecký časopis Nature Communications publikoval studii realizovanou na Matematicko-fyzikální fakultě Univerzity Karlovy, která představila anglicko-český překladač CUBBITT založený na neuronových sítích, jenž při překladu novinových zpráv dosahuje kvality srovnatelné s výstupem profesionálních překladatelů. V zaslepeném testu byly automatické překlady hodnotiteli označeny jako v průměru o něco méně plynulé, ale obsahově mírně přesnější než překlady lidské.

Jednou z nejpopulárnějších aplikací metod umělé inteligence (AI) v oblasti zpracování přirozeného jazyka je automatický překlad z jednoho jazyka do jiného. Donedávna se předpokládalo, že pro kvalitní překlad je nutné velmi důkladné porozumění obsahu překládaného textu a že automatizovaný překlad kvalitou srovnatelný s výsledkem lidského překladatele tedy ještě dlouho nebude na dohled. V automatizovaném překladu, stejně jako v jiných oblastech AI, nastala ale díky pokroku v tzv. hlubokém učení v posledních letech doslova změna paradigmatu, která tuto dosavadní představu mění.

Jako významný úspěch se jeví výsledek experimentu, který byl pro překladový směr angličtina-čeština realizovaný na Matematicko-fyzikální fakultě Univerzity Karlovy ve spolupráci s vědci z Univerzity v Oxfordu (oba též absolventi MFF UK) a z týmu Google Brain. Autoři natrénovali neuronovou síť na česko-anglickém paralelním korpusu, což je kolekce autentických anglických textů a jejich protějšků přeložených do češtiny o celkové velikosti 58 milionů párů vět.

Výsledný překladač nazvaný CUBBITT autoři použili k přeložení vzorku anglických novinových textů. Tentýž vzorek byl nezávisle přeložen profesionálními překladateli z překladové agentury. Kvalita výsledných automatických i ručních překladů byla následně hodnocena 15 rodilými mluvčími češtiny, kteří měli posoudit přesnost a plynulost překladu. Hodnocení bylo slepé, tj. hodnotitelé neměli informaci o tom, kdo věty překládal.

„Výsledek srovnání můžeme považovat za průlomový. Automatický překladač sice nepatrně pokulhával za lidskými překladateli v hodnocení plynulosti, byl ale v průměru o něco přesnější, pokud jde o obsahovou správnost překladu. Naměřený výsledek byl statisticky signifikantní,“ uvedl hlavní autor studie Mgr. Martin Popel, Ph.D. z MFF UK. Podobné pozorování autoři učinili již v roce 2018, ovšem tehdy byly hodnoceny jen izolované věty (bez kontextu celého článku).

Jedna z nových myšlenek, díky které překladač dosáhl výrazného zlepšení oproti předchozím verzím, spočívala ve způsobu, jakým byla překladači při trénování střídavě předkládána autentická a syntetická paralelní data (páry českých vět a jejich automatických překladů do angličtiny). Velikost existujících autentických dat, tj. lidmi vytvořených anglicko-českých překladů, je z principu omezená a roste relativně pomalu. Proto se k nim přimíchávají ještě syntetická paralelní data, kde pro existující autentické texty v češtině byly jejich anglické protějšky vygenerovány automatickým překladem v opačném směru (tzv. backtranslation; nižší kvalita na straně vstupního jazyka, zde angličtiny, totiž při trénování překladače vadí méně). Velmi překvapivé experimentální pozorování spočívalo v tom, že je výhodnější neuronové síti překládat autentická a syntetická data nikoli rovnoměrně promísená, ale ve specificky vyváženém rytmu střídajících se autentických a syntetických bloků. Prvotní impuls pro zkoumání tohoto směru vznikl vlastně náhodou, když mísení zůstalo omylem vypnuté a tato „chyba“‎ způsobila okamžitý růst úspěšnosti překladače.

Autoři studie upozorňují, že i přes představený pokrok se situace zatím výrazně liší od jiných oblastí, kde se AI v posledních letech úspěšně utkává s člověkem. Zatímco například v šachu dnes AI poráží víceméně rutinně i nejlepší hráče světa, zde šlo o „soutěž“ s běžnými (byť profesionálními) překladateli, kteří v danou chvíli ani nevěděli, že „soutěží“. Měření navíc proběhlo pouze na specifickém žánru novinových textů a výsledky rozhodně nelze zobecňovat na překladatelskou práci jako celek.

tisková zpráva Univerzity Karlovy

Podrobnosti: CUBBITT: Automatický překladač, který už opravdu nahradí překladatele

Výdaje na umělou inteligenci se zdvojnásobí už za necelé 4 roky

Kráva není problém, je součástí klimatické změny

Producenti potravin živočišného původu, respektive chovatelé hospodářských zvířat, jsou poslední dobou neoprávněně označování za jednoho …

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Používáme soubory cookies pro přizpůsobení obsahu webu a sledování návštěvnosti. Data o používání webu sdílíme s našimi partnery pro cílení reklamy a analýzu návštěvnosti. Více informací

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close