(c) Graphicstock

Bible jako skvělý zdroj pro počítačové převody stylů

Na Vánoce téma biblické.

Bible byla přeložena do řady jazyků, takže představuje ideální sadu dat pro učení počítačových překladačů. Ale nejen to. Taktéž lze na jejím základě trénovat systémy pro úkoly subtilnější: převody mezi více formami téhož jazyka. A to jak mezi formami jazyka používanými v různých dobách, tak i mezi různými styly – však existují třeba Bible určené dětem nebo lidem, pro něž angličtina není rodným jazykem.
Systémy pro převody stylů téhož jazyka zatím vývojáře lákaly méně než automatické překladače, výzkumníci z Dartmouth College to ve studii publikované v Royal Society Open Science chtěli napravit.
Výzkum vychází z různých Biblí v angličtině, ale něco podobného by se samozřejmě dalo provádět i v češtině, překladů máme také dost. Důležité je zde i to, že Bible je rozdělena do „veršů“ a takto indexována, vše je očíslováno, text zorganizován a je jasné, co čemu odpovídá. Kdybychom vzali různé verze jiného rozšířeného díla, mohlo by se snadno stát, že by při učení došlo ke zmatkům – vynechané pasáže, spojené/rozdělené odstavce i jiné celky. Bylo by třeba před spárováním texty kontrolovat a pro algoritmy speciálně připravovat.
Styl bývá v rámci automatizovaných systémů definován např. použitou slovní zásobou (moderní vs. archaická, ale zejména formálnější vs. hovorovější), délkou vět, množstvím přímé řeči, šíří slovní zásoby a mírou osobnosti, s níž autor komunikuje se čtenářem.
Pro učení systému (frameworku) neuronových sítí Seq2Seq bylo na Dartmouth College použito 34 verzí Biblí v angličtině. Výsledně si program vytvořil vlastní definice stylů a metod převodů mezi nimi, které může využívat pro libovolné texty. Finálně pak dokázal přepsat Bílou velrybu do formy pro mládež nebo do zjednodušené angličtiny určené těm, kdo nejsou rodilými mluvčími. Nicméně při převodu nemusí jít jen o zjednodušení, knihu by v principu šlo převést třeba i do lehce šroubovaného stylu obchodní korespondence (v našem případě – pokud by se tedy takový styl podařilo vytvořit/extrahovat z různých Biblí).

Evaluating Prose Style Transfer with the Bible, Royal Society Open Science, http://rsos.royalsocietypublishing.org/lookup/doi/10.1098/rsos.171920
Zdroj: Dartmouth College via TechXplore.com

Poznámka: Viz označení Starý i Nový zákon, někdy se označují též jako „smlouvy“. Překlad textů do žargonu právníků?

Antihmota v kosmickém záření znovu otevírá otázku temné hmoty v podobě části WIMP

Částice WIMP (Weakly Interacting Massive Particles) představují jednoho z kandidátů na temnou hmotu. Podle nové …

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *