Genomické oblasti, které kódují malé molekuly RNA, vykazují charakteristické vzorce v jejich sekvenci, sekundární struktuře a evoluční konzervaci.
Tým bioinformatiků z vědecko-výzkumného centra CEITEC Masarykovy univerzity, vedený Panagiotisem Alexiou, nedávno vytvořil nový analytický nástroj pro biomedicínský výzkum s názvem MuStARD. Nástroj využívá moderních metod strojového učení, a to konkrétně populární konvoluční neuronové sítě, používané například v aplikacích rozpoznávání textu nebo v samořiditelných automobilech. Vytvořený program je schopen prohledat ohromné množství genomických oblastí a identifikovat oblasti vykazující podobné strukturní charakteristiky. Tento jedinečný bioinformatický nástroj tak dokáže například identifikovat části DNA produkující malé molekuly RNA s výjimečnou přesností, a to i v oblastech s nevyváženým a variabilním pozadí. Síťová architektura a učící algoritmus, včetně volně přístupného kódu a již naučených modelů, byl zveřejněn v červnu 2020 ve vědeckém časopise Nature Scientific Reports.
Genomické oblasti, které kódují malé molekuly RNA, vykazují charakteristické vzorce v jejich sekvenci, sekundární struktuře a evoluční konzervaci. Vědci vymysleli nový způsob, jak tyto konkrétní lokality, které jsou zodpovědné za výrobu molekul malých RNA (jako jsou mikroRNA), na genomu vyhledat. Je známo několik typů malých RNA vytvářených v buňkách, ale ne všechny podruhy jsou identifikovány. Například jen v posledních několika letech byly objeveny tisíce nových lidských mikroRNA, což naznačuje existenci mnoha doposud neznámých sekvencí produkujících malé RNA v genomu. Přitom víme, že malé RNA hrají důležitou roli v regulaci a vývoji mnoha onemocnění.
Dva hlavní autoři této studie, brněnští bioinformatici řeckého původu, Georgios Georgakilas a Panagiotis Alexiou, dokázali efektivně naučit stroje učit se z dříve identifikovaných příkladů konkrétních míst a skenovat velké plochy s extrémní přesností a najít tak více podobných míst v genomu. Hlavní výhodou nástroje MuStARD je schopnost identifikovat funkční prvky napříč různými druhy, což rozšiřuje jeho potencionální uplatnění na identifikaci důležitých funkčních prvků i v dosud neanotovaných genech.
„Při vývoji našeho strojového učení jsme použili metodu využívající iterativní výběr pozadí a jak naše výsledky potvrdily, dokázali jsme zlepšit přesnost našeho modelu nad rámec toho, co bylo možné dříve,“ vysvětlil Georgios Georgakilas, první autor studie. Konvoluční neuronová síť, je technika strojového učení, která přebírá sekvence dat, v tomto případě genomické sekvence, struktury a evoluční konzervaci a staví je do řady vrstev, které vytvářejí stále abstraktnější reprezentaci dat. „Přímým výsledkem je vývoj obecné metody identifikace genomických lokalit obsahujících malé RNA na základě příkladu v rámci stejného druhu, ale aplikovatelné i napříč druhy. Tato funkce může být velmi užitečná pro genomické anotace nově sekvenovaných genomů. Jakmile je genom sekvenován, musí být určena funkce a význam jednotlivých genů. A přesně k tomu je náš MuStARD vyškolen,“ dodal Panagiotis Alexiou, vedoucí bioinformatické skupiny a korespondenční autor této studie.