Foto: © palau83 / Dollar Photo Club

Nový model umělé inteligence odhaluje skrytý jazyk DNA

Podobně jako se modely GPT učí lidské jazyky, GROVER se v podstatě naučil mluvit DNA. Ukazuje se, že funkce, včetně některých epigenetických informací, je také zakódována v /samotné/ sekvenci.

DNA představuje médium, které dokáže udržovat informace potřebné pro pozemský život. Takový výrok ale moc neznamená, na to je příliš obecný. Příslušné informace jsou v DNA nějak uspořádány, strukturovány. Samo o sobě moc neznamená ani to, že DNA prohlásíme za jazyk/text.
Nicméně máme-li dnes k dispozici velké jazykové modely (LLM) umělé inteligence, které rozhodně dokázaly otřást světem, přímo se nabízí zkusit je nějak „naučit jazyku DNA“. A právě o to se nyní vědci z Technické univerzity v Drážďanech pokusili prostřednictvím nového velkého jazykového modelu GROVER, založeném na strojovém učení na lidské DNA.

Dále viz tisková zpráva (přeloženo/zkráceno)
Model zachází s lidskou DNA jako s textem, učí se jeho pravidla a kontext, aby z něj mohl vyvodit funkční informace o sekvencích DNA. Tento nový nástroj má mít potenciál změnit genomiku a urychlit vývoj personalizované medicíny.
„DNA má mnoho dalších funkcí než jen kódování proteinů. Některé sekvence regulují geny, jiné slouží strukturním účelům, většina sekvencí plní více funkcí najednou. V současné době významu většiny DNA nerozumíme. Pokud jde o pochopení nekódujících oblastí DNA, zdá se, že se pohybujeme stále na povrchu. Právě zde mohou pomoci umělá inteligence a velké jazykové modely,“ uvádí spoluautorka studie Anna Poetsch.
„GROVER se naučil pravidla DNA. Pokud jde o jazyk, mluvíme o gramatice, syntaxi a sémantice. V případě DNA to znamená naučit se pravidla, kterými se řídí sekvence, pořadí nukleotidů a sekvencí a význam sekvencí. Podobně jako se modely GPT učí lidské jazyky, GROVER se v podstatě naučil mluvit DNA,“ vysvětluje Melissa Sanabria, výzkumnice stojící za projektem.
GROVER dokáže nejen přesně předpovídat následující sekvence DNA, ale lze jej použít i k získání kontextových informací, které mají biologický význam, např. k identifikaci genových promotorů nebo vazebných míst pro proteiny na DNA. GROVER se také učí procesy, které jsou obecně považovány za epigenetické, tj. regulační procesy, které se odehrávají nad DNA, místo aby byly /přímo/ zakódovány.

A nyní možná klíčové zjištění.
Trénováním programu GROVER pouze na sekvenci DNA, bez jakýchkoli „anotací“ funkcí umožnilo získat informace o biologické funkci. Ukazuje to, že funkce, včetně některých epigenetických informací, je také zakódována v /samotné/ sekvenci.

Dále dle původní tiskové zprávy:
DNA se podobá jazyku. Má čtyři písmena, ze kterých se skládají sekvence, a tyto sekvence mají svůj význam. Na rozdíl od jazyka však DNA nemá definovaná slova. DNA se skládá ze čtyř písmen (A, T, G a C) a genů, ale neexistují žádné předem definované sekvence různých délek, které se spojují a vytvářejí geny nebo jiné smysluplné sekvence.
Aby mohl tým GROVER trénovat, musel nejprve vytvořit slovník DNA. Použili k tomu trik z kompresních algoritmů. „Tento krok je klíčový a odlišuje náš model jazyka DNA od předchozích pokusů,“ říká A. Poetsch.
„Analyzovali jsme celý genom a hledali kombinace písmen, které se vyskytují nejčastěji. Začali jsme se dvěma písmeny a procházeli jsme DNA, znovu a znovu, abychom se dopracovali k nejčastějším vícepísmenným kombinacím. Tímto způsobem jsme zhruba v 600 cyklech rozčlenili DNA do ‚slov‘, která umožnila programu GROVER podat nejlepší výkon, pokud jde o předpovídání další sekvence,“ vysvětluje M. Sanabria.
GROVER slibuje odemknout různé vrstvy genetického kódu. Věříme, že pochopení pravidel DNA pomocí jazykového modelu nám pomůže odhalit hloubku biologického významu ukrytého v DNA, což posune genomiku i personalizovanou medicínu, uzavírá tisková zpráva.

Melissa Sanabria et al, DNA language model GROVER learns sequence context in the human genome, Nature Machine Intelligence (2024). DOI: 10.1038/s42256-024-00872-0
Zdroj: Dresden University of Technology / TechXplore.com

Poznámky PH:
Takto přístup k příslušné problematice má podle mě velké perspektivy (lze analogicky zkusit u jiných druhů, srovnávat výsledky, odvozovat odtud historii evoluce i využít poznatky při oživování vyhynulých druhů podle DNA…); navíc ukazuje, že na epigenetice asi nebude nic esoterického, jak se to mnohdy vykládá.
Čemu by v DNA mohla odpovídat slova? Například proteinům, pak by slovo začínalo start kodónem a končilo stop kodónem. Nebo to je spíš věta? Ovšem ať tak či tak, tím se řeší pouze kódující sekvence. Ve výzkumu výše je zajímavé, že určit, co jsou slova, necháme na samotném modelu.

Exotická fyzika neutronových hvězd: jaderné těstoviny a odkapávání protonů

Neutronové hvězdy jsou extrémní objekty, do jejichž nitra nevidíme. S poloměrem kolem 12 kilometrů mohou …

3 comments

  1. Pavel Nedbal

    Toto je opravdu pokus o velký zlom s nedozírnými možnostmi. Další techická revoluce dle mne už nebude, máme dobře zmapované tři interakce – jedině, kdybychom ještě zlomili/přišli na kloub té čtvrté – gravitaci.
    Bude biologická revoluce.

  2. cekal bych, ze pojedou po trojicich, trna ma antikodon se tremi pismenky. ovaem je fakt, ze nejake pismenko se muze ignorovat, pripadne se to ruzne shiftovat.

    zajimave by to bylo propojit i s tanulkou syntetizovanych aminokyselin. a vyssimi strukturami co zname: geneticke nemoci, fenotyp (barva vladu, kuze, oci) atd.

    prvni genetickou mutaci co bych potreboval jsou vymenitelne zraloci zuby, ktere funguji jako nehty.

  3. Petr Tuláček

    Nemyslím že by ta „slova“ měla nějaký specifický význam. Neuronové sítě jsou různých druhů, a jedním z nich je sequence model, v případě zpracování jazyka language model. Takový model zpracovává sekvence na vstupu a generuje je na výstupu. V podstatě dostane sekvenci (třeba otázku), a snaží se odhadnout, jaký bude další prvek sekvence (další písmeno odpovědi). Jenže se nepracuje s piemeny, ale s tokeny, které reprezentují typicky (ale ne vždy) sekvenci více písmen. Řekněme „an“, „en“, „eme“, „la“, „q“ apod. Ty tokeny jsou vybrané statisticky tak, aby se text (resp. velký vzorek textu) popsal co nejkratší sekvencí tokenů, protože je to úspornější. V případě projektu ze článku prostě jen obdobně vybrali krátké sekvence DNA, které umožňují ji popsat pomocí co nejkratší sekvence tokenů. Ovšem popsat to do tiskové zprávy pro laiky asi není jednoduché, takže z toho vzniklo co vzniklo :/.
    Ještě o vztahu ke kompresi dat (bezeztrátové). Ta funguje tím způsobem, že se ve vstupních datech identifikují opakující se kusy, a vyberou se zástupné znaky (tokeny) tak, aby se vstupní data převedla na nejkratší sekvenci tokenů. Jde tedy o obdobný princip.

    K ostatnim aspektům projektu se vyjadřovat nechci, protože to není moje parketa.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *