9 июля 2025 в 11:43

Новый алгоритм российских ученых уточняет структуру геномов сельхозкультур

ДЗЕН

Исследователи создали математический инструмент для выявления повторяющихся последовательностей ДНК, разбросанных по геномам растений. В отличие от предыдущих методов, этот алгоритм не ищет точные совпадения в ДНК, а анализирует статистические закономерности, то есть находит схожие участки, где могли произойти изменения в результате мутаций. Такой подход позволил выявить в геноме риса почти миллион повторяющихся фрагментов, которые в совокупности занимают более 66% всех последовательностей ДНК. Эта разработка поможет более точно анализировать растительные геномы, что имеет важное значение для сельского хозяйства, так как способствует созданию высокопродуктивных и устойчивых к болезням культур.

Результаты исследования, поддержанного грантом Российского научного фонда (РНФ), были опубликованы в журнале Rice Science.

Геномы растений содержат значительное количество повторяющихся фрагментов ДНК. Эти фрагменты могут находиться как в последовательном порядке, так и быть разбросанными по всему геному. 

Большинство разбросанных повторов — это диспергированные элементы, известные как мобильные генетические элементы или «прыгающие гены», которые способны перемещаться внутри генома, изменять его структуру и оказывать влияние на функционирование других генов. 

Знание о расположении и количестве таких повторов в геноме имеет важное значение для отслеживания эволюции растений, а также для выявления возможных механизмов устойчивости к заболеваниям и неблагоприятным экологическим условиям. 

Тем не менее, до настоящего времени не существовало точных методов для обнаружения диспергированных повторов, которые имеют множество мутаций. Алгоритмы, применяемые учеными, часто не выявляли необходимые участки, и наибольшие трудности возникали в областях с более чем одной мутацией на нуклеотид («букву» в последовательности ДНК).

Ученые из Федерального исследовательского центра «Фундаментальные основы биотехнологии» РАН в Москве разработали подход, который получил название итеративный метод (IP-метод). 

Евгений Коротков, автор статьи. Источник: Евгений Коротков. 

Валентина Руденко, автор статьи. Источник: Евгений Коротков.

В рамках этого метода создаются позиционные весовые матрицы — математические «таблицы», в которых строки представляют различные нуклеотиды, а столбцы — их позиции в последовательности. Первоначальная матрица формируется случайным образом. Если в геноме обнаруживаются участки, схожие с ней, структура матрицы уточняется на основе этих участков. Процесс продолжается до тех пор, пока не будут выявлены все значимые повторы.

Такой метод позволяет выявлять даже значительно измененные (мутировавшие) повторы в геноме, что обеспечивает обнаружение гораздо большего количества повторов по сравнению с аналогичными подходами. 

Авторы подтвердили эффективность этого алгоритма, проведя анализ генома риса (Oryza sativa). Новый инструмент обнаружил 992 739 повторов, относящихся к 79 различным семействам. Это на 56% больше, чем число повторов, найденных широко используемым алгоритмом EDTA (Extensive de-novo TE Annotator). Кроме того, повторы составили 66% всего генома риса, что также превышает предыдущие оценки.

Источник: пресс-служба Российского научного фонда.

На заглавном фото - консенсусная последовательность третьего семейства найденных повторов в геноме риса. По горизонтали показан номер основания в консенсусе, а по вертикали — основания ДНК, которые наиболее часто встречаются в данном семействе повторов. Чем больше размер буквы, обозначающий нуклеотид, тем чаще он встречается в данной позиции. Источник: Valentina Rudenko and Eugene Korotkov, RiceScience, 2025.

МАТЕРИАЛЫ ПО ТЕМЕ