Исследователи создали математический инструмент для выявления повторяющихся последовательностей ДНК, разбросанных по геномам растений. В отличие от предыдущих методов, этот алгоритм не ищет точные совпадения в ДНК, а анализирует статистические закономерности, то есть находит схожие участки, где могли произойти изменения в результате мутаций. Такой подход позволил выявить в геноме риса почти миллион повторяющихся фрагментов, которые в совокупности занимают более 66% всех последовательностей ДНК. Эта разработка поможет более точно анализировать растительные геномы, что имеет важное значение для сельского хозяйства, так как способствует созданию высокопродуктивных и устойчивых к болезням культур.
Результаты исследования, поддержанного грантом Российского научного фонда (РНФ), были опубликованы в журнале Rice Science.
Геномы растений содержат значительное количество повторяющихся фрагментов ДНК. Эти фрагменты могут находиться как в последовательном порядке, так и быть разбросанными по всему геному.
Большинство разбросанных повторов — это диспергированные элементы, известные как мобильные генетические элементы или «прыгающие гены», которые способны перемещаться внутри генома, изменять его структуру и оказывать влияние на функционирование других генов.
Знание о расположении и количестве таких повторов в геноме имеет важное значение для отслеживания эволюции растений, а также для выявления возможных механизмов устойчивости к заболеваниям и неблагоприятным экологическим условиям.
Тем не менее, до настоящего времени не существовало точных методов для обнаружения диспергированных повторов, которые имеют множество мутаций. Алгоритмы, применяемые учеными, часто не выявляли необходимые участки, и наибольшие трудности возникали в областях с более чем одной мутацией на нуклеотид («букву» в последовательности ДНК).
Ученые из Федерального исследовательского центра «Фундаментальные основы биотехнологии» РАН в Москве разработали подход, который получил название итеративный метод (IP-метод).
Евгений Коротков, автор статьи. Источник: Евгений Коротков.
Валентина Руденко, автор статьи. Источник: Евгений Коротков.
В рамках этого метода создаются позиционные весовые матрицы — математические «таблицы», в которых строки представляют различные нуклеотиды, а столбцы — их позиции в последовательности. Первоначальная матрица формируется случайным образом. Если в геноме обнаруживаются участки, схожие с ней, структура матрицы уточняется на основе этих участков. Процесс продолжается до тех пор, пока не будут выявлены все значимые повторы.
Такой метод позволяет выявлять даже значительно измененные (мутировавшие) повторы в геноме, что обеспечивает обнаружение гораздо большего количества повторов по сравнению с аналогичными подходами.
Авторы подтвердили эффективность этого алгоритма, проведя анализ генома риса (Oryza sativa). Новый инструмент обнаружил 992 739 повторов, относящихся к 79 различным семействам. Это на 56% больше, чем число повторов, найденных широко используемым алгоритмом EDTA (Extensive de-novo TE Annotator). Кроме того, повторы составили 66% всего генома риса, что также превышает предыдущие оценки.
Источник: пресс-служба Российского научного фонда.
На заглавном фото - консенсусная последовательность третьего семейства найденных повторов в геноме риса. По горизонтали показан номер основания в консенсусе, а по вертикали — основания ДНК, которые наиболее часто встречаются в данном семействе повторов. Чем больше размер буквы, обозначающий нуклеотид, тем чаще он встречается в данной позиции. Источник: Valentina Rudenko and Eugene Korotkov, RiceScience, 2025.