🔹

Новый метод был разработан исследователями из Национальной лаборатории Ок-Ридж Министерства энергетики США и подробно описан в статье, представленной на Международной конференции по высокопроизводительным вычислениям, сетям, хранению данных и анализу (SC25), состоявшейся в ноябре 2025 года.

Этот метод является ключевым шагом в разработке базовой модели искусственного интеллекта, использующей данные из Лаборатории передового фенотипирования растений (Advanced Plant Phenotyping Laboratory, APPL) и работающей на суперкомпьютере Frontier, первом в мире суперкомпьютере экзамасштабного уровня, расположенном в лаборатории Ок-Ридж (ORNL). Исследование поддерживает проекты, соответствующие миссии Genesis, смелой новой инициативе Министерства энергетики США по созданию самой мощной в мире научной платформы для ускорения научных открытий, укрепления национальной безопасности и стимулирования инноваций в энергетике.

Базовые модели — это крупные системы искусственного интеллекта, обученные на огромных массивах данных для прогнозирования в различных областях. В данном случае они помогают ускорить разработку устойчивых биоэнергетических и продовольственных культур, используя данные, полученные в ходе роботизированного обследования новых сортов растений в APPL.

Новый метод, распределенная кросс-канальная иерархическая агрегация (D-CHAG), ускоряет анализ огромных объемов данных, генерируемых по мере автоматического перемещения растений через разнообразные станции визуализации APPL. Гиперспектральные камеры APPL круглосуточно собирают данные о состоянии растений, их химическом составе и структуре, обеспечивая раннее выявление болезней и стресса, а также связывая гены с желаемыми признаками. В результате получается биотехнологическая возможность мирового класса, которая может ускорить создание устойчивых, высокоурожайных культур для новых видов топлива и материалов, а также для решения проблемы продовольственной безопасности страны.

Сложность обработки данных заключается в природе гиперспектральных изображений. В то время как традиционные камеры используют три цветовых канала — красный, зеленый и синий — для захвата изображения, гиперспектральные камеры захватывают сотни каналов. Каждый канал представляет собой определенную длину волны света, которая может предоставить важные данные о том, как растения реагируют на окружающую среду, как они метаболизируют питательные вещества или как стресс и болезни влияют на их жизнедеятельность. Стандартные методы обработки гиперспектральных изображений, как известно, сложны, часто пытаясь обработать все каналы одновременно, что требует значительного объема компьютерной памяти и времени.

D-CHAG использует двухэтапный процесс для решения этой задачи. На первом этапе работа по разбиению изображений на небольшие фрагменты для анализа распределяется между множеством графических процессоров (GPU) с помощью метода, называемого распределенной токенизацией. Каждый GPU обрабатывает только подмножество каналов. Благодаря распределению работы ни один процессор не перегружается, и данные обрабатываются гораздо быстрее.

Далее, эти меньшие группы объединяются поэтапно, а не все сразу, на этапе, называемом иерархической агрегацией, который объединяет информацию из разных спектральных областей. Такой подход уменьшает объем обрабатываемых данных на каждом этапе, что в конечном итоге приводит к снижению требований к памяти и ускорению вычислений. Такой уровень эффективности означает, что более крупные базовые модели могут быть обучены на гиперспектральных наборах данных без ущерба для их пространственного или спектрального разрешения, что позволяет выявлять тонкие, но значимые закономерности в физиологии растений.

Обучение моделей искусственного интеллекта следующего поколения

«Этот проект продемонстрировал решение проблемы "узкого места", которая может возникнуть при наличии очень большого количества параметров, таких как гиперспектральные данные, и необходимости масштабирования до базовых моделей. С помощью D-CHAG нам удалось добиться значительного повышения производительности без ущерба для точности», — сказал Аристидис Царис, научный сотрудник Национального центра вычислительных наук в ORNL. 

Успешная демонстрация D-CHAG была проведена с использованием гиперспектральных данных APPL, а также набора данных о погоде на суперкомпьютере Frontier exascale в вычислительном центре Oak Ridge Leadership Computing Facility, являющемся пользовательским центром Управления науки Министерства энергетики США в ORNL.

К числу ключевых достижений относятся:

  • Сокращение использования памяти до 75% по сравнению со стандартными методами базовых моделей. Это означает, что обучение, которое раньше требовало множества высокопроизводительных компьютеров, теперь может проводиться с меньшими ресурсами.
  • Более чем вдвое увеличилась скорость обработки. Более быстрая обработка означает, что ученые могут анализировать большие массивы данных гораздо быстрее, чем раньше.

«D-CHAG помогает ученым-растениеводам быстро решать такие задачи, как измерение фотосинтетической активности растений непосредственно по изображению, заменяя трудоемкие и длительные ручные измерения. Одним из следующих шагов проекта является усовершенствование модели для прогнозирования эффективности фотосинтеза растений непосредственно по этим изображениям. Мы готовимся к будущему, в котором гиперспектральная визуализация станет более распространенной, а вычислительные мощности для ее обработки будут более широко доступны», — сказал Ларри Йорк, старший научный сотрудник группы молекулярной и клеточной визуализации ORNL. 

«Гиперспектральная визуализация — это метод, который подает большие надежды в исследованиях по трансформации растений. Однако вычислительная сложность является узким местом, которое препятствует обучению сложных нейронных сетей для извлечения значимой биологической информации из этих изображений. Эта работа — большой шаг к снижению этой сложности и устранению узкого места», — сказал Джон Лагергрен, научный сотрудник отдела исследований и разработок в группе системной биологии растений в ORNL. 

Получение более быстрых результатов в больших масштабах

APPL и предоставляемые ею аналитические данные, полученные с помощью искусственного интеллекта, обладают огромным потенциалом для развития новых сортов сельскохозяйственных культур и совершенствования сельскохозяйственной практики. Благодаря значительному снижению затрат на обработку гиперспектральных изображений исследователи теперь могут получать аналитические данные быстрее и в больших масштабах.

Передовые возможности APPL в области фенотипирования и базовая модель ИИ также играют ключевую роль в двух проектах, поддерживаемых Министерством энергетики США. Оба проекта являются частью миссии DOE Genesis в ORNL, объединяющей ИИ с наукой в ​​предметной области для быстрого предоставления решений национальных приоритетов.

OPAL (Orchestled Platform for Autonomous Laboratories) — это многолабораторная инициатива, объединяющая искусственный интеллект, робототехнику и автоматизированные эксперименты для создания сети лабораторий, способных обучаться, адаптироваться и ускорять открытия. OPAL интегрирует работу ORNL и трех сотрудничающих национальных лабораторий Министерства энергетики США — Аргоннской, Лоуренс-Беркли и Тихоокеанской северо-западной — чтобы превратить биологические открытия в самоуправляемый процесс.

Проект «Generative Pretrained Transformer for Genomic Photosynthesis» опирается на успешный опыт создания моделей на базе фонда APPL для моделирования высокоточных генетических модификаций растений с целью ускорения разработки энергетических культур с улучшенным фотосинтезом и продуктивностью.

В будущем, когда камеры, подобные тем, что используются в APPL, будут устанавливаться на дроны и развертываться на сельскохозяйственных угодьях, фермеры смогут использовать эту технологию для мониторинга урожая в режиме реального времени, выявляя такие проблемы, как нехватка воды, дефицит питательных веществ или нашествие вредителей, прежде чем они станут серьезными.

Для селекционеров растений фенотипирование с помощью ИИ позволяет исследователям более эффективно отбирать растения с желаемыми характеристиками. Эти знания можно использовать для разработки новых сортов сельскохозяйственных культур, которые растут быстрее, более эффективно используют воду или дают более высокие урожаи. Этот высокоэффективный метод анализа данных также может привести к открытию растительных соединений, полезных для медицины или биоинженерии.

Интеграция гиперспектральной съемки из лаборатории APPL с возможностями суперкомпьютеров, таких как Frontier, представляет собой значительный шаг вперед в исследованиях по трансформации растений и технологиях искусственного интеллекта. Такой подход способствует инновациям для создания устойчивой биоэкономики, которая вносит вклад в энергетическую безопасность страны и экономический рост.

Источник: Oak Ridge National Laboratory. Автор: Стефани Сиэй. 

На фото: гиперспектральная съемка в лаборатории передового фенотипирования растений ORNL позволяет получать данные о биохимическом составе растений за пределами видимого света, что дает огромные объемы информации, используемой для обучения базовой модели искусственного интеллекта. Источник: ORNL, Министерство энергетики США.

Оригинал статьи на AgroXXI.ru