Грибы — микроскопические архитекторы наших экосистем, выполняющие самые разные функции: от патогенных до полезных партнеров для растений и агрессивных разлагателей, перерабатывающих мертвую древесину или стерню. Однако многие грибы не ограничиваются одной задачей: они могут менять образ жизни в зависимости от окружающей среды. Понимание этой гибкости имеет решающее значение для прогнозирования того, как леса и сельхозугодья будут реагировать на изменение климата, а также для поиска наилучших грибных биопартнеров сельского хозяйства и управления патогенными возбудителями болезней.
За последние десятилетия было сделано много открытий в отношении грибов, и они продолжаются с публикациями научных статей. Но ученым, занятым в этой области, не хватает времени, чтобы вручную просмотреть весь массив данных.
Новое исследование, проведенное аспиранткой Университета Северной Аризоны (Northern Arizona University, NAU) Беатрис М. Бок, демонстрирует, как искусственный интеллект может решить эту проблему. Используя специализированную языковую модель BioBERT, Бок разработала автоматизированный рабочий процесс, который оценивает научные аннотации и точно определяет, имеет ли гриб один образ жизни или двойной, приспосабливающийся. Результаты исследования опубликованы в журнале Research Ideas and Outcomes.
Бок отметила, что на протяжении многих лет микологи полагались на ручные базы данных для отслеживания того, как различные грибы ведут себя в окружающей среде. Хотя эти инструменты необходимы, их трудно поддерживать в актуальном состоянии, поскольку новые исследования публикуются каждый день.
«Ручное определение многофункциональности грибов по данным литературы — трудоемкий и сложный в масштабировании процесс. Благодаря машинному обучению мы теперь можем сканировать тысячи статей всего за несколько минут, чтобы отметить виды, которые могут менять свои функции — например, гриб, который обычно помогает растению расти, но также превращается в разлагателя, когда растение отмирает», — говорит Бок.
В ходе пилотного исследования были протестированы четыре различные модели ИИ, чтобы определить, какая из них лучше всего понимает нюансы биологического языка. Модель BioBERT, показавшая лучшие результаты, достигла почти 90% точности в определении образа жизни грибов.
Чем BioBERT отличался от других моделей? Во-первых, она обладает возможностью распознавания заглавных букв. Бок обнаружила, что модели, распознающие заглавные буквы, показали значительно лучшие результаты, чем те, которые этого не делали. Вероятно, это связано с тем, что заглавные буквы часто указывают на научные названия видов, например, Fusarium, которые имеют решающее значение для понимания ИИ контекста исследования.
Бок заявила, что, стремясь к прозрачности, она разместила весь код и данные в свободном доступе в интернете, что позволяет другим ученым развивать ее работу и отслеживать характеристики других организмов, таких как насекомые или растения.
Хотя исследование Бок было сосредоточено на небольшой группе статей в качестве подтверждения концепции, оно открывает двери для гораздо более масштабных проектов. Будущие версии инструмента смогут предсказывать, как поведение гриба может измениться в конкретных условиях окружающей среды, таких как засуха или экстремальная жара.
«Поскольку базы данных характеристик грибов приобретают все большее значение для оценки биоразнообразия, автоматизированный анализ текста открывает путь к более эффективной, последовательной и всесторонней аннотации характеристик», — заключила Бок.
Источник: Northern Arizona University.
На заглавном фото вы видите изображение под световым микроскопом конидий микроскопического гриба Aspergillus oryzae, также известного как «плесень кодзи» для ферментации пищевых продуктов. Источник: Yulianna.x / Wikimedia / CC BY-SA 4.0