В мире рис, как важная продовольственная культура, играет незаменимую роль в поддержании продовольственной безопасности. Рис является основной культурой в Китае с годовым объемом производства более 2 триллионов тонн. Однако культуре угрожают всевозможные вредители. Так, Продовольственная и сельскохозяйственная организация (ФАО) сообщает, что вредители риса вызывают ежегодные потери от 20% до 40% процентов мирового производства риса.
Разработка эффективных и точных методов и технологий обнаружения вредителей на рисовых полях имеет большое значение для принятия своевременных мер контроля и сокращения потерь от вредителей.
Традиционно это основывалось на ручном осмотре, который отнимает много времени, трудозатрат и часто менее эффективен на больших полях. Появление искусственного интеллекта, в частности нейронных сетей, открыло новые возможности для автоматизации и улучшения этого процесса, позволяя машинам учиться и распознавать закономерности, связанные с вредителями.
Этот технологический сдвиг трансформирует современное сельское хозяйство, переходя к более точной и эффективной борьбе с вредителями. В недавнем исследовании ученые из Научно-исследовательского центра интеллектуальной инженерии сельскохозяйственной информации провинции Хэнань, Университет SIAS, Технологического университета Чэнду и Университета Шихэцзы разработали новый подход к решению проблемы точного обнаружения вредителей риса в поле.
Их работа представляет новую модель под названием Cross-Attention TransU-Net или CATransU-Net, которая направлена на улучшение существующих методов путем объединения сильных сторон двух мощных архитектур глубокого обучения: U-Net и Transformer.
Основная инновация исследования заключается в том, как CATransU-Net обрабатывает изображения для идентификации вредителей. В основе модели лежат концепции, используемые в расширенном анализе изображений. U-Net, тип сверточной нейронной сети, отлично справляется с извлечением подробных локальных признаков из изображений, что делает ее очень хорошей для таких задач, как сегментация изображений, где необходимо выделить определенные объекты.
Однако U-Net иногда может испытывать трудности с пониманием более широкого контекста или «дальнобойных зависимостей» в изображении. Именно здесь вступает в дело архитектура Transformer.
Первоначально разработанные для обработки языка, модели Transformers очень эффективны при фиксации связей между отдаленными частями последовательности, и их применение расширилось до анализа изображений. Например, TransUNet, модель, впервые представленная в 2021 году, продемонстрировала, как интеграция компонентов Transformer в структуру U-Net может значительно улучшить сегментацию медицинских изображений, позволяя модели извлекать глобальный контекст и уточнять области с помощью перекрестного внимания.
CATransU-Net адаптирует и расширяет этот гибридный подход для сельскохозяйственного использования. Он состоит из нескольких ключевых компонентов: кодировщика, декодера, двойного модуля Transformer-attention (DTA) и перекрестного пропуска-соединения внимания (CASC). Часть кодировщика модели включает в себя то, что называется Dilated Residual Inception (DRI). Эта функция позволяет модели извлекать «многомасштабные признаки», то есть она может одновременно анализировать изображение на разных уровнях детализации. Это в принципе похоже на то, как другие передовые системы распознавания изображений, такие как многомасштабная сверточная нейронная сеть, используемая для распознавания видов растений, используют многомасштабный анализ для захвата как мелких деталей, так и более широких закономерностей в сложных изображениях, таких как листья.
Значительным улучшением в CATransU-Net является включение двойного модуля Transformer-attention (DTA) в узкое место модели. Этот модуль специально разработан для эффективного изучения «нелокальных взаимодействий» между признаками, извлеченными кодировщиком. По сути, это помогает модели понять, как различные части изображения соотносятся друг с другом, даже если они находятся далеко друг от друга. Этот механизм внимания, который позволяет модели сосредоточиться на наиболее важных частях изображения, является мощным инструментом, который также используется в других высокопроизводительных системах обнаружения вредителей, таких как модель Convolutional Slice-Attention Based Gated Recurrent Unit (CS-AGRU), которая достигла очень высокой точности сегментации и обнаружения вредителей сельскохозяйственных культур путем извлечения соответствующей информации о признаках.
Кроме того, CATransU-Net заменяет стандартные «пропускные соединения», которые встречаются в традиционных моделях U-Net, на «пропускное соединение перекрестного внимания» (CASC). В U-Net пропускные соединения помогают сохранять мелкие детали, напрямую передавая информацию от кодировщика к декодеру.
Используя перекрестное внимание в этих соединениях, CATransU-Net может более эффективно моделировать «представление признаков с несколькими разрешениями» и улучшать общее представление признаков, что приводит к созданию изображений насекомых с более высоким разрешением. Это позволяет проводить более точную идентификацию.
Экспериментальные результаты модели CATransU-Net, протестированные на крупномасштабных наборах данных, таких как IP102 и AgriPest, демонстрируют ее эффективность в извлечении вредителей риса.
Модель достигла точности 93,51%, что примерно на 2% выше, чем у других сопоставимых методов. Примечательно, что она показала значительное улучшение на 9,36% по сравнению со стандартной моделью U-Net. Это подчеркивает преимущество объединения возможностей извлечения локальных признаков U-Net с глобальным пониманием контекста, предоставляемым компонентами Transformer.
В то время как другие гибридные механизмы глубокого обучения показали еще более высокую точность в определенных сценариях обнаружения вредителей, например, точность 99,52%, достигнутую моделью, объединяющей DenseNet-77 UNet и CS-AGRU, исследование CATransU-Net способствует непрерывному развитию этих технологий, особенно для полевых применений. Текущие исследования и разработки систем обнаружения вредителей на основе нейронных сетей имеют решающее значение для поддержания устойчивого и эффективного сельскохозяйственного производства. Предложенный метод CATransU-Net предлагает надежное решение, которое может быть практически применено в системах обнаружения вредителей на полях риса, способствуя более активным и целенаправленным стратегиям борьбы с вредителями.
Источник: PLOS ONE. Авторы: Сювэй Лу, Юньлун Чжан, Цунци Чжан. Фото принадлежит указанным авторами. doi.org/10.1371/journal.pone.0326893
