Имея под рукой интернет, создавать инновации легко и приятно

Ученые из Школы электроники и информационной инженерии, Технологический университет Хэбэй, Тяньцзинь, Китай, нашли способ улучшить обучаемость роботов для уборки яблок.

В своей статье, опубликованной на портале Agronomy, авторы - Лин Ву, Джи Ма, Юэхуа Чжао и Хун Лю – рассказывают основные принципы обнаружение яблока в сложной сцене с использованием улучшенной модели YOLOv4.

«Яблоко - один из самых популярных фруктов, входящий в тройку мировых продаж плодовой продукции. По неполной статистике насчитывается более 7500 видов яблок.

Одна из главных проблем яблочной индустрии – ручной труд при уборке урожая, требующий времени и производственных затрат, а рабочие, которым не хватает знаний и опыта, часто совершают ненужные ошибки.

С постоянным развитием точных сельскохозяйственных технологий роботы для сбора фруктов набирают популярность.

В системах комплектации агроботов используются в основном две подсистемы: система технического зрения и система манипулятора.

Система технического зрения обнаруживает и определяет местонахождение фруктов и направляет манипулятор, чтобы отделить плоды от деревьев. Таким образом, надежная и эффективная система технического зрения является ключом к успеху робота-сборщика, но из-за сложного фона в садах трудно добиться желаемого результата.

Плотное перекрытие между листьями мешает обнаружению яблок, что приводит к ложному срабатыванию системы или пропуску плодов.

Следовательно, чтобы модель лучше обучалась функциям, обучающие данные должны содержать более полные сцены.

Однако из-за огромного количества яблок и сложного фона маркировка яблок - очень трудоемкая и энергозатратная задача, в результате чего количество большинства наборов данных колеблется от десятков до тысяч изображений и охватывает одну сцену.

Чтобы преодолеть этот недостаток, мы разработали метод для расширения набора данных, в том числе, зеркальное отображение, кадрирование, яркость, размытие, выпадение, вращение, масштабирование и преобразование.

Мы выбрали яблоко Ред Фуджи (Red Fuji) в качестве экспериментального объекта. Поскольку в интернете имеется большое количество изображений, связанных с яблоками, мы используем язык Python для разработки сканера изображений для загрузки этих изображений партиями, что снижает стоимость сбора данных и повышает эффективность.

Основными источниками изображений в данном случае являются Baidu и Google. Ключевые слова для поиска: Red Fuji Apple, Apple Tree, Apple и т. д.

Во-первых, для обеспечения качества изображения ширина или высота просканированного изображения должна быть не менее 500 пикселей. Во-вторых, после ручного скрининга повторяющиеся, нечеткие и непоследовательные изображения в основном удаляются. Наконец, получается 267 высококачественных изображений, из которых 35 изображений содержат только одно яблоко, 54 изображения с несколькими яблоками без перекрытия и 178 изображений с несколькими перекрывающимися яблоками.

Затем эти 267 изображений расширяются до 2670 изображений с использованием методов увеличения данных.

фото яблок

1. Зеркало. В садах положение и направление яблок различны. Поэтому мы используем горизонтальное зеркальное отображение с 50% вероятностью и вертикальное зеркальное отражение с 50% вероятностью для обработки исходного изображения. Оба могут использоваться по отдельности или в комбинации.

2. Обрезка изображения. У многих яблок, растущих вместе, будут проблемы с перекрытием друг друга. Поэтому мы случайным образом обрезаем 20% краев исходного изображения, чтобы смоделировать эту сцену.

3. Яркость изображения. Сильное или слабое освещение приведет к изменению цвета яблока, что создает огромные помехи для обнаружения. Поэтому, чтобы повысить надежность модели, мы случайным образом умножаем изображение с коэффициентом яркости от 0,5 до 1,5.

4. Размытие изображения. Иногда изображение, захваченное роботом-сборщиком, может быть нечетким или размытым, что также мешает находить плоды. Поэтому мы используем размытие по Гауссу со средним значением 2,0 и стандартным отклонением 8,0 для увеличения набора данных.

5. Выпадение изображения. Яблоки часто сталкиваются с проблемой болезней и насекомых-вредителей, покрываясь многочисленными пятнами. Поэтому мы случайным образом удаляем точки сетки от 0,01 до 0,1 на исходном изображении, и точки сетки заполняются черным цветом.

6. Поворот изображения. Подобно зеркальному методу, поворот предназначен для дальнейшего увеличения углов обзора изображения. Мы используем случайное вращение исходного изображения на угол от -30 ° до 30 ° для увеличения набора данных, а пространство, освобожденное при повороте, заполняется черным цветом.

7. Масштаб изображения. Из-за разного положения яблок в садах при съемке изображений будут присутствовать яблоки разного размера. Поэтому, чтобы смоделировать эту сцену, мы случайным образом умножаем исходное изображение с коэффициентом масштабирования от 0,5 до 1,5.

8. Перевод изображений. Подобно методу кадрирования, перевод предназначен для дальнейшего решения проблемы скопления яблок. Поэтому мы произвольно переводим 20% краев исходного изображения, а пространство после перевода заполняем черным цветом.

9. Увеличение данных листовой иллюстраций. Чтобы обогатить фон и текстуру обучающих изображений, применяется метод увеличения данных листовой иллюстрации, который использует некоторые листовые иллюстрации для случайной вставки на исходное изображение.

Например, вы видите 5 видов иллюстраций яблоневых листьев. Формат иллюстрации - PNG, содержит только сам объект, а фон прозрачный, что помогает защитить исходное изображение после вставки и избежать добавления недопустимого фона.

яблочные листья

яблочные листья наложение

Результаты экспериментов показывают, что модель, обученная традиционными методами увеличения, и техника увеличения иллюстраций в совокупности намного улучшает поиск яблок».

YOLOv4 - это современная модель обнаружения в реальном времени, которая дополнительно улучшена на основе модели YOLOv3. В результате обновленного набора данных средняя точность увеличивается до 44%».

(Источник: www.mdpi.com).