Принципы создания датасета для систем компьютерного зрения в ритейле
время публикации: 10:00 19 октября 2020 года
Датасет – это данные, которые необходимы для обучения нейронных сетей. Разметка изображений – неотъемлемая часть разработки систем искусственного интеллекта и одна из основных задач в технологии компьютерного зрения. Как собрать и разметить фотоизображения товаров для успешной реализации проектов цифрового мерчендайзинга?
Юлия Порохненко, аналитик данных Beltel DatanomicsСегодня готового универсального датасета для цифрового мерчандайзинга не существует, поэтому перед ритейлерами встаёт вопрос: выполнить разметку на стороне поставщика решения или собрать данные самому. Наличие собственного размеченного датасета кроме экономии бюджета позволяет свободно выбирать исполнителя: с датасетом можно устраивать хакатоны, тендеры и определить лучшие модели распознавания или готовые продукты.
Этапы подготовки датасета
Сбор фотографий
Основные требования к фотографиям:
● фотографии должны быть хорошего качества, сделанные при достаточном освещении;
● снимать полку необходимо фронтально, захватывая как можно большую площадь, по возможности объекты на полке не должны быть обрезаны;
● чем больше фотографий будет приходиться на каждый SKU, тем лучше;
● минимальное количество фотографий – 200 изображений на один SKU.
Разметка фотографий
Разметка данных – самый трудоемкий этап в разработке решений в области компьютерного зрения. На этом шаге каждому объекту на изображении ставится в соответствие метка, обозначающая SKU, к которому и принадлежит этот объект. Аннотированные изображения нужны в качестве входных данных для обучения нейронных сетей.
Существует ряд готовых решений для разметки фотографий: ImageTagger, LabelImg, Lionbridge AI, TrainingData.io, Hive, Scale, Supervise.ly. Некоторые из них, например, ImageTagger и LabelImg, бесплатные, руководства по их установке и использованию можно найти на GitHub. Стоимость использования платных сервисов зависит от количества фотографий, SKU и аннотаций. Подробную информацию можно узнать на официальных сайтах.
Прежде чем приступить к разметке, данные необходимо структурировать. Фотографии можно распределить согласно заданной логике, например, каждая планограмма будет размещаться в свою папку. Так будет проще ориентироваться в данных и искать изображения.
Читайте также: От ручного труда к автоматизации: как нейронные сети помогают контролировать наличие товаров на полках
Необходимо составить список меток. Для этого можно использовать справочник актуальных SKU, которые есть в магазине, или товаров определенного поставщика.
Название меток должно быть однозначно интерпретируемым, то есть соответствовать только одному SKU. Если метка называется, например, «газированная вода в бутылке», то невозможно наверняка определить, о каком именно артикуле идёт речь.
После того, как список сформирован, можно приступать к разметке фотографии: выделение объекта на фотографии в рамку. Это может быть прямоугольник, полигон, параллелепипед. Стороны рамки должны плотно прилегать к границам объекта.
На этапе разметки фотографий стоит учитывать, что эту задачу могут выполнять несколько сотрудников, у каждого из которых своё представление о правильности аннотирования, поэтому рекомендуем выпустить инструкцию, в которой будут однозначно регламентированы правила.
Результат разметки – это набор данных, который содержит информацию о названии фотографии, её размерах, метки и координаты границ всех объектов.
Заключение
На рынке существует много сервисов для аннотации изображений, в том числе бесплатных. Кроме того, некоторые компании, занимающиеся разработкой продуктов в области компьютерного зрения, предлагают собственные системы.
Сбор данных и разметка фотографий – необходимый этап для проектов цифрового мерчандайзинга. Качественно подготовленные материалы – залог успешного обучения нейросети, а значит и эффективности полученного решения.
Юлия Порохненко, аналитик данных Beltel Datanomics
Для New Retail
0
Последние новости
Самое популярное
- «ЭкоНива»: как оптимизировать прибытие транспорта на склад
- Как подготовиться к Новому году на маркетплейсе: советы для продавцов
- Фоторепортаж: Fix Price в новом офисе
- Продажи хлеба в 2024 году: тренды и влияние мерчандайзинга
- Как музыкальный брендинг усилил восприятие фэшн-бренда и увеличил продажи (кейс ...