Когда говорят о компьютерном зрении, часто имеют в виду беспилотные автомобили или системы промышленной автоматизации. Но существует ещё одна сфера, где есть большой потенциал для его практического применения: ритейл и складская логистика. И сейчас в этой сфере происходит важная трансформация. Технология распознавания на сервере уступает место приборам, которые самостоятельно распознают изображения. Мы расскажем, как применяется компьютерное зрение в ритейле, и как работают самые сильные инженерные решения для ритейла.
Что такое серверная модель и почему она не эффективна
Рассмотрим, как работает серверная модель, на примере весов с распознаванием:
- Встроенная камера снимает товар.
- Изображение товара передаётся на сервер.
- Нейросеть анализирует картинку и определяет, какой товар положили на платформу.
- Результат распознавания передаётся обратно на весы.
Это классическая модель, которая эффективно работает только на слайдах. На практике в любом магазине обстановка постоянно меняется. Ассортимент регулярно обновляется, упаковки бликуют, освещение зависит от времени суток. Меняется выкладка товаров и люди на заднем плане, в кадр попадают руки и посторонние предметы. Добавим к этому возможные проблемы с подключением к интернету и строгие ограничения по времени ответа.
Розничному магазину нужна архитектура, которая может гибко адаптироваться к изменениям. Что это означает:
- Распознавание должно занимать доли секунды. Процесс обработки запросов должен быть незаметным для покупателей.
- Распознавание должно работать даже при отсутствии интернета.
- Нейросеть должна быстро адаптироваться к изменению ассортимента.
В серверная архитектурой обычно требуется много времени на дообучение моделей. На практике это означает, что система неизбежно отстаёт от реальности. Между появлением нового товара на полках и моментом, когда система научилась правильное его распознавать, проходит очень много времени. Это создаёт неудобства для покупателей и снижает эффективность автоматизации.

Преимущества системы распознавания на устройстве
Система распознавания на одном устройстве работает иначе. У кассы, кассы самообслуживания или весов есть автономный вычислительный узел. Именно он отвечает за распознавание товаров и адаптацию к изменениям.
Обработка данных происходит локально. Система адаптируется под условия одного магазина: интерьер, освещение, высоту установки камеры, особенности ассортимента и т.д.
В результате процесс не зависит от подключения к сети и скорости внешнего сервера. Это делает работу устойчивой, а задержки — предсказуемыми. Для ритейла это особенно важно, поскольку независимость от внешнего ответа улучшает пользовательский опыт. Локальная система работает стабильно, и это решение легко масштабируется.
Локальная адаптация и дообучение
Ещё недавно многие технические специалисты думали, что дообучать нейросети возможно только на сервере. Но технологии уже шагнули дальше. Системы распознавания товаров на устройствах проходят локальную адаптацию к условиям конкретного магазина. А в некоторых сценариях они проходят дообучение на основе обратной связи от пользователей.
По данным компании MERTECH, качество распознавания зависит от количества изображений, на которых проводится обучение модели. Сильные модели обучаются за счёт аналитики огромного массива реальных изображений. В базе обучения моделей от компании MERTECH содержится более 3 миллиардов фото. Это реальные изображения весовых и штучных товаров, сделанные в условиях магазинов.

Локальное распознавание в реальных цифрах
Модели от компании MERTECH показывают следующие результаты:
- Распознавание товаров происходит за 180–200 мс в быстром режиме.
- В стандартном режиме распознавание занимает около 350 мс.
- В высококачественном режиме достигается скорость распознавания 220 мс (ассортимент около 500 SKU).
Высококачественный режим работает на новой платформе 1126B. При меньшем количестве SKU достигается более высокая производительность. Возможно распознавание нескольких товаров в секунду. Рабочая ёмкость метамодели достигает 4000-5000 SKU. Для конкретной точки доступно нескольких сотен типовых конфигураций.
Почему MERTECH предлагает сильные технические решения
Зрелые решения по компьютерному зрению в ритейле обладают 4 признаками:
- Быстрая работа на отдельном устройстве.
- Адаптация к условиям конкретного магазина.
- Независимость от облачного сервера (в базовом рабочем сценарии)
- Простое масштабирование через централизованный контур управления.
По совокупности признаков решения от компании MERTECH входят в число наиболее сильных. В оборудовании MERTECH реализовано компьютерное зрение для ритейла и смежных сценариев.
Но каждое устройство работает не само по себе, несмотря на продвинутый локальный модуль. За эффективную работу компьютерного зрения отвечает стек технологий: от автономного модуля до надстройки в виде сервера мониторинга. Компания MERTECH предлагает большую базу картинок для обучения нейросети и гибкую интеграцию устройств в экосистему магазина. Каждый элемент выполняет свою роль и работает на результат.

Как работает распознавание товаров в магазине
Когда покупатель кладёт товар на весы, система должна быстро сопоставить изображение товара с базой данных. При этом хорошая система не обязана выдавать единственно верный ответ. Для достижения 100% точности распознавания требуется большое количество ресурсов, и в ритейле это не оправдано.
Система распознавания выдаёт список вероятных ответов. Например Топ-3 или Топ-5 продуктов, с которыми найдено наибольшее количество совпадений. Зачастую правильный товар находится на первых строчках. Такая постановка задачи обеспечивает скорость и удобство.
Для клиента или сотрудника важно не получить один ответ, а взвесить товары как можно быстрее. Выдача результатов в форме списка помогает достичь этой цели. При этом снижается количество ошибок, хотя защита от подмены товаров является дополнительной функцией.
Как работает локальная адаптация
Представим, что у магазина появился новый поставщик, который привёз сезонные яблоки. Новый товар отличается от других яблок по форме, цвету и размеру.
Для серверной архитектуры это проблема. Системе нужно накопить фотографии нового товара и проанализировать их. Весам нужно дождаться обновления модели от сервера и проверить новую версию.
При локальном распознавании на устройстве всё становится проще. Сначала система показывает похожие сорта в Тор-5. Пользователи выбирают новый сорт, и его рейтинг быстро растёт. Спустя некоторое время он попадает на первые строчки списка. Но и прежние значения не забываются.
Так работает система с обратной связью. Информация накапливается на отдельных устройствах, но позже она может быть отправлена на сервер и включена в более широкий контур.

Зачем нужен централизованный сервер мониторинга
Наличие автономного вычислительного узла не означает полного отказа от центрального сервера. Но сервер перестаёт быть главным звеном, без которого всё остальное не работает. Отдельные устройства могут самостоятельно распознавать товары и адаптироваться к изменению условий.
Централизованный сервер решает другие задачи:
- контроль качества распознавания;
- управление метамоделями;
- настройка ролей доступа;
- настройка метрик Top-1/Top-5;
- мониторинг конверсии;
- управление сетью устройств;
- передача накопленных знаний по сети.
Сервер мониторинга отвечает за гибридную централизацию. Сервер работает поверх автономных локальных устройств. Размещение данных проводится на облаке или на оборудовании заказчика, если этого требуют его стандарты безопасности.
Преимущества гибридной архитектуры:
- Критически важные операции выполняются на локальных устройствах.
- Централизованный сервер отвечает за интеллект модели и управление качеством работы.
- Обновлённые модели быстро распространяются по сети.
Каждая часть инженерного комплекса решает свою задачу. Так выглядит зрелая архитектура для ритейла.

Перспективы компьютерного зрения в ритейле
Компьютерное зрение в ритейле не ограничивается весами для самообслуживания. Аналогичные решения применяются в:
- обычных кассах;
- кассах самообслуживания (КСО)
- POS-системах;
- решениях для идентификации товаров;
- быстрых интерфейсных подсказках;
- системах безопасности (антифрод).
Архитектура для визуальной идентификации товаров масштабируется на складские процессы. В складской логистике тоже очень важны стабильность отклика и работа без необходимости подключения к интернету.
Компания MERTECH предлагает не «умные устройства», а платформенный подход к внедрению компьютерного зрения в товарные операции. В продуктовой линейке MERTECH есть решения для интеграции систем компьютерного зрения с 1С, сервисами для HoReCa и другими продуктами.

Подведём итоги
Будущее компьютерного зрения в ритейле — за системами, которые работают внутри магазинов. Ритейлерам нужны не внешние сервисы, а автономные интеллектуальные приборы. Они должны самостоятельно принимать решения и быстро адаптироваться к изменениям. Точность и скорость распознавания не должны зависеть от подключения к сети. При этом подобные модули должны оставаться частью единой управляемой платформы для машинного обучения.
Компания MERTECH развивает рабочий контур для компьютерного зрения и машинного обучения. Основные приоритеты при разработке: скорость, точность и стабильность распознавания. Готовые решения сегодня применяются в ритейле, а в будущем могут использоваться в смежных товарных сценариях.