Human-in-the-loop

Human-in-the-loop — это схема, где автоматическая система работает сама, но спорные случаи отправляет человеку на проверку.

В проекте сбора цен это не «ручной парсинг вместо автоматики». Это страховка от тихих ошибок: бот собирает данные, валидатор ищет подозрительные случаи, человек разбирает только то, чему нельзя доверять автоматически.

Где это нужно

Human-in-the-loop включается, когда система видит риск ошибки:

  • цена выглядит слишком низкой или слишком высокой;
  • вместо карточки товара открылась категория, поиск или страница с капчей;
  • сайт поменял вёрстку, и поле цены могло съехать;
  • найден похожий товар, но совпадение неочевидно;
  • у товара несколько комплектаций, объёмов, цветов или продавцов;
  • цена есть, но непонятно, относится ли она к нужному региону.

Как это работает

  1. Парсер собирает цену и метаданные: URL, название товара, сайт, регион, время сбора.
  2. Автоматическая проверка ставит флаг риска: аномальная цена, слабое совпадение, ошибка страницы.
  3. Спорная запись уходит в очередь ручной проверки.
  4. Человек подтверждает, исправляет или отклоняет результат.
  5. Подтверждённые решения используются для улучшения правил на следующих прогонах.

Зачем это клиенту

Главная польза — не пускать сомнительные данные в отчёт как факт.

Без human-in-the-loop система может красиво показать цифры, но часть из них будет мусором: цена не того товара, цена из другого региона, цена с каталога вместо карточки. Для переоценки это опаснее, чем отсутствие данных.

С human-in-the-loop спорные случаи честно отделяются от надёжных:

  • надёжные цены идут в отчёт;
  • сомнительные уходят на проверку;
  • неподтверждённые не используются для автоматической переоценки.

Важно

Human-in-the-loop не нужен для каждой позиции. Если проверять всё вручную, это уже не автоматизация.

Правильная схема: автоматизация покрывает основной поток, человек работает только с исключениями. Поэтому стоимость зависит не только от числа товаров, но и от доли спорных случаев.