Ежедневный сбор цен конкурентов на 12 000–30 000 товаров

Варианты решения, качество и стоимость
Подготовлено для клиента · версия 1.0


Короткий ответ

Собирать цены по 30 000 товаров каждый день — реализуемо. Но ключевая правда, которую важно
принять на входе: «простых» источников недостаточно. Большинство ценных конкурентов (DNS,
М.Видео, ВсеИнструменты, Ситилинк, Эльдорадо, Яндекс.Маркет) закрыты антибот-защитой — бесплатного
парсинга «в лоб» у них нет. Это проверено на живых данных, а не предположение.

Рекомендуемый путь — гибрид:

  1. наш движок на базе iiminion_agent собирает простые сайты (дёшево, своя инфраструктура);
  2. защищённые площадки закрываются интеграцией готового сервиса-разблокировщика;
  3. качество контролируется автоматически + ручной разбор спорных случаев (human-in-the-loop).

Как двигаемся: сначала пилот на 50 товарах — 12 позиций недостаточно, чтобы честно увидеть
разброс по конкурентам, защищённым площадкам и ошибкам сопоставления. На 50 товарах уже видно
фактическое качество и можно считать стоимость масштабирования. По результатам пилота фиксируем
тариф на полные 12 000–30 000.


Ситуация → Сложность → Вопрос

  • Ситуация. Нужен ежедневный срез цен по 12 000–30 000 товарам для ценового анализа и переоценки.
  • Сложность. ~70% релевантных конкурентов — защищённые площадки. Их нельзя собрать обычным
    парсером; главный риск проекта — не «достать данные вообще», а достать их качественно и стабильно.
  • Вопрос. Каким способом собрать, сколько это стоит, и как убедиться в качестве до того, как
    платить за полный объём.

Что вы на самом деле покупаете (Jobs to be Done)

Решение — это не «парсер», а закрытие шести связанных задач:

# Задача клиента Как закрывается Сложность
1 Понять, кто конкуренты по каждому товару Авто-поиск по поисковой выдаче решено
2 Снять цены с простых сайтов iiminion_agent + очередь низкая
3 Снять цены с защищённых площадок Интеграция сервиса-разблокировщика главный челлендж
4 Сопоставить цену с вашим товаром По ссылке/идентификатору товара средняя
5 Доверять данным (качество) Валидация + ручной разбор выбросов средняя
6 Ежедневная свежесть на масштабе Расписание + кеширование средняя

Стоимость и сложность сосредоточены в задачах 3 и 5 — именно за них идёт основная плата.

Что значит «наш движок»

Под «нашим движком» мы имеем в виду не скрипт на коленке, а iiminion_agent — универсального
AI-агента на базе trip2g.com, с базой знаний и набором готовых «батареек»: очереди задач,
расписания, работа с сайтами, отчёты, формы, интеграции, память по проекту и ручные проверки там,
где автоматике нельзя верить вслепую.

Если по-бытовому: это рабочий костюм для агента. В нём агент не просто отвечает в чате, а помнит
контекст проекта, запускает повторяющиеся операции, складывает результаты в базу, готовит отчёты и
умеет жить внутри Telegram-процесса. На таком же подходе собран, например, HR-агент iiminion:
он работает в Telegram, подключается к внешним источникам, ведёт статусы, собирает short-list,
готовит сводки и использует базу знаний отдела.

Плюс в том, что команда уже хорошо владеет этим стеком: не нужно изобретать платформу для агента,
можно сразу настраивать прикладную задачу — ежедневный сбор цен, контроль качества и отчётность.


Почему «простых вариантов нет» — на цифрах

Замер на реальном каталоге:

  • на товар приходится ~16 конкурентов, но обычным парсингом берётся только ~28%;
  • площадки с самым широким покрытием все защищены:
Площадка На скольких товарах встречается Защита
DNS (dns-shop) 38 антибот
М.Видео 27 антибот
ВсеИнструменты 26 антибот (не берётся даже браузером с ручной капчей)
Ситилинк 17 антибот
Эльдорадо 13 антибот
Яндекс.Маркет антибот (но есть официальный API, см. ниже)

Вывод: без отдельного инструмента под защищённые площадки картина цен будет неполной именно по
самым важным конкурентам.


Три сценария решения (с расчётом)

Сценарий 1 — «Только простые сайты» (минимальный)

iiminion_agent собирает то, что парсится напрямую (~28% конкурентов).

  • Плюсы: дёшево, своя инфраструктура, быстро.
  • Минусы: нет топовых площадок → неполная картина. Самостоятельным решением быть не может —
    только как часть гибрида.
  • Стоимость данных: ≈0 по внешним данным; работает iiminion_agent и наша инфраструктура.

Сценарий 2 — «Гибрид: наш движок + готовый сервис» (рекомендуем)

Простые сайты — iiminion_agent; защищённые — интеграция готового сервиса по API; всё сводится в единый дашборд.

Важное ограничение: в этом сценарии мы не строим универсальный антибот-стек с нуля, а работаем в
рамках возможностей выбранных готовых сервисов. Поэтому финальную схему нужно будет подогнать под
их фактическое покрытие, API, лимиты, географию, частоту обновления и формат выдачи
. Сейчас это
понятно только верхнеуровнево; пилот нужен именно для того, чтобы выбрать сервисы не по обещаниям,
а по живым результатам на вашем списке товаров.

  • Плюсы: быстрый запуск, предсказуемое качество, никакой возни с прокси/капчами на вашей
    стороне
    — это берёт на себя сервис; единая витрина данных.

  • Минусы: мы ограничены покрытием и правилами внешних сервисов; ежемесячная плата за сторонний
    сервис; на большом объёме стоимость данных растёт.

  • Стоимость данных (рыночные ориентиры готовых сервисов):

    Сервис Стоимость Покрытие
    ALL RIVAL 6 000–24 000 ₽/мес интернет-магазины, по городам
    Priceva 8 750–96 000 ₽/мес магазины + Я.Маркет, API
    MarketParser 9 500–49 000 ₽/мес магазины + маркетплейсы, API на старшем тарифе
    xmldatafeed / RUFAGO по запросу точечно DNS / ВсеИнструменты / М.Видео под ключ
  • Срок запуска пилота: 3–4 недели.

Сценарий 3 — «Свой стек под объём» (для стабильных 30k)

Собственная инфраструктура сбора защищённых (резидентные прокси + имитация браузера, при
необходимости — human-in-the-loop расширение для исключений).

  • Плюсы: максимальный контроль, самая низкая удельная стоимость на большом стабильном объёме.
  • Минусы: дороже и дольше на старте, требует постоянной поддержки (площадки меняют защиту).
  • Стоимость данных: резидентный трафик ≈ $3–8/ГБ либо «разблокировщик» за успешный запрос.
  • Срок запуска: 6–8 недель.

Сравнение

Сц. 1 Сц. 2 (рекоменд.) Сц. 3
Покрытие конкурентов ~28% высокое высокое
Топовые площадки (DNS/М.Видео/…) нет да да
Срок до первых данных дни 3–4 недели 6–8 недель
Возня на стороне клиента нет нет нет (на нашей — высокая)
Удельная стоимость на масштабе средняя низкая
Когда выбирать как часть гибрида старт и большинство кейсов очень большой стабильный объём

Как проверим качество до масштабирования (ради чего пилот)

Пилот на 50 товарах с измеримыми критериями приёмки:

  • Покрытие: доля товаров, по которым собрана ≥1 цена конкурента — целевое ≥ 80%.
  • Точность: ручная сверка всех 50 позиций и спорных совпадений. Ориентир: 95% как
    оптимистичная оценка качества; пессимистичный порог — 90%. Всё ниже 90% означает, что
    источник, сервис или логика сопоставления не готовы к масштабированию.
  • Стабильность: ежедневный прогон без срывов в течение 2 недель.
  • Контроль выбросов (human-in-the-loop): аномалии (подозрительная цена, страница-каталог вместо
    карточки, смена вёрстки) уходят на ручную проверку и не попадают в отчёт как факт — это
    напрямую защищает качество.

По итогам — отчёт о качестве и точная стоимость полного объёма 12 000–30 000.


Рекомендация и следующий шаг

  1. Рекомендуем Сценарий 2 (гибрид). Он даёт полное покрытие, включая топовые защищённые площадки,
    без инфраструктурной нагрузки на вас, и запускается за 3–4 недели.
  2. Следующий шаг — пилот на 50 товарах. 12 позиций слишком мало для честной проверки: можно
    случайно попасть в простые сайты и не увидеть реальную долю антибота, ошибок сопоставления и
    выбросов. 50 товаров дают достаточно разнообразия, чтобы ответить на главный вопрос клиента:
    «какое качество?» — фактами, а не обещанием.
  3. Отдельно по Яндекс.Маркету: если вы продавец на Маркете, часть задачи закрывается бесплатным
    официальным API
    (свой ценовой индекс «дороже/дешевле рынка») — учтём это, чтобы не платить за то,
    что уже доступно.

Для старта: согласовать список из 50 товаров, запустить пилот и по его итогам зафиксировать качество,
покрытие и предметный тариф под 12 000–30 000.