Ежедневный сбор цен конкурентов на 12 000–30 000 товаров
Варианты решения, качество и стоимость
Подготовлено для клиента · версия 1.0
Короткий ответ
Собирать цены по 30 000 товаров каждый день — реализуемо. Но ключевая правда, которую важно
принять на входе: «простых» источников недостаточно. Большинство ценных конкурентов (DNS,
М.Видео, ВсеИнструменты, Ситилинк, Эльдорадо, Яндекс.Маркет) закрыты антибот-защитой — бесплатного
парсинга «в лоб» у них нет. Это проверено на живых данных, а не предположение.
Рекомендуемый путь — гибрид:
- наш движок на базе iiminion_agent собирает простые сайты (дёшево, своя инфраструктура);
- защищённые площадки закрываются интеграцией готового сервиса-разблокировщика;
- качество контролируется автоматически + ручной разбор спорных случаев (human-in-the-loop).
Как двигаемся: сначала пилот на 50 товарах — 12 позиций недостаточно, чтобы честно увидеть
разброс по конкурентам, защищённым площадкам и ошибкам сопоставления. На 50 товарах уже видно
фактическое качество и можно считать стоимость масштабирования. По результатам пилота фиксируем
тариф на полные 12 000–30 000.
Ситуация → Сложность → Вопрос
- Ситуация. Нужен ежедневный срез цен по 12 000–30 000 товарам для ценового анализа и переоценки.
- Сложность. ~70% релевантных конкурентов — защищённые площадки. Их нельзя собрать обычным
парсером; главный риск проекта — не «достать данные вообще», а достать их качественно и стабильно. - Вопрос. Каким способом собрать, сколько это стоит, и как убедиться в качестве до того, как
платить за полный объём.
Что вы на самом деле покупаете (Jobs to be Done)
Решение — это не «парсер», а закрытие шести связанных задач:
| # | Задача клиента | Как закрывается | Сложность |
|---|---|---|---|
| 1 | Понять, кто конкуренты по каждому товару | Авто-поиск по поисковой выдаче | решено |
| 2 | Снять цены с простых сайтов | iiminion_agent + очередь | низкая |
| 3 | Снять цены с защищённых площадок | Интеграция сервиса-разблокировщика | главный челлендж |
| 4 | Сопоставить цену с вашим товаром | По ссылке/идентификатору товара | средняя |
| 5 | Доверять данным (качество) | Валидация + ручной разбор выбросов | средняя |
| 6 | Ежедневная свежесть на масштабе | Расписание + кеширование | средняя |
Стоимость и сложность сосредоточены в задачах 3 и 5 — именно за них идёт основная плата.
Что значит «наш движок»
Под «нашим движком» мы имеем в виду не скрипт на коленке, а iiminion_agent — универсального
AI-агента на базе trip2g.com, с базой знаний и набором готовых «батареек»: очереди задач,
расписания, работа с сайтами, отчёты, формы, интеграции, память по проекту и ручные проверки там,
где автоматике нельзя верить вслепую.
Если по-бытовому: это рабочий костюм для агента. В нём агент не просто отвечает в чате, а помнит
контекст проекта, запускает повторяющиеся операции, складывает результаты в базу, готовит отчёты и
умеет жить внутри Telegram-процесса. На таком же подходе собран, например, HR-агент iiminion:
он работает в Telegram, подключается к внешним источникам, ведёт статусы, собирает short-list,
готовит сводки и использует базу знаний отдела.
Плюс в том, что команда уже хорошо владеет этим стеком: не нужно изобретать платформу для агента,
можно сразу настраивать прикладную задачу — ежедневный сбор цен, контроль качества и отчётность.
Почему «простых вариантов нет» — на цифрах
Замер на реальном каталоге:
- на товар приходится ~16 конкурентов, но обычным парсингом берётся только ~28%;
- площадки с самым широким покрытием все защищены:
| Площадка | На скольких товарах встречается | Защита |
|---|---|---|
| DNS (dns-shop) | 38 | антибот |
| М.Видео | 27 | антибот |
| ВсеИнструменты | 26 | антибот (не берётся даже браузером с ручной капчей) |
| Ситилинк | 17 | антибот |
| Эльдорадо | 13 | антибот |
| Яндекс.Маркет | — | антибот (но есть официальный API, см. ниже) |
Вывод: без отдельного инструмента под защищённые площадки картина цен будет неполной именно по
самым важным конкурентам.
Три сценария решения (с расчётом)
Сценарий 1 — «Только простые сайты» (минимальный)
iiminion_agent собирает то, что парсится напрямую (~28% конкурентов).
- Плюсы: дёшево, своя инфраструктура, быстро.
- Минусы: нет топовых площадок → неполная картина. Самостоятельным решением быть не может —
только как часть гибрида. - Стоимость данных: ≈0 по внешним данным; работает iiminion_agent и наша инфраструктура.
Сценарий 2 — «Гибрид: наш движок + готовый сервис» (рекомендуем)
Простые сайты — iiminion_agent; защищённые — интеграция готового сервиса по API; всё сводится в единый дашборд.
Важное ограничение: в этом сценарии мы не строим универсальный антибот-стек с нуля, а работаем в
рамках возможностей выбранных готовых сервисов. Поэтому финальную схему нужно будет подогнать под
их фактическое покрытие, API, лимиты, географию, частоту обновления и формат выдачи. Сейчас это
понятно только верхнеуровнево; пилот нужен именно для того, чтобы выбрать сервисы не по обещаниям,
а по живым результатам на вашем списке товаров.
-
Плюсы: быстрый запуск, предсказуемое качество, никакой возни с прокси/капчами на вашей
стороне — это берёт на себя сервис; единая витрина данных. -
Минусы: мы ограничены покрытием и правилами внешних сервисов; ежемесячная плата за сторонний
сервис; на большом объёме стоимость данных растёт. -
Стоимость данных (рыночные ориентиры готовых сервисов):
Сервис Стоимость Покрытие ALL RIVAL 6 000–24 000 ₽/мес интернет-магазины, по городам Priceva 8 750–96 000 ₽/мес магазины + Я.Маркет, API MarketParser 9 500–49 000 ₽/мес магазины + маркетплейсы, API на старшем тарифе xmldatafeed / RUFAGO по запросу точечно DNS / ВсеИнструменты / М.Видео под ключ -
Срок запуска пилота: 3–4 недели.
Сценарий 3 — «Свой стек под объём» (для стабильных 30k)
Собственная инфраструктура сбора защищённых (резидентные прокси + имитация браузера, при
необходимости — human-in-the-loop расширение для исключений).
- Плюсы: максимальный контроль, самая низкая удельная стоимость на большом стабильном объёме.
- Минусы: дороже и дольше на старте, требует постоянной поддержки (площадки меняют защиту).
- Стоимость данных: резидентный трафик ≈ $3–8/ГБ либо «разблокировщик» за успешный запрос.
- Срок запуска: 6–8 недель.
Сравнение
| Сц. 1 | Сц. 2 (рекоменд.) | Сц. 3 | |
|---|---|---|---|
| Покрытие конкурентов | ~28% | высокое | высокое |
| Топовые площадки (DNS/М.Видео/…) | нет | да | да |
| Срок до первых данных | дни | 3–4 недели | 6–8 недель |
| Возня на стороне клиента | нет | нет | нет (на нашей — высокая) |
| Удельная стоимость на масштабе | — | средняя | низкая |
| Когда выбирать | как часть гибрида | старт и большинство кейсов | очень большой стабильный объём |
Как проверим качество до масштабирования (ради чего пилот)
Пилот на 50 товарах с измеримыми критериями приёмки:
- Покрытие: доля товаров, по которым собрана ≥1 цена конкурента — целевое ≥ 80%.
- Точность: ручная сверка всех 50 позиций и спорных совпадений. Ориентир: 95% как
оптимистичная оценка качества; пессимистичный порог — 90%. Всё ниже 90% означает, что
источник, сервис или логика сопоставления не готовы к масштабированию. - Стабильность: ежедневный прогон без срывов в течение 2 недель.
- Контроль выбросов (human-in-the-loop): аномалии (подозрительная цена, страница-каталог вместо
карточки, смена вёрстки) уходят на ручную проверку и не попадают в отчёт как факт — это
напрямую защищает качество.
По итогам — отчёт о качестве и точная стоимость полного объёма 12 000–30 000.
Рекомендация и следующий шаг
- Рекомендуем Сценарий 2 (гибрид). Он даёт полное покрытие, включая топовые защищённые площадки,
без инфраструктурной нагрузки на вас, и запускается за 3–4 недели. - Следующий шаг — пилот на 50 товарах. 12 позиций слишком мало для честной проверки: можно
случайно попасть в простые сайты и не увидеть реальную долю антибота, ошибок сопоставления и
выбросов. 50 товаров дают достаточно разнообразия, чтобы ответить на главный вопрос клиента:
«какое качество?» — фактами, а не обещанием. - Отдельно по Яндекс.Маркету: если вы продавец на Маркете, часть задачи закрывается бесплатным
официальным API (свой ценовой индекс «дороже/дешевле рынка») — учтём это, чтобы не платить за то,
что уже доступно.
Для старта: согласовать список из 50 товаров, запустить пилот и по его итогам зафиксировать качество,
покрытие и предметный тариф под 12 000–30 000.