Все статьи
Применение

Прокси для парсинга и скрапинга: что нужно знать

Парсинг без прокси быстро упирается в баны по IP. Разбираем какие прокси нужны, как делать ротацию и сколько это стоит.

Если парсить сайт с одного IP — после ~50-1000 запросов вас забанят (зависит от сайта). Это не обходится «секретным User-Agent» — нужны разные IP. Прокси-пул — стандартный инструмент.

Какие прокси нужны

  • Резидентские — IP из домашних провайдеров. Сайты доверяют им больше всего. Дорого ($/ГБ), но самое надёжное для агрессивных таргетов (Cloudflare, Akamai, Distil).
  • Дата-центровые — IP из ЦОДов. Дешевле в 5-10 раз, но Cloudflare их часто фильтрует. Норм для простых сайтов.
  • Мобильные (4G/5G) — IP мобильных операторов. Самые «чистые», но и самые дорогие. Для соцсетей (Instagram, TikTok).
  • Индивидуальные (private) — у WProxy такие. Один IP, ваш, без шеринга. От 7 ₽/день.
  • Shared (`4s`) — IP делятся между несколькими клиентами одновременно. Дешевле, но если один из клиентов набарахлит — IP в баны.

Ротация

Ротация — менять IP между запросами. Два паттерна:

  • По времени (sticky session): один IP на 1-30 минут, потом меняется. Хорошо когда нужно держать сессию (логин в личный кабинет).
  • По запросу (rotating): каждый запрос — новый IP. Хорошо для неавторизованного парсинга списков.

Если у вас пул из N приватных прокси — берёте их в библиотеке (requests/aiohttp/scrapy) и сами ротируете в коде по rotation-policy.

Сколько стоит

Грубая прикидка:

  • 1 датацентровый IP на месяц: 100-300 ₽.
  • 1 индивидуальный IPv6 на месяц: 200-500 ₽ (у WProxy — 210 ₽/мес).
  • Резидентский пул: $30-100 за 5 ГБ трафика, дальше по тарифу.
  • Мобильные: $50-300 в месяц за порт.

Чек-лист как не словить бан

  • Random User-Agent на каждом запросе.
  • Random задержка между запросами (0.5-3 сек, не фиксированно).
  • Реалистичные headers (Accept, Accept-Language, Referer).
  • Cookie management — храните cookies в сессии прокси, не теряйте.
  • Уважайте robots.txt и не долбите rate-limit. У сайта может быть anti-scraping политика, по которой вы быстро попадаете в ban-list.
  • Если видите CAPTCHA — снижайте rate, меняйте IP.

У WProxy можно купить пачку индивидуальных IP на разные периоды (от 7 дней). API для управления есть — пишете скрипт, он сам выбирает IP из пула по нужным критериям.

Когда прокси не помогает

Современные anti-bot защиты (Cloudflare Bot Management, Akamai Bot Manager, DataDome) часто детектят не по IP, а по поведенческим сигналам: TLS-фингерпринт (curl_cffi помогает), порядок headers, JS-fingerprint (нужен headless-браузер с anti-detect), скорость движений мыши и тд. В таких случаях прокси — только одна из 5-10 защит, которые надо обходить.

Попробовать WProxy

Один аккаунт — пять протоколов

MTProto, Hysteria, VLESS, AmneziaWG и Whitelist — пять протоколов под разные задачи, каждый подключается отдельно. Регистрация бесплатная, на старте хватит 100 ₽ чтобы попробовать.

Приложение WGate для Android

AmneziaWG и Whitelist-VPN в один тап. Только Android.

Скачать WGate.apk

Читать дальше