Прокси для парсинга и скрапинга: что нужно знать
Парсинг без прокси быстро упирается в баны по IP. Разбираем какие прокси нужны, как делать ротацию и сколько это стоит.
Если парсить сайт с одного IP — после ~50-1000 запросов вас забанят (зависит от сайта). Это не обходится «секретным User-Agent» — нужны разные IP. Прокси-пул — стандартный инструмент.
Какие прокси нужны
- Резидентские — IP из домашних провайдеров. Сайты доверяют им больше всего. Дорого ($/ГБ), но самое надёжное для агрессивных таргетов (Cloudflare, Akamai, Distil).
- Дата-центровые — IP из ЦОДов. Дешевле в 5-10 раз, но Cloudflare их часто фильтрует. Норм для простых сайтов.
- Мобильные (4G/5G) — IP мобильных операторов. Самые «чистые», но и самые дорогие. Для соцсетей (Instagram, TikTok).
- Индивидуальные (private) — у WProxy такие. Один IP, ваш, без шеринга. От 7 ₽/день.
- Shared (`4s`) — IP делятся между несколькими клиентами одновременно. Дешевле, но если один из клиентов набарахлит — IP в баны.
Ротация
Ротация — менять IP между запросами. Два паттерна:
- По времени (sticky session): один IP на 1-30 минут, потом меняется. Хорошо когда нужно держать сессию (логин в личный кабинет).
- По запросу (rotating): каждый запрос — новый IP. Хорошо для неавторизованного парсинга списков.
Если у вас пул из N приватных прокси — берёте их в библиотеке (requests/aiohttp/scrapy) и сами ротируете в коде по rotation-policy.
Сколько стоит
Грубая прикидка:
- 1 датацентровый IP на месяц: 100-300 ₽.
- 1 индивидуальный IPv6 на месяц: 200-500 ₽ (у WProxy — 210 ₽/мес).
- Резидентский пул: $30-100 за 5 ГБ трафика, дальше по тарифу.
- Мобильные: $50-300 в месяц за порт.
Чек-лист как не словить бан
- Random User-Agent на каждом запросе.
- Random задержка между запросами (0.5-3 сек, не фиксированно).
- Реалистичные headers (Accept, Accept-Language, Referer).
- Cookie management — храните cookies в сессии прокси, не теряйте.
- Уважайте
robots.txtи не долбите rate-limit. У сайта может быть anti-scraping политика, по которой вы быстро попадаете в ban-list. - Если видите CAPTCHA — снижайте rate, меняйте IP.
У WProxy можно купить пачку индивидуальных IP на разные периоды (от 7 дней). API для управления есть — пишете скрипт, он сам выбирает IP из пула по нужным критериям.
Когда прокси не помогает
Современные anti-bot защиты (Cloudflare Bot Management, Akamai Bot Manager, DataDome) часто детектят не по IP, а по поведенческим сигналам: TLS-фингерпринт (curl_cffi помогает), порядок headers, JS-fingerprint (нужен headless-браузер с anti-detect), скорость движений мыши и тд. В таких случаях прокси — только одна из 5-10 защит, которые надо обходить.
Один аккаунт — пять протоколов
MTProto, Hysteria, VLESS, AmneziaWG и Whitelist — пять протоколов под разные задачи, каждый подключается отдельно. Регистрация бесплатная, на старте хватит 100 ₽ чтобы попробовать.
Приложение WGate для Android
AmneziaWG и Whitelist-VPN в один тап. Только Android.