Процесс работы с семантикой всегда сопряжен с парсингом (сбором) информации — самих поисковых запросов и их параметров. На сегодняшний день Key Collector — общепризнанный и самый популярный софт, используемый для этих целей. С ним ежедневно работает, наверно, каждый второй интернет-маркетолог, если не каждый первый.
При работе с небольшими (до 500-1000) пулами запросов проблемы, которой посвящен данный материал, не возникнет. Но если вы часто сталкиваетесь с большими объемами (от 3000 ключей), то процесс их обработки превращается в многонедельную задачу. Прокси сервера для программы Key Collector нужны как раз для решения этого вопроса, ускоряя процедуру сбора данных в неограниченное количество раз.
Чтобы проиллюстрировать данное утверждение, сравним работу в Key Collector с использованием proxy и без них.
Настройка для парсинга без прокси
Запустите программу, зайдите в настройки, активируйте вкладку «парсинг». Рекомендуется установить следующие критические значения, необходимые для сбора данных.
Раздел «настройки загрузки страниц»:
- Кол-во повторных попыток загрузки страниц — 30.
- Таймаут ожидания ответа от сервиса — 30000 мс.
Раздел «режим сбора»:
- Строки с неполученными данными.
Перейдите на вкладку «Yandex Woradstat», установите опции, имитирующие естественные запросы к поисковой системе и не вызывающие у нее подозрений:
- Задержки между запросами — от 5000 до 15000 мс.
- Кол-во потоков — 1.
- Использовать основой айпи-адрес — включить.
- Таймаут ожидания ответа от сервиса — 35000 мс.
- Задержка после авторизации — от 15000 до 20000 мс.
Перейдите во вкладку Yandex Direct. Здесь следует добавить почтовый аккаунт Yandex. Для этого нажмите «добавить из буфера» и введите логин и пароль от почтового ящика как показано на картинке.
Обратите внимание, что формат ввода несколько отличается от привычного, когда указывается логин@имя.домен. В нашем случае, указывается логин и через двоеточие — пароль.
Проверьте, чтобы напротив введенного ящика стояла галочка, а сам аккаунт был выделен зеленым фоном.
Это означает, что он может использоваться системой. Желательно иметь в наличии несколько аккаунтов Yandex, потому что каптча все равно будет поступать от поисковика. Чтобы минимизировать затраты времени на распознавание и ввод каптчи, надо подключить какой-нибудь сервис, помогающий решить эту проблему за деньги.
Надо отметить — чисто символические (для сервиса ruCaptcha.ru — до 50 руб за 1000 капч). Для этого заходим во вкладку «Антикапча». Выбираем сервис и регистрируемся на нем.
После ввода ключа, полученного после регистрации на одном из ресурсов вкладки «Антикапча», не забудьте нажать кнопку «сохранить».
Парсинг без proxy
Для теста скопируем рандомные ключевые фразы из Вордстата и поставим на парсинг. В нашем случае, это 60 фраз на выбранную тему. На самом деле, количество и тема слов не принципиальна. Нам важно это знать, чтобы ощутить порядок ускорения сбора информации при использовании прокси. Напоминаем, что установки сделаны такие, как описано выше.
Нажимаем парсинг, вставляем все наши тестовые запросы и жмем кнопку «начать сбор».
В журнале событий можем отследить успешность протекания процесса сбора информации по каждому запросу в отдельности.
За 2 минуты у собрано 508 фраз.
Настройка для парсинга с прокси
Теперь оценим объем собранных фраз с использованием прокси. Для начала нужно разобраться с тем, как настроить прокси в Key Collector. Итак, зайдите в закладку «сеть», отметьте галочкой «использовать прокси» и выберите протокол работы. Какой протокол использовать — абсолютно неважно. Главное, чтобы он соответствовал внутренним установкам самого прокси. Эти установки вы узнаете там, где решите купить прокси для Key Collector. Например, как показано на картинке ниже.
Копируем весь список купленных прокси, ставим протокол их работы, жмем «добавить из буфера», вставляем. И надо их подредактировать по тем правилам, которые нам указывает Кей Коллектор.
В нашем случае, необходимо указать IP-адрес: через двоеточие номер порта и через собачку логин и пароль для доступа к прокси.
Теперь надо проверить, хорошие ли это прокси, не блокирует ли их Яндекс Вордстат, не находятся ли они в черном списке. Для этого нам нужно выбрать «количество потоков», поставить «1» и нажать «проверить в Yandex Wordstat».
Система все проверила, пометила их зеленым, так как на всех серверах не встретилась ни одна каптча.
Если на каких-то серверах встретилась каптча, рекомендуем убрать эти сервера, чтобы ускорить процесс. Покупайте лучше другие и проверяйте, чтобы все сервера были незакапченные.
На заключительной стадии надо отметить опцию «отключать в настройках отброшенные при парсинге прокси сервера».
Дальше, нужно настроить для выбранных прокси-серверов аккаунты. Так как их в данном случае девять, то, соответственно, как минимум девять профилей должно присутствовать. Заходим в закладку Яндекс Директ, жмем «добавить из буфера» и прописываем почтовые ящики Яндекс, которые вы предварительно должны были зарегистрировать.
Далее, нам нужно задать число потоков. Прокручиваем вниз. Количество потоков для Яндекс Директа задаем девять штук. И убираем галочку «использовать основной айпи адрес», чтобы ваш айпи не был заблокирован.
Далее, вы переходите в закладку Яндекс Вордстат. Здесь тоже нужно задать число потоков. Оно должно равняться количеству ваших proxy. Это очень важно. Тоже убираем галочку «использовать основной айпи адрес» и сохраняем.
Парсинг с прокси
Теперь, наступила очередь проведения эксперимента по парсингу того же набора ключевых слов и за тот же промежуток времени, что и в первой части материала. Нажимаем «парсить с вордстата», вставляем и временно убираем галочку с пункта «не добавлять фразу, если она уже есть в любой другой группе» для чистоты эксперимента.
Сравним. Во второй раз за 2 минуты времени спарсено 3467 фраз.
Стоит учесть, что при постоянном парсинге через 1 IP (без прокси), будет увеличиваться процент показа капчи и, в итоге, он достигнет 100%, что значительно замедлит парсинг на заспамленном такими запросами IP. Это обстоятельство автоматически увеличит расходы на сервис распознавания капчи.
Обычно используют 5-10 качественных персональных прокси, которые, например, можно арендовать здесь: https://proxy-sale.com. Следует учитывать, что на один аккаунт Яндекс Директ должно приходиться не более пяти прокси, каждый из которых отвечает за один поток.