Перейти к основному содержанию
Санкт-Петербург

Как настроить парсеры SiteAnalyzer и Screaming Frog SEO Spider

Как настроить парсеры SiteAnalyzer и Screaming Frog SEO Spider
Советы

Как настроить парсеры SiteAnalyzer и Screaming Frog SEO Spider

Руслан Шкарбан

Рассказываем как настроить парсеры Site-analyzer и Screaming Frog SEO Spider. Этот материал является дочерним для двух наших материалов:

Пару слов о парсерах

Обзорная информация об инструментах, которые будем настраивать со ссылками на документацию.

SiteAnalyzer

Программа SiteAnalyzer это веб-краулер, позволяющий быстро и эффективно проводить технический аудит сайтов, находить и исправлять ошибки SEO-оптимизации - так о себе пишет парсер на своем сайте.

Screaming Frog SEO Spider

Оригинальными не будем и описание для данного парсера также возьмем с официального сайта: SEO Spider — это мощный и гибкий инструмент для сканирования сайтов, способный эффективно обходить как небольшие, так и очень крупные веб-ресурсы, с возможностью анализа результатов в режиме реального времени. Он собирает ключевые данные о сайте, позволяя SEO-специалистам принимать обоснованные решения.

От себя добавим, что оба инструмента полезны и нами использовались в разные периоды. На данный момент мы почти полностью перешли на "лягушку", отчасти потому что, Site-Analyzer нет на macOS, разумеется, можно запустить через программы, запускающие программы, написанные для Windows на macOS, например CrossOver. Для данной статьи мы так и сделали, пользоваться можно, но есть недостатки в адаптации: артефакты в интерфейсе и задержки в работе.

На большинстве сайтов стоит защита от парсинга, чтобы не перегружать сервер. При попытке спарсить программа не будет отображать информацию и наполнится ошибками по каждому урлу. Обход защиты для каждого сайта свой, но наиболее популярными способами являются:

1. Смена User-Agent

Начнем с базовой настройки, которую мы рекомендуем делать вначале любого парсинга - смену юзер агента. User-Agent - это строка, которую браузер, а в нашем случае парсер, отправляет на сервер при запросе веб-страниц. Она содержит информацию об операционной системе, браузере и другие данные, подробная информация о User-Agent в документации MDN.

Список User-Agent может отличаться в зависимости от парсера. Например, на момент написания данной статьи в Screaming Frog SEO Spider было доступно более 30 агентов, а в Site-Analyzer только 17.

В свое время DuckDuckBot для нас стал "мастхэвом" для беспроблемного парсинга сайтов, избавив от большинства других манипуляций в настройках. Успешно парсит без каких-то помех все сайты, которые мы ему скармливали, но не доступен в Site-Analyzer.

В большинстве случаев, смена агента решает все проблемы, но если это не ваш случай, переходите к следующему этапу.

2. Настройка скорости парсинга

Скорость парсинга — это параметр, который определяет, с какой скоростью парсер обходит и загружает страницы сайта. В большинстве парсеры имеют следующие настройки:

  • Max URL/s (максимум URL в секунду) — ограничивает, сколько URL можно запрашивать в секунду.
  • Max Threads (максимум потоков) — определяет, сколько одновременно работает потоков. Говоря проще, сколько страниц парсится параллельно.

Чем выше эти значения — тем быстрее работает парсинг. Но слишком высокая скорость может перегрузить сервер сайта, что вызовет ошибки или даже временную блокировку.

Далее необходимо подобрать оптимальные параметры (чтобы понравиться серверу и не ждать окончание парсинга неделю).

В рассматриваемых нами парсерах интерфейс отличается, поэтому детально рассмотрим в каждом из них.

В данном случае, мы не можем точно сказать какие из параметров сработают у вас. На нашей практике одни сайты хорошо парсились и при стандартных настройках, а для других требовалась тонкая настройка параметров.

3. Следовать или нет robots.txt

Файл robots.txt содержит инструкции для поисковых роботов, указывая, какие страницы сайта им разрешено или запрещено сканировать. С его помощью можно управлять доступом к отдельным разделам и уменьшать количество запросов, снижая нагрузку на сервер. Подробное пояснение о файле robots можно почитать в документации Google.

В материале мы показали несколько способов настройки Screaming Frog и Site-Analyzer, которые используем при парсинге сами. Если вы знаете другие способы - пишите в комментариях, будем рады протестировать и дополнить материал.