Краулер BLEXBot – База знаний

Краулер BLEXBot – это автоматизированный бот для сканирования страниц и анализа контента на них. В этом плане по принципу работы он похож на роботов, используемых крупными поисковыми системами.

Краулер BLEXBot идентифицируется по пользовательскому агенту:
Mozilla/5.0 (compatible; BLEXBot/1.0; +https://help.seranking.com/en/blex-crawler)

Краулер BLEXBot может быть идентифицирован по пользовательскому агенту, указанному выше. Если у вас возникли подозрения, что запросы подменяются, сначала проверьте IP-адрес запроса и выполните обратный поиск DNS, чтобы узнать его доменное имя с помощью соответствующих инструментов. Оно должно указывать на один из поддоменов *.seranking.com.
____________________________________

Мы заботимся о производительности вашего сайта и ни в коем случае не будет негативно влиять на нее!

BLEXbot крайне аккуратный краулер. Мы сделали его максимально «деликатным» при сканировании сайтов: бот отправляет всего 1 запрос в 3 секунды, или даже реже, если в файле robots.txt указано другое правило для директивы crawl-delay. BLEXbot следует правилам, указанным в файле robots.txt.

Если возникают какие-либо проблемы, они могут быть связаны с особенностями вашего сайта или с ошибками на другом, ссылающемся на вас, сайте. Если вы заметили какую-либо проблему с BLEXbot, пожалуйста, напишите нам на crawler@seranking.com. Мы оперативно подберем уникальные настройки для вашего сайта, чтобы в процессе сканирования производительность вашего сайта не страдала.
____________________________________

Почему он сканирует мой сайт?

BLEXBot помогает интернет-маркетологам получить информацию о ссылочной структуре сайтов и их перелинковке в Интернете. Это позволяет избежать любых технических и потенциальных юридических проблем, а также улучшить общее впечатление от работы в сети. Для этого необходимо исследовать или просканировать страницу, чтобы собрать все ссылки в контенте и проверить их.

Если BLEXBot посетил ваш сайт, это означает, что это означает, что ссылки на этой странице никогда ранее не собирались и не проверялись, либо их необходимо обновить. По этой причине вы не увидите повторяющихся запросов от краулера BLEXBot к одной и той же странице.

Системы краулера спроектированы максимально дружественно по отношению к проверяемым сайтам. Так, например, они ограничивают количество запросов к сайту (BLEXBot не делает больше одного запроса в 3 секунды) и автоматически прекращают сканирование, если сайт не работает или реагирует на запросы очень медленно.
____________________________________

Блокировка с помощью robots.txt

Главное, что вам нужно помнить, это то, что BLEXBot:

Собирает только публичную информацию, которая может быть доступна любому случайному посетителю. Если вы считаете, что краулер собирает какую-то конфиденциальную информацию, пожалуйста, удалите ее из общего доступа.
Не может перегрузить ваш сайт и нанести ему вред. BLEXBot очень деликатный, и поэтому отправляет только 1 запрос в 3 секунды и не более. Кроме того, вы можете легко замедлить BLEXBot (как и любого другого бота или краулера, который получает указания из файла robots.txt с вашего сайта).
Не считывает, не обрабатывает, не собирает и не хранит никакую информацию с вашего сайта, кроме ссылок с ваших страниц. Это относится к любым текстам, графическим или видеоматериалам, а также ко всему остальному контенту на ваших страницах.

С помощью файла robots.txt вы можете заблокировать краулеру BLEXBot доступ к определенным разделам вашего сайта или всему вашему сайту целиком, а также замедлить его работу, как показано на примерах ниже:

Блокировка определенных разделов вашего сайта

User-agent: BLEXBot

Disallow: /private/

Disallow: /messages/

Блокировка всего сайта:

User-agent: BLEXBot

Disallow: /

Замедление краулера:

User-agent: BLEXBot

Crawl-delay: 10

Внимание: после внесения изменений в robots.txt, пожалуйста, дайте краулеру до 10 минут, чтобы полностью прекратить сканирование вашего сайта. Это связано с тем, что некоторые страницы могут уже быть в очереди на проверку, поэтому мы не можем гарантировать, что краулер остановится сразу. Тем не менее, все запущенные процессы сканирования должны остановиться в течение 10 минут.

Общее описание принципов работы robots.txt можно найти на сайте http://www.robotstxt.org. Более подробную информацию и примеры правил robots.txt можно найти в статье Википедии.
____________________________________

Связь с нами

Учитывая все вышесказанное, мы, безусловно, серьезно относимся к любым просьбам, касающихся запрета сканирования сайтов или их разделов. Также мы следим за всеми отзывами о работе нашего краулера и оперативно реагируем на них надлежащим образом.

Если ваш сайт затрагивает работа нашего краулера, и вас это не устраивает, то напишите нам на crawler@seranking.com. Мы всегда готовы изучить ситуацию и исключить ваш сайт из списка, если возникнет такая необходимость.