Краулер BLEXBot – это автоматизированный бот для сканирования страниц и анализа контента на них. В этом плане по принципу работы он похож на роботов, используемых крупными поисковыми системами.
Краулер BLEXBot идентифицируется по пользовательскому агенту:
Mozilla/5.0 (compatible; BLEXBot/1.0; +https://help.seranking.com/en/blex-crawler)
Краулер BLEXBot может быть идентифицирован по пользовательскому агенту, указанному выше. Если у вас возникли подозрения, что запросы подменяются, сначала проверьте IP-адрес запроса и выполните обратный поиск DNS, чтобы узнать его доменное имя с помощью соответствующих инструментов. Оно должно указывать на один из поддоменов *.seranking.com.
____________________________________
Мы заботимся о производительности вашего сайта и ни в коем случае не будет негативно влиять на нее!
BLEXbot крайне аккуратный краулер. Мы сделали его максимально «деликатным» при сканировании сайтов: бот отправляет всего 1 запрос в 3 секунды, или даже реже, если в файле robots.txt указано другое правило для директивы crawl-delay. BLEXbot следует правилам, указанным в файле robots.txt.
Если возникают какие-либо проблемы, они могут быть связаны с особенностями вашего сайта или с ошибками на другом, ссылающемся на вас, сайте. Если вы заметили какую-либо проблему с BLEXbot, пожалуйста, напишите нам на crawler@seranking.com. Мы оперативно подберем уникальные настройки для вашего сайта, чтобы в процессе сканирования производительность вашего сайта не страдала.
____________________________________
Почему он сканирует мой сайт?
BLEXBot помогает интернет-маркетологам получить информацию о ссылочной структуре сайтов и их перелинковке в Интернете. Это позволяет избежать любых технических и потенциальных юридических проблем, а также улучшить общее впечатление от работы в сети. Для этого необходимо исследовать или просканировать страницу, чтобы собрать все ссылки в контенте и проверить их.
Если BLEXBot посетил ваш сайт, это означает, что это означает, что ссылки на этой странице никогда ранее не собирались и не проверялись, либо их необходимо обновить. По этой причине вы не увидите повторяющихся запросов от краулера BLEXBot к одной и той же странице.
Системы краулера спроектированы максимально дружественно по отношению к проверяемым сайтам. Так, например, они ограничивают количество запросов к сайту (BLEXBot не делает больше одного запроса в 3 секунды) и автоматически прекращают сканирование, если сайт не работает или реагирует на запросы очень медленно.
____________________________________
Блокировка с помощью robots.txt
Главное, что вам нужно помнить, это то, что BLEXBot:
- Собирает только публичную информацию, которая может быть доступна любому случайному посетителю. Если вы считаете, что краулер собирает какую-то конфиденциальную информацию, пожалуйста, удалите ее из общего доступа.
- Не может перегрузить ваш сайт и нанести ему вред. BLEXBot очень деликатный, и поэтому отправляет только 1 запрос в 3 секунды и не более. Кроме того, вы можете легко замедлить BLEXBot (как и любого другого бота или краулера, который получает указания из файла robots.txt с вашего сайта).
- Не считывает, не обрабатывает, не собирает и не хранит никакую информацию с вашего сайта, кроме ссылок с ваших страниц. Это относится к любым текстам, графическим или видеоматериалам, а также ко всему остальному контенту на ваших страницах.
С помощью файла robots.txt вы можете заблокировать краулеру BLEXBot доступ к определенным разделам вашего сайта или всему вашему сайту целиком, а также замедлить его работу, как показано на примерах ниже:
Блокировка определенных разделов вашего сайта
User-agent: BLEXBot
Disallow: /private/
Disallow: /messages/
Блокировка всего сайта:
User-agent: BLEXBot
Disallow: /
Замедление краулера:
User-agent: BLEXBot
Crawl-delay: 10
Внимание: после внесения изменений в robots.txt, пожалуйста, дайте краулеру до 10 минут, чтобы полностью прекратить сканирование вашего сайта. Это связано с тем, что некоторые страницы могут уже быть в очереди на проверку, поэтому мы не можем гарантировать, что краулер остановится сразу. Тем не менее, все запущенные процессы сканирования должны остановиться в течение 10 минут.
Общее описание принципов работы robots.txt можно найти на сайте http://www.robotstxt.org. Более подробную информацию и примеры правил robots.txt можно найти в статье Википедии.
____________________________________
Связь с нами
Учитывая все вышесказанное, мы, безусловно, серьезно относимся к любым просьбам, касающихся запрета сканирования сайтов или их разделов. Также мы следим за всеми отзывами о работе нашего краулера и оперативно реагируем на них надлежащим образом.
Если ваш сайт затрагивает работа нашего краулера, и вас это не устраивает, то напишите нам на crawler@seranking.com. Мы всегда готовы изучить ситуацию и исключить ваш сайт из списка, если возникнет такая необходимость.