Crawler BLEXBot – Base de connaissances

Le crawler BLEXBot est un robot automatisé conçu pour visiter les pages et analyser leur contenu. Il fonctionne de manière similaire aux robots des grands moteurs de recherche.

Le crawler BLEXBot se distingue par un user-agent avec la forme suivante :
Mozilla/5.0 (compatible; BLEXBot/1.0; +https://help.seranking.com/en/blex-crawler)

Le crawler BLEXBot peut être identifié grâce à ce user-agent. Si vous avez des doutes sur une requête potentiellement falsifiée, vérifiez l’adresse IP à l’origine de la requête. Ensuite, effectuez une recherche DNS inversée pour confirmer que le domaine appartient à l’un des sous-domaines de *.seranking.com.

La performance de votre site est notre priorité : nous ne la compromettrons jamais !

BLEXBot est un crawler particulièrement respectueux des sites. Nous l’avons conçu pour être aussi « doux » que possible : il n’effectue qu’une requête toutes les 3 secondes, ou moins fréquemment si un délai spécifique est défini dans votre fichier robots.txt. BLEXBot suit les règles que vous indiquez dans votre fichier robots.txt.

Si un problème se présente, il peut provenir des spécificités de votre site ou d’un bug sur un autre site qui dirige vers le vôtre. Dans ce cas, nous vous prions de nous en informer par mail : crawler@seranking.com. Nous mettrons rapidement en place des paramètres personnalisés pour votre site afin d’assurer qu’il ne subisse aucun impact de l’exploration.

Pourquoi explore-t-il mon site ?

BLEXBot aide les spécialistes du marketing digital à obtenir des informations sur la structure des liens des sites et leur interconnexion sur le web, afin d’éviter tout problème technique ou juridique potentiel et d’améliorer l’expérience en ligne. Cela nécessite une exploration des pages pour identifier et analyser tous les liens présents dans leur contenu.

Si le crawler BLEXBot a visité votre site, cela signifie que les liens de cette page n’ont jamais été collectés et testés auparavant ou qu’ils nécessitent une mise à jour. Pour cette raison, vous ne verrez pas de requêtes répétées de la part de BLEXBot sur la même page.

Les systèmes de crawl sont optimisés pour minimiser leur impact : BLEXBot limite ses requêtes à une toutes les 3 secondes pour un site donné et suspend automatiquement son activité si le site est lent ou temporairement hors service.

Bloquer l’accès à crawler avec le fichier robots.txt

Tout d’abord, notez que BLEXBot :

Ne collecte que des informations publiques accessibles à chaque visiteur. Si vous pensez que le Crawler recueille des données sensibles, veuillez les retirer de l’accès public.
BLEXBot ne peut ni surcharger votre site ni nuire à son fonctionnement — il est conçu pour être très respectueux et n’envoie qu’une requête toutes les 3 secondes maximum. Vous avez également la possibilité de ralentir son activité (ainsi que celle d’autres robots) en configurant le fichier robots.txt de votre site.
Ne se concentre que sur les liens de vos pages et ne collecte ni n’enregistre aucune autre information. Les textes, images, vidéos ou autres contenus de vos pages ne sont pas pris en compte.

Le fichier robots.txt vous permet de limiter ou bloquer l’accès du crawler BLEXBot à tout ou partie de votre site, ou encore de ralentir sa vitesse, comme dans les exemples ci-dessous :

Bloquer certaines parties de votre site

User-agent: BLEXBot

Disallow: /private/

Disallow: /messages/

Bloquer l’ensemble du site

User-agent: BLEXBot

Disallow: /

Ralentir le crawler

User-agent: BLEXBot

Crawl-delay: 10

Attention : dès que vous modifiez votre fichier robots.txt, veuillez accorder jusqu’à 10 minutes au crawler pour arrêter complètement l’exploration de votre site. Puisque certaines pages sont déjà en cours de traitement, un arrêt immédiat n’est pas garanti. Cependant, l’exploration cessera totalement au bout de 10 minutes maximum.

Pour en savoir plus sur le protocole robots.txt, veuillez consulter http://www.robotstxt.org. Consultez également l’article Wikipédia pour découvrir des détails supplémentaires et des exemples de règles robots.txt.

Nous contacter

En tout cas, nous traitons avec sérieux toute demande d’arrêt d’exploration de site, que ce soit pour un site complet, une partie de celui-ci, ou tout autre retour concernant le fonctionnement de notre crawler. Nous nous engageons à y répondre rapidement et efficacement.

Dans ce cas, merci de nous contacter à crawler@seranking.com. Nous exclurons votre site ou mènerons une enquête immédiatement.