Rastreador web BLEXBot – Base de conocimiento

El rastreador web o crawler de BLEXBot es un robot automatizado que visita páginas para examinar y analizar el contenido. Es similar a los robots que utilizan los principales motores de búsqueda.

El rastreador BLEXBot puede ser identificado con su user-agent de la siguiente forma:
Mozilla/5.0 (compatible; BLEXBot/1.0; +https://help.seranking.com/en/blex-crawler)

Puedes identificar al rastreador BLEXBot por el user-agent mencionado. Si sospechas que las solicitudes están siendo suplantadas, primero debes verificar la dirección IP de la solicitud y realizar una búsqueda DNS inversa para ver su nombre de dominio a través de las herramientas adecuadas; debe llevar a uno de los subdominios de *.seranking.com.
______________________________________

¡Nos preocupamos por el rendimiento de tu sitio web y nunca lo dañaremos!

BLEXbot es un rastreador web muy amigable. Lo hicimos lo más "suave" posible para analizar sitios web: solo realiza 1 solicitud cada 3 segundos, o incluso con menor frecuencia si se especifica otro retraso de rastreo en tu archivo robots.txt. BLEXbot respeta las reglas que especifiques en tu archivo robots.txt.

Si surge algún problema, puede deberse a peculiaridades de tu sitio web en particular o a un error en otro sitio que se enlaza con el tuyo. Por lo tanto, nos gustaría pedirte que, si notas algún problema con BLEXbot, lo informes a crawler@seranking.com. Realizaremos rápidamente configuraciones personalizadas para tu sitio web en particular para que el rastreo nunca afecte el rendimiento de tu web.
______________________________________

¿Por qué está rastreando mi sitio web?

BLEXBot ayuda a los especialistas en marketing a obtener información sobre la estructura de enlaces de los sitios web y su interconexión en la web para evitar cualquier problema técnico y legal posible y mejorar la experiencia online en general. Para ello, es necesario examinar o rastrear la página para recopilar y verificar todos los enlaces que tiene en su contenido.

Si el rastreador web BLEXBot ha visitado tu sitio web, esto significa que nunca se han recopilado ni probado enlaces en esa página antes o es necesario actualizarlos. Por este motivo, no verás solicitudes recurrentes del rastreador BLEXBot en la misma página.

Los sistemas del rastreador están diseñados para ser lo más amigables posible, como limitar las tasas de solicitud a cualquier sitio específico (BLEXBot no realiza más de una solicitud cada 3 segundos) y retroceder automáticamente si un sitio web está inactivo o lento.
______________________________________

Bloqueo con robots.txt

En primer lugar, ten en cuenta que BLEXBot:

Recopila solo información disponible públicamente a la que puede acceder cualquier visitante aleatorio. Si crees que el rastreador recopila información confidencial, elimínala del acceso público.
El rastreador no puede sobrecargar tu sitio ni dañarlo: BLEXBot está diseñado para ser muy respetuoso y solo puede hacer 1 visita cada 3 segundos como máximo. Además, puedes reducir la frecuencia de rastreo de BLEXBot (y cualquier otro robot o rastreador que siga las instrucciones del archivo robots.txt que debería estar en tu sitio web).
No lee, analiza, recopila ni almacena ninguna información de tu sitio web, excepto los enlaces de tus páginas. Esto se refiere a cualquier texto, material gráfico o de video, o cualquier otra cosa en tus páginas.

Con un archivo robots.txt, puedes bloquear el acceso del rastreador web BLEXBot a partes o a todo tu sitio web o reducir su frecuencia de rastreo, como se muestra en los siguientes ejemplos:

Bloquear partes específicas de tu sitio web

User-agent: BLEXBot

Disallow: /private/

Disallow: /messages/

Bloquear todo el sitio:

User-agent: BLEXBot

Disallow: /

Reducir frecuencia del rastreador:

User-agent: BLEXBot

Crawl-delay: 10

Atención: Tan pronto como realices cambios en tu archivo robots.txt, dale al rastreador hasta 10 minutos para que deje de rastrear tu sitio web por completo. Esto se debe a que algunas páginas pueden estar ya en la cola de procesamiento, por lo que no podemos garantizar que el rastreador pueda detenerse de inmediato. Sin embargo, debería dejar de rastrear por completo después de 10 minutos como máximo.

Para obtener una introducción general al protocolo robots.txt, consulta http://www.robotstxt.org. También puedes ver el artículo de Wikipedia para obtener más detalles y ejemplos sobre las reglas de robots.txt.
______________________________________

Contáctanos

Dicho esto, nos tomamos muy en serio cualquier solicitud de desistimiento del rastreo de cualquier sitio, o partes de un sitio web, o cualquier otro comentario sobre las operaciones del rastreador y actuaremos al respecto de manera rápida y adecuada.

Si este es tu caso, no dudes en contactarnos a crawler@seranking.com y estaremos encantados de excluir tu sitio web o investigarlo tu caso de inmediato.