Rastreador web: cómo rastrear una web (con Semrush)

Erika Varangouli

jul 28, 202111 min de lectura
rastreador web

TABLA DE CONTENIDOS

Al igual que los CEOs tienen a sus asistentes y Papá Noel a sus elfos, Google (junto con otros motores de búsqueda) tiene a los rastreadores web.

Los rastreadores web (o indexadores web) pueden ser un poco espeluznantes. ¿Qué son estas arañas misteriosas y qué están haciendo exactamente? 

En esta guía, vamos a ver qué son los rastreadores web, cómo los utilizan los motores de búsqueda y cómo pueden ser útiles para los propietarios. 

También vamos a mostrarte cómo puedes utilizar nuestro rastreador web gratuito, la herramienta Auditoría del sitio, para que descubras qué van a encontrar los rastreadores en tu web y como puedes mejorar su rendimiento. 

¿Qué es un rastreador web y cuál es su función?

Un rastreador web es un bot de internet, también conocido como araña web, indexador automático o robot web, que rastrea sistemáticamente las páginas de un sitio web. Estos bots son como los archiveros y bibliotecarios de internet. 

Extraen y descargan información y contenido, que luego es indexado y catalogado en los resultados de búsqueda, para que puedan mostrarse a los usuarios por orden de relevancia. 

Así es como un motor de búsqueda como Google puede responder a las consultas de los usuarios rápidamente con lo que están buscando: aplicando su algoritmo a los datos de los rastreadores. 

Por lo tanto, la rastreabilidad es fundamental en el rendimiento de tu web.

¿Cómo funcionan los rastreadores web?

Para encontrar información relevante y de confianza, los bots comienzan con un número concreto de páginas. Buscan (o rastrean) los datos y, a continuación, siguen los enlaces mencionados a otras páginas, donde repetirán el mismo proceso una y otra vez.

Por lo tanto, los rastreadores siguen cientos de páginas, cuya información tiene el potencial de responder a las consultas de los usuarios. 

El siguiente paso de los motores de búsqueda, es posicionar las páginas en función de factores específicos para ofrecer a los usuarios el contenido más preciso, de confianza e interesante. 

Los factores que influyen en el algoritmo de Google y el posicionamiento son numerosos, y cambian constantemente. Algunos son muy conocidos (las palabras clave y su posicionamiento, la estructura de enlazado interno y externo, etc.). Y otros son más complejos de identificar como, por ejemplo, la calidad general de la web. 

Básicamente, cuándo hablamos sobre rastreo web, en realidad estamos valorando la facilidad con la que los bots web rastrean la información y contenido de tu sitio. Cuánto más sencilla sea la estructura y navegación de tu web, más probable es que te posiciones bien en los resultados de búsqueda.

Los rastreadores web y la rastreabilidad son factores esenciales en el SEO.

Cómo utiliza Semrush los rastreadores web

Los rastreadores web no son la herramienta secreta de los motores de búsqueda. En Semrush, también utilizamos rastreadores de búsqueda. Lo hacemos por dos razones clave:

  1. Para crear y mantener nuestra base de datos de backlinks
  2. Para ayudarte a analizar la salud de tu sitio

Nuestra base de datos de backlinks es una parte importante de nuestras herramientas. Nuestros rastreadores buscan constantemente nuevos backlinks para actualizar nuestras interfaces. 

Gracias a esto, puedes analizar los backlinks de tu sitio con la herramienta Backlink Audit y comprobar los perfiles de backlinks de tus competidores con nuestra herramienta Análisis de backlinks

Básicamente, puedes echar un vistazo a los enlaces de tus competidores al mismo tiempo que te aseguras de que los tuyos están saludables.

La segunda razón por la que utilizamos rastreadores de búsqueda es para nuestra herramienta Auditoría del sitio. Auditoría del sitio es un rastreador web que desglosa y categoriza el contenido de tu web para analizar su salud. 

Cuando llevas a cabo una auditoría del sitio con Semrush, la herramienta rastrea la web señalando cualquier error o cuello de botella. De esta forma, puedes hacer cambios y optimizar tu web directamente. Es una forma muy sencilla de rastrear una web.

Por qué deberías utilizar la herramienta Auditoría del sitio de Semrush para rastrear tu web

Al utilizar la herramienta Auditoría del sitio, solicitas a nuestros rastreadores que accedan a un sitio. A continuación, te ofrecerán una lista de problemas que muestra qué necesita una web para mejorar su SEO. 

Hay más de 120 problemas que puedes comprobar, incluyendo: 

  • contenido duplicado
  • enlaces rotos
  • implementación HTTPS
  • rastreabilidad (sí, ¡podemos decirte cómo de fácil es para los rastreadores acceder a tu web!)
  • indexabilidad. 

Y todo esto en segundos, con una interfaz fácil de utilizar, así que no tienes que preocuparte por perder tiempo para terminar con datos ilegibles.

img-semblog

¿Cuáles son los beneficios de rastrear tu web?

¿Por qué es tan importante revisar estos elementos? Vamos a desglosar los beneficios de algunos de ellos.

Capacidad de rastreo 

No debería sorprenderte que la capacidad de rastreo es el elemento más importante. Nuestros rastreadores web pueden decirte exactamente la facilidad con la que los bots de Google navegan por tu web y acceden a la información. 

Aprenderás a limpiar tu estructura web y organizar tu contenido, centrándote en tu sitemap, robots.txt, enlaces internos y estructura de URL.

A veces, algunas páginas de tu sitio no se pueden rastrear. Hay varias razones por las que puede ocurrir. Puede ser debido a una respuesta lenta del servidor (más de 5 segundos) o porque deniegue el acceso. Lo más importante es que una vez que sepas que hay un problema, te pongas manos a la obra.

Implementación HTTPS

Es un elemento muy importante de la auditoría si quieres pasar tu web de HTTP a HTTPS. Te ayudaremos a evitar los errores más comunes que los propietarios cometen en esta área, rastreando los certificados, redireccionamientos, etiquetas canónicas, encriptación y mucho más. Nuestros rastreadores web lo harán lo más sencillo posible. 

Enlaces rotos

Los enlaces rotos son una de las principales causas de un usuario disgustado. Además, tener una gran cantidad de enlaces rotos puede hundir tu posicionamiento en los resultados, ya que los rastreadores creerán que tu web no está bien mantenida o codificada. 

Nuestros rastreadores encontrarán los enlaces rotos y los solucionarán antes de que sea demasiado tarde. La solución es sencilla: elimina el enlace, sustitúyelo o contacta con el propietario de la web a la que estás enlazando y comunícale el problema. 

Contenido duplicado

El contenido duplicado puede perjudicar mucho a tu SEO. En el mejor caso, los motores de búsqueda posicionarán una de las páginas duplicadas, desplazando a la otra. En el peor, pueden suponer que estás intentando manipular los resultados y perjudicar o suspender tu web. 

Una auditoría del sitio puede ayudarte a evitarlo. Nuestros rastreadores de búsqueda encontrarán el contenido duplicado de tu sitio y te lo mostrarán. 

Puedes utilizar el método que prefieras para solucionar el problema, ya sea añadiendo un enlace rel=”canonical” en la página correcta, una redirección 301 o editar el contenido manualmente en las páginas implicadas.

Puedes descubrir más sobre estos problemas en nuestra guía sobre cómo conseguir que tu web sea más rastreable.

Cómo configurar un rastreador web con Auditoría del sitio de Semrush

Configurar un rastreador web en Auditoría del sitio de Semrush es tan sencillo que solo necesitas seis pasos. 

Antes de empezar, asegúrate de haber configurado un proyecto. Puedes hacerlo fácilmente desde tu panel. También puedes elegir un proyecto que ya hayas empezado en el que todavía no hayas realizado una auditoría del sitio. 

website crawler

Paso 1: configuración básica

Una vez tu proyecto esté configurado, es hora del primer paso: configurar los ajustes básicos.

Primero, configura el alcance de rastreo. Sea cual sea el dominio, subdominio o subcarpeta que quieras rastrear, puedes introducirlo en la sección "alcance de rastreo". Como puedes ver a continuación, si introduces un dominio, también puedes elegir si quieres incluir todos los subdominios. 

img-semblog

A continuación, ajusta el número máximo de páginas que quieras comprobar por auditoría. Cuántas más páginas rastrees, más fiable será la auditoría, pero es importante que tengas en cuenta tu nivel de compromiso y experiencia. ¿Qué tipo de suscripción tienes? ¿Con cuánta frecuencia vas a llevar a cabo auditorías? 

Para los Pros, recomendamos rastrear hasta 20.000 páginas por auditoría. Para los Gurus, lo mismo, hasta 20.000 páginas por auditoría y para los usuarios Business, 100.000 páginas por auditoría. Encuentra el límite que mejor encaje contigo.

img-semblog

Elige la fuente de rastreo. Esto es lo que decide cómo van a rastrear tu web y encontrar las páginas a auditar nuestros bots.

img-semblog

Como puedes ver, hay cuatro opciones.

  1. Sitio web: con esta opción, vamos a rastrear el sitio como el GoogleBot (a través de un algoritmo de amplitud), navegando a través de tus enlaces (empezando por tu home). Esta es una buena opción si solo estás interesado en rastrear las páginas más accesibles de una web desde la home. 
  2. Sitemaps en el sitio: si eliges esta opción, solo vamos a rastrear las URLs que encontremos en el sitemap del archivo robots.txt. 
  3. Introduce la URL del sitemap: es similar a sitemaps en el sitio, pero en este caso, puedes introducir tu propia URL del sitemap y hacer más concreta la auditoría. 
  4. URL de archivo: aquí es dónde puedes concretar exactamente las páginas que quieras auditar. Solo necesitas tenerlas guardadas como archivos .csv o .txt en tu ordenador y estar listo para subirlas directamente a Semrush.
    Es una buena opción si no necesitas una visión general. Por ejemplo, si has hecho cambios específicos en páginas concretas y solo quieres analizar su rendimiento. Te ahorrará presupuesto de rastreo y obtendrás la información que quieras ver.

Paso 2: configuración del rastreador 

A continuación, tienes que decidir el tipo de bot que quieras que rastree tu sitio. Hay cuatro combinaciones posibles, dependiendo de si eliges la versión móvil o de escritorio del SemrushBot o GoogleBot.

img-semblog

A continuación, elige la configuración del retraso. Elige entre el Retraso mínimo entre páginas, Respetar robots.txt o 1 URL cada 2 segundos. 

  1. Elige "retraso mínimo" si quieres que el bot rastree a su velocidad habitual. Para el SemrushBot, esto significa que dejará aproximadamente un segundo antes de comenzar a rastrear la siguiente página.
  2. "Respetar robots.txt" es ideal para cuando tienes un archivo robots.txt en tu sitio y necesitas un retraso de rastreo concreto. 
  3. Si te preocupa que tu web se ralentice por nuestro rastreador o no tienes una directiva de rastreo, probablemente deberías elegir "1 URL cada 2 segundos". Esto significa que la auditoría llevará más tiempo, pero no empeorará la experiencia de usuario durante la auditoría. 

Paso 3: permitir/rechazar URLs

Aquí es donde puedes personalizar tu auditoría decidiendo qué subcarpetas quieres que rastreemos y cuáles no. 

Para poder hacerlo correctamente, necesitas incluir todos los elementos de la URL después del TLD. Las subcarpetas que quieras que rastreemos van en la caja de la izquierda:

img-semblog

Y las que no, en la derecha:

img-semblog

Paso 4: eliminar parámetros de URL 

Este paso sirve para que tu presupuesto de rastreo no se desperdicie rastreando la misma página dos veces. Simplemente especifica los parámetros de URL que utilizas en tu sitio para eliminarlos antes del rastreo. 

img-semblog

Paso 5: omitir restricciones del sitio web

Este paso es perfecto para cuando necesites una solución alternativa. Pongamos, por ejemplo, que tu web está todavía en preproducción u oculta por autenticación de acceso básica. Si crees que no podemos llevar a cabo una auditoría, te equivocas.

Tienes dos opciones para solucionar el problema y asegurarte de que tu auditoría está en funcionamiento.

img-semblog
  1. La opción 1 es ignorar disallow en robots.txt y por metaetiqueta robots e implica subir el archivo .txt que te proporcionaremos, en la carpeta principal de tu web. 
  2. La opción 2 es rastrear con tus credenciales. Para hacerlo, lo único que tienes que hacer es introducir el usuario y la contraseña que utilizas para acceder a la parte oculta de tu web. El SemrushBot utilizará esta información para llevar a cabo la auditoría. 

Paso 6: programar las auditorias

El paso final es decirnos con qué frecuencia te gustaría que auditásemos tu web. Puede ser semanalmente, diariamente o una sola vez. Decidas lo que decidas, te recomendamos que lleves a cabo auditorías con regularidad para mantener la salud de tu sitio.

img-semblog

¡Y eso es todo! Has aprendido a rastrear una web con la herramienta Auditoría del sitio.

Echa un vistazo a los datos de tu rastreo web con Semrush

Todos los datos que tus páginas han recopilado durante el rastreo están guardados en la sección Auditoría del sitio de tu proyecto. 

img-semblog

Aquí, puedes encontrar tu puntuación de Site Health:

img-semblog

Puedes comprobar también el número total de páginas indexadas divididas en las categorías "Correctas", "Rotas" o "Con problemas". Este gráfico te permite identificar problemas y solucionarlos mucho más rápido. 

img-semblog

Por último, podrás evaluar cómo de fácil es rastrear tus páginas:

img-semblog

Si accedes a la sección de rastreabilidad, podrás ver detalladamente tu presupuesto de rastreo, la profundidad de rastreo, el sitemap vs. páginas rastreadas, la indexabilidad y mucho más.

website crawler

Ahora ya sabes cómo configurar el rastreador web de auditoría del sitio y dónde encontrar los datos que hemos recopilado para ti.

Recuerda: cuando mejoras la rastreabilidad, estás asegurándote de que los motores de búsqueda entiendan tu web y su contenido. Ayudar a los motores de búsqueda a rastrear tu web más fácilmente, te ayudará a posicionarte más alto en los resultados de búsqueda. 

Compartir
Author Photo
I am responsible for building meaningful connections between Semrush and the SEO community. To achieve this I create content that is helpful, brings new insights and adds value to the community. I am also a public speaker, regular webinar host and awards judge. Mainly fueled by caffeine and music.