Errores de rastreo: Qué son y cómo solucionarlos en 2024

Samy Ben Sadok

may 13, 202412 min de lectura
rastreador de sitios
Compartir

TABLA DE CONTENIDOS

Para hacer nuestro contenido accesible a más usuarios, hemos traducido este artículo del inglés al español mediante traducción automática. Haz clic aquí para leer el artículo original. Si detectas algún problema en el contenido, no dudes en escribirnos a report-osteam@semrush.com.

Los rastreadores web (también llamados arañas o bots) son programas que visitan (o "rastrean") páginas en toda la web. 

Y los motores de búsqueda utilizan rastreadores para descubrir contenidos que luego pueden indexar, es decir, almacenar en sus enormes bases de datos.

Estos programas descubren tu contenido siguiendo los enlaces de tu sitio.

Pero el proceso no siempre va bien debido a los errores de rastreo.

Antes de sumergirnos en estos errores y en cómo abordarlos, empecemos por lo básico. 

¿Qué son los errores de rastreo?

Los errores de rastreo se producen cuando los rastreadores de los motores de búsqueda no pueden navegar por tus páginas web como lo hacen normalmente (se muestra a continuación).

Cómo descubre Google las páginas

Cuando esto ocurre, los motores de búsqueda como Google no pueden explorar y comprender completamente el contenido o la estructura de tu sitio web.

Esto es un problema porque los errores de rastreo pueden impedir que se descubran tus páginas. Lo que significa que no pueden indexarse, aparecer en los resultados de las búsquedas ni dirigir tráfico orgánico (no remunerado) a tu sitio.

Google separa los errores de rastreo en dos categorías: errores de sitio y errores de URL.

Exploremos ambas cosas.

Errores del sitio 

Los errores de sitio son errores de rastreo que pueden afectar a todo tu sitio web.

Los errores de servidor, DNS y robots.txt son los más comunes.

Errores del servidor

Los errores de servidor (que devuelven un código de estado HTTP 5xx) se producen cuando el servidor impide que se cargue la página. 

Éstos son los errores de servidor más comunes:

  • Error interno del servidor (500): El servidor no puede completar la solicitud. Pero también puede activarse cuando no se dispone de errores más específicos.
  • Error de pasarela incorrecta (502): Un servidor actúa como pasarela y recibe una respuesta no válida de otro servidor
  • Error de servicio no disponible (503): El servidor no está disponible actualmente, normalmente cuando el servidor está en reparación o se está actualizando
  • Error de tiempo de espera de la pasarela (504): Un servidor actúa como pasarela y no recibe a tiempo la respuesta de otro servidor. Como cuando hay demasiado tráfico en el sitio web.

Cuando los motores de búsqueda encuentran constantemente errores 5xx, pueden ralentizar la tasa de rastreo de un sitio web. 

Eso significa que los motores de búsqueda como Google podrían ser incapaces de descubrir e indexar todo tu contenido.

Errores DNS

Un error del sistema de nombres de dominio (DNS) se produce cuando los motores de búsqueda no pueden conectar con tu dominio.

Todos los sitios web y dispositivos tienen al menos una dirección de protocolo de Internet (IP) que los identifica de forma única en la red.

El DNS facilita que las personas y los ordenadores se comuniquen entre sí haciendo coincidir los nombres de dominio con sus direcciones IP.

Sin el DNS, introduciríamos manualmente la dirección IP de un sitio web en lugar de escribir su URL.

Así, en lugar de introducir "www.semrush.com" en tu barra de URL, tendrías que utilizar nuestra dirección IP: "34.120.45.191."

Los errores de DNS son menos frecuentes que los errores de servidor. Pero éstas son las que te puedes encontrar:

  • Tiempo de espera del DNS: Tu servidor DNS no ha respondido a tiempo a la petición del buscador
  • Búsqueda DNS: El motor de búsqueda no pudo llegar a tu sitio web porque tu servidor DNS no pudo localizar tu nombre de dominio

Errores en Robots.txt

Los errores de robots.txt surgen cuando los motores de búsqueda no pueden recuperar tu archivo robots.txt.

Tu archivo robots.txt indica a los motores de búsqueda qué páginas pueden rastrear y cuáles no.

Este es el aspecto de un archivo robots.txt.

Un archivo robots.txt

Aquí tienes las tres partes principales de este archivo y lo que hace cada una:

  • Agente de usuario: Esta línea identifica al rastreador. Y "*" significa que las reglas son para todos los robots de los motores de búsqueda.
  • No permitir/permitir: Esta línea indica a los robots de los motores de búsqueda si deben rastrear tu sitio web o determinadas secciones del mismo
  • Mapa del sitio: Esta línea indica la ubicación de tu mapa del sitio

Errores de URL 

A diferencia de los errores de sitio, los errores de URL sólo afectan a la rastreabilidad de páginas concretas de tu sitio.

Aquí tienes un resumen de los distintos tipos:

404 Errores

Un error 404 significa que el bot del motor de búsqueda no ha podido encontrar la URL. Y es uno de los errores de URL más comunes.

Ocurre cuando:

  • Has cambiado la URL de una página sin actualizar los enlaces antiguos que apuntaban a ella
  • Has eliminado una página o un artículo de tu sitio sin añadir una redirección
  • Tienes enlaces rotos; por ejemplo, hay errores en la URL

Este es el aspecto de una página 404 básica en un servidor Nginx.

Una página 404 básica con el mensaje "404 No encontrado".

Pero la mayoría de las empresas utilizan hoy páginas 404 personalizadas. 

Estas páginas personalizadas mejoran la experiencia del usuario. Y te permiten mantener la coherencia con el diseño y la marca de tu sitio web.

Página 404 personalizada de Amazon con la imagen de un perro llamado "Brandi"

Errores Soft 404

Los errores Soft 404 se producen cuando el servidor devuelve un código 200 pero Google cree que debería ser un error 404.

El código 200 significa que todo va bien. Es el código de respuesta HTTP esperado si no hay problemas

Entonces, ¿qué causa los errores soft 404?

  • Problema con el archivo JavaScript: El recurso JavaScript está bloqueado o no se puede cargar
  • Contenido escaso: La página tiene un contenido insuficiente que no aporta suficiente valor al usuario. Como una página de resultados de búsqueda interna vacía.
  • Contenido de baja calidad o contenido duplicado: La página no es útil para los usuarios o es una copia de otra página. Por ejemplo, las páginas de marcadores de posición que no deberían estar activas, como las que tienen contenido "lorem ipsum". O contenido duplicado que no utiliza URL canónicas, que informan a los motores de búsqueda de cuál es la página principal.
  • Otros motivos: Faltan archivos en el servidor o se ha roto la conexión con tu base de datos

Esto es lo que se ve en Google Search Console (GSC) cuando encuentras páginas con esto.

Sección de páginas "Soft 404" en Google Search Console

403 Errores Prohibidos

El error 403 prohibido significa que el servidor denegó la petición de un rastreador. Significa que el servidor ha entendido la petición, pero el rastreador no puede acceder a la URL.

Este es el aspecto de un error 403 prohibido en un servidor Nginx.

Cg19KzYN2b9t6uwi9CJGQbtoELSxSaYrEPTTX77Bevmlfm96ZsxFQndb38_bGd8aVotgMlEPWABs-KDRUoQcT4O_q7Y5AWSB11T9WhDE4MM2YU7QnhXHRA4EAnGGyX2bvzM6eNQkbBQy15dHu8y7zbA

Los problemas con los permisos del servidor son las principales causas del error 403. 

Los permisos del servidor definen los derechos de los usuarios y administradores sobre una carpeta o archivo. 

Podemos dividir los permisos en tres categorías: lectura, escritura y ejecución. 

Por ejemplo, no podrás acceder a una URL si no tienes permiso de lectura.

Un archivo .htaccess defectuoso es otra causa recurrente de errores 403. 

Un archivo .htaccess es un archivo de configuración utilizado en los servidores Apache. Es útil para configurar ajustes e implementar redireccionamientos.

Pero cualquier error en tu archivo .htaccess puede provocar problemas como un error 403.

Redirigir bucles

Un bucle de redireccionamiento se produce cuando la página A redirige a la página B. Y la página B a la página A. 

Resultados?

Un bucle infinito de redirecciones que impide a los visitantes y rastreadores acceder a tu contenido. Lo que puede dificultar tu posicionamiento.

Una imagen que muestra un bucle de redireccionamiento, de la página A a la página B

Cómo encontrar errores de rastreo

Auditoría del sitio

La Auditoría del Sitio de Semrush te permite descubrir fácilmente los problemas que afectan a la rastreabilidad de tu sitio. Y ofrece sugerencias sobre cómo abordarlos.

Abre la herramienta, introduce el nombre de tu dominio y haz clic en "Iniciar auditoría".

Barra de búsqueda de la herramienta Auditoría del sitio

Después, sigue la guía de configuración de la Auditoría del Sitio para ajustar tu configuración. Y haz clic en "Iniciar Auditoría del Sitio."

Ventana "Configuración de la auditoría del sitio"

Accederás al informe "Visión general".

Haz clic en "Ver detalles" en el módulo "Rastreabilidad", dentro de "Informes temáticos".

Módulo "Rastreabilidad" destacado en "Informes temáticos"

Obtendrás una comprensión general de cómo lo estás haciendo en términos de errores de rastreo. 

Sección "Errores 4xx" resaltada en el informe de rastreabilidad

A continuación, selecciona un error concreto que quieras resolver. Y haz clic en la barra correspondiente junto a él en el módulo "Residuos del presupuesto de rastreo".

Hemos elegido el 4xx para nuestro ejemplo.

En la siguiente pantalla, haz clic en "Por qué y cómo solucionarlo". 

Ventana "Por qué y cómo solucionarlo" para un error 4xx

Obtendrás la información necesaria para comprender el problema. Y consejos para solucionarlo. 

Consola de Búsqueda de Google

Google Search Console también es una herramienta excelente que ofrece una valiosa ayuda para identificar errores de rastreo.

Accede a tu cuenta de GSC y haz clic en "Configuración" en la barra lateral izquierda.

A continuación, haz clic en "ABRIR INFORME" junto a la pestaña "Estadísticas de rastreo".

"INFORME ABIERTO" seleccionado junto a la pestaña "Estadísticas de rastreo" en GSC

Desplázate hacia abajo para ver si Google ha detectado problemas de rastreo en tu sitio. 

Haz clic en cualquier problema, como los errores de servidor 5xx.

"Error de servidor (5XX)" seleccionado en GSC

Verás la lista completa de URL que coinciden con el error que has seleccionado.

Ejemplos de errores 5XX identificados en el SGC

Ahora puedes abordarlas una a una.

Cómo corregir errores de rastreo

Ahora sabemos cómo identificar los errores de rastreo. 

El siguiente paso es comprender mejor cómo solucionarlos.

Corregir errores 404

Probablemente te encontrarás con errores 404 con frecuencia. Y la buena noticia es que son fáciles de arreglar.

Puedes utilizar redireccionamientos para corregir errores 404.

Utiliza redireccionamientos 301 para las redirecciones permanentes porque te permiten conservar parte de la autoridad de la página original. Y utiliza redireccionamientos 302 para las redirecciones temporales.

¿Cómo eliges la URL de destino para tus redireccionamientos?

Aquí tienes algunas buenas prácticas:

  • Añade una redirección a la nueva URL si el contenido sigue existiendo
  • Añade una redirección a una página que trate el mismo tema o uno muy similar si el contenido ya no existe 

Hay tres formas principales de desplegar redireccionamientos.

El primer método es utilizar un plugin. 

Aquí tienes algunos de los plugins de redireccionamiento más populares para WordPress:

El segundo método consiste en añadir redireccionamientos directamente en el archivo de configuración de tu servidor.

Este es el aspecto que tendría una redirección 301 en un archivo .htaccess de un servidor Apache.

Redirigir 301 https://www.yoursite.com/old-page/ https://www.yoursite.com/new-page/

Puedes dividir esta línea en cuatro partes:

  • Redirigir: Especifica que queremos redirigir el tráfico
  • 301: Indica el código de redirección, indicando que se trata de una redirección permanente
  • https://www.yoursite.com/old-page/: Identifica la URL desde la que redirigir
  • https://www.yoursite.com/new-page/: Identifica la URL a la que redirigir

No recomendamos esta opción si eres principiante. Porque puede afectar negativamente a tu sitio si no estás seguro de lo que haces. Por tanto, asegúrate de trabajar con un desarrollador si optas por esta vía.

Por último, puedes añadir redireccionamientos directamente desde el backend si utilizas Wix o Shopify. 

Si utilizas Wix, desplázate hasta la parte inferior del panel de control de tu sitio web. Luego haz clic en "SEO" en "Marketing & SEO".

"SEO" seleccionado en el menú "Marketing & SEO" en Wix

Haz clic en "Ir al Administrador de redireccionamiento de URL", situado en la sección "Herramientas y configuración".

Widget "Gestor de redireccionamiento de URL" seleccionado en la sección "Herramientas y configuración".

A continuación, haz clic en el botón "+ Nueva redirección" situado en la esquina superior derecha.

Botón "+ Nueva Redirección" seleccionado en la esquina superior derecha

Aparecerá una ventana emergente. Aquí puedes elegir el tipo de redirección, introducir la URL antigua desde la que quieres redirigir y la URL nueva a la que quieres dirigir.

"Ventana emergente "Añadir una redirección

Estos son los pasos a seguir si utilizas Shopify: 

Accede a tu cuenta y haz clic en "Tienda Online" dentro de "Canales de venta".

Después, selecciona "Navegación".

Desde aquí, ve a "Ver redireccionamientos de URL".

Haz clic en el botón "Crear redirección URL".

Introduce la URL antigua desde la que quieres redirigir a los visitantes y la URL nueva a la que quieres redirigir a tus visitantes. "/" para dirigirte a la página de inicio de tu tienda).

Por último, guarda la redirección.

Ventana "Redirigir URL" con una URL antigua redirigida a una URL nueva

Los enlaces rotos (enlaces que apuntan a páginas que no se pueden encontrar) también pueden ser un motivo de errores 404. Así pues, veamos cómo podemos identificar rápidamente los enlaces rotos con la herramienta Auditoría del Sitio y solucionarlos.

Arreglar enlaces rotos

Un enlace roto apunta a una página o recurso que no existe.

Digamos que has estado trabajando en un nuevo artículo y quieres añadir un enlace interno a tu página acerca de en "tuweb.com/acerca de".

Cualquier error tipográfico en tu enlace creará enlaces rotos.

Así, obtendrás un error de enlace roto si has olvidado la letra "b" e introduces "tu_sitio.com/aout" en lugar de "tu_sitio.com/about".

Los enlaces rotos pueden ser internos (apuntan a otra página de tu sitio) o externos (apuntan a otro sitio web).

Para encontrar enlaces rotos, configura Auditoría del Sitio si aún no lo has hecho.

Después, ve a la pestaña "Cuestiones". 

Pestaña "Problemas" en la herramienta Auditoría del Sitio

Ahora, escribe "enlaces internos" en la barra de búsqueda de la parte superior de la tabla para encontrar problemas relacionados con enlaces rotos. 

Resultados de "enlaces internos" en la pestaña "Temas

Y haz clic en el texto azul en el que se puede hacer clic para ver la lista completa de URL afectadas.

Una lista que muestra una sección de 13 enlaces internos que un roto

Para solucionarlos, cambia el enlace, restaura la página que falta o añade una redirección 301 a otra página relevante de tu sitio.

Corregir errores de Robots.txt

La herramienta Auditoría del sitio de Semrush también puede ayudarte a resolver problemas relacionados con tu archivo robots.txt.

Primero, configura un proyecto en la herramienta y ejecuta tu auditoría.

Una vez completado, ve a la pestaña "Temas" y busca "robots.txt".

Resultados de "robots.txt" en la pestaña "Temas

Ahora verás los problemas relacionados con tu archivo robots.txt en los que puedes hacer clic. Por ejemplo, podrías ver un enlace "El archivo Robots.txt tiene errores de formato" si resulta que tu archivo tiene errores de formato.

Sigue adelante y haz clic en el texto azul sobre el que se puede hacer clic.

"El archivo Robots.txt tiene errores de formato" texto resaltado

Y verás una lista de las líneas no válidas del archivo.

Resultado de un archivo robots.txt no válido resaltado de la lista

Puedes hacer clic en "Por qué y cómo solucionarlo" para obtener instrucciones específicas sobre cómo solucionar el error.

Ventana "Por qué y cómo solucionarlo" para un error del archivo robots.txt

Controla la rastreabilidad para garantizar el éxito

Para asegurarte de que tu sitio pueda ser rastreado (e indexado y clasificado), primero debes hacerlo apto para los motores de búsqueda.

Tus páginas podrían no aparecer en los resultados de búsqueda si no es así. Por tanto, no dirigirás ningún tráfico orgánico.

Encontrar y solucionar problemas de rastreabilidad e indexabilidad es fácil con la herramienta Auditoría del sitio.

Incluso puedes configurarlo para que rastree tu sitio automáticamente de forma recurrente. Para asegurarte de que estás al tanto de cualquier error de rastreo que deba abordarse.

Compartir
Author Photo
Samy Ben Sadok has 7+ years of experience in SEO and digital marketing. He has developed skills in areas like e-commerce, AI & automation, and data analytics. He’s currently managing SEO at KuCoin, the fourth-largest crypto exchange globally. At Semrush, he applies his SEO and marketing knowledge to deliver reliable growth strategies.