Tu navegador no está actualizado. El sitio web podría no mostrarse correctamente. Actualiza tu navegador.

Solución de problemas de Auditoría del sitio

Manual

¿La auditoría del sitio no funciona correctamente?

Existen varios motivos por los que el rastreador de Auditoría del sitio podría bloquear páginas en función de la configuración y estructura de tu sitio web, que incluyen:

  • Robots.txt bloquea el rastreador
  • Alcance del rastreo excluye ciertas áreas del sitio
  • El sitio web no está directamente en línea debido al alojamiento compartido
  • Las páginas están detrás de una puerta de enlace / área de base de usuarios del sitio
  • Rastreador está bloqueado por etiqueta noindex
  • El dominio no pudo ser resuelto por DNS - el dominio ingresado en la configuración está fuera de línea
  • Contenido del sitio web está en Javascript: nuestro sistema solo verifica el contenido fijo del sitio web y solo puede proporcionar una auditoría parcial de los elementos dinámicos

Pasos para solucionar problemas

Sigue estos pasos de solución de problemas para ver si puedes hacer algún ajuste por tu cuenta antes de comunicarte con nuestro equipo de soporte para obtener ayuda.

Verifica tu Robots.txt para ver si hay comandos Disallow

Un archivo Robots.txt proporciona instrucciones a los bots sobre cómo rastrear (o no rastrear) las páginas de un sitio web. Puedes permitir y prohibir que bots como Googlebot o Semrushbot rastreen todo tu sitio o áreas específicas de tu sitio mediante comandos como AllowDisallow y Crawl Delay.

Si tu archivo robots.txt no permite que nuestro bot rastree tu sitio, nuestra herramienta de Auditoría del sitio no podrá verificar tu sitio.

Puedes inspeccionar tu Robots.txt en busca de comandos de disallow que impidan que rastreadores como el nuestro accedan a tu sitio web.

Para permitir que el bot de Auditoría del sitio de Semrush (SemrushBot-SA) rastree tu sitio, agrega lo siguiente en tu archivo robots.txt:

User-agent: SemrushBot-SA

Disallow:   

(deja un espacio en blanco después de "Disallow:")

Este es un ejemplo del aspecto que puede tener un archivo robots.txt:

Solución de problemas de Auditoría del sitio image 1

Ten en cuenta los diversos comandos basados en el user agent (rastreador) al que se dirige el archivo.

Estos archivos son públicos y para poder encontrarlos deben estar alojados en el nivel superior de un sitio. Para encontrar el archivo robots.txt de un sitio web, ingresa el dominio raíz de un sitio seguido por /robots.txt en tu navegador. Por ejemplo, el archivo de robots.txt en Semrush.com se encuentra en https://semrush.com/robots.txt.

Algunos términos que puedes ver en un archivo robots.txt incluyen:

  • User-Agent = el rastreador web al que le estás dando instrucciones.
    • Ej: SemrushBot-SI, Googlebot
  • Allow = un comando (solo para Googlebot) que le dice al bot que puede rastrear una página o área específica de un sitio, incluso si la página o carpeta principal no está permitida.
  • Disallow = un comando que le dice al bot que no rastree una URL o subcarpeta específica de un sitio.
    • Ej: Disallow: /admin/
  • Crawl Delay = un comando que le dice a los bots cuántos segundos deben esperar antes de cargar y rastrear otra página.
  • Sitemap = indica dónde está el archivo sitemap.xml para una determinada URL.
  • / = usa el símbolo "/" después de un comando disallow para decirle al bot que no rastree todo tu sitio
  • * = un símbolo comodín que representa cualquier cadena de caracteres posibles en una URL, que se utiliza para indicar un área de un sitio o todos user agents.
    • Ej: Disallow: /blog/* indicaría todas las URLs en la subcarpeta del blog de un sitio
    • Ex: User agent: * indicaría instrucciones para todos los bots

Lee más sobre las especificaciones de Robots.txt de Google o en el blog de Semrush.

Elimina etiquetas restrictivas de tu sitio
Si ves el siguiente código en la página principal de un sitio web, nos dice que no podemos indexar/seguir enlaces en él y nuestro acceso está bloqueado.

<meta name="robots" content="noindex, nofollow" >

O, una página que contenga al menos uno de los siguientes: "
noindex", "nofollow", "none", dará lugar al error de rastreo.

Para permitir que nuestro bot rastree una página de este tipo, elimina estas etiquetas "noindex" del código de tu página. Para obtener más información sobre la etiqueta noindex, consulta este
artículo de Soporte de Google.
Añade SemrushBot a la lista blanca

Para incluir el bot en la lista blanca, ponte en contacto con tu webmaster o proveedor de alojamiento y pídeles que incluyan SemrushBot-SA y SiteAuditBot en la lista blanca.

Las direcciones IP del bot son:

  • 46.229.173.68
  • 46.229.173.67
  • 46.229.173.66
  • 85.208.98.128/25

El bot está utilizando puertos estándar 80 HTTP y 443 HTTPS para conectarse.

Si usas complementos (Wordpress, por ejemplo) o CDNs (redes de distribución de contenidos) para administrar tu sitio, también tendrás que incluir la IP del bot en la lista blanca.

Para incluir en la lista blanca en Wordpress, ponte en contacto con el soporte de Wordpress.

Las CDNs comunes que bloquean nuestro rastreador incluyen:

  • Cloudflare: lee cómo incluir en la lista blanca aquí
  • Imperva: lee cómo incluir en la lista blanca aquí
  • ModSecurity: lee cómo incluir en la lista blanca aquí
  • Sucuri: lee cómo incluir en la lista blanca aquí

Ten en cuenta: si tienes alojamiento compartido, es posible que tu proveedor de alojamiento no te permita incluir bots en la lista blanca o editar el archivo Robots.txt.

Proveedores de alojamiento

A continuación, se muestra una lista de algunos de los proveedores de alojamiento más populares en la web y cómo incluir un bot en la lista blanca de cada uno o cómo comunicarte con su equipo de soporte para obtener ayuda:

  1. Siteground - instrucciones de lista blanca
  2. 1&1 IONOS - instrucciones de lista blanca
  3. Bluehost* - instrucciones de lista blanca
  4. Hostgator* - instrucciones de lista blanca
  5. Hostinger - instrucciones de lista blanca
  6. GoDaddy - instrucciones de lista blanca
  7. GreenGeeks - instrucciones de lista blanca
  8. Big Commerce - Debes ponerte en contacto con el soporte
  9. Liquid Web - Debes ponerte en contacto con el soporte
  10. iPage - Debes ponerte en contacto con el soporte
  11. InMotion - Debes ponerte en contacto con el soporte
  12. Glowhost - Debes ponerte en contacto con el soporte
  13. A2 Hosting - Debes ponerte en contacto con el soporte
  14. DreamHost - Debes ponerte en contacto con el soporte

* Ten en cuenta: estas instrucciones funcionan para HostGator y Bluehost si tienes un sitio web en VPS o alojamiento dedicado.

Comprueba los límites de la cuenta
Para ver cuánto de tu presupuesto de rastreo actual se ha utilizado, ve a Perfil - Info de suscripción y busca "Páginas a rastrear" en "Mi plan".

Dependiendo de tu nivel de suscripción, estás limitado a un número determinado de páginas que puedes rastrear en un mes (presupuesto de rastreo mensual). Si excedes la cantidad de páginas permitidas dentro de tu suscripción, tendrás que comprar límites adicionales o esperar hasta el próximo mes cuando tus límites se actualizarán.
Redirecciones adecuadas (para problemas de DNS)
Si el dominio no pudo ser resuelto por DNS, probablemente significa que el dominio que ingresaste durante la configuración está fuera de línea. Por lo general, los usuarios tienen este problema al ingresar a un dominio raíz (ejemplo.com) sin darse cuenta de que la versión del dominio raíz de su sitio no existe y la versión WWW de su sitio necesitaría ingresar en su lugar (www.example.com).

Para evitar este problema, el propietario del sitio web podría agregar una redirección desde el "ejemplo.com" no seguro al "www.example.com" seguro que existe en el servidor. Este problema también podría ocurrir al revés, si el dominio raíz de alguien está protegido, pero su versión WWW no lo está. En tal caso, solo tendrías que redirigir la versión WWW al dominio raíz.
Cambia fuente de rastreo (JavaScript)

Semrush no puede analizar el contenido de JavaScript en este momento, por lo que si tu página de inicio tiene enlaces al resto de tu sitio ocultos en elementos de JavaScript, no podremos leerlos ni rastrear esas páginas.

Rastreamos JS y CSS y realizamos comprobaciones de rendimiento. No podemos renderizar JS porque no podemos obtener contenido y enlaces que se muestran solo después de renderizar.

Sin embargo, puedes implementar el esquema de rastreo AJAX, y la Auditoría del sitio encontrará enlaces en tu JavaScript y los seguirá hasta el contenido de tu sitio al que enlazan. Todo lo que tienes que hacer es volver a ejecutar tu campaña y cambiar la fuente de rastreo de auditoría de sitio web a Sitemap. Puedes leer más sobre esto en una de nuestras noticias.

Para no perder las páginas más importantes de tu sitio web con nuestro rastreo, puedes cambiar tu fuente de rastreo de sitio web a sitemap; de esta manera, no perderemos ninguna de las páginas que se mencionan en el sitemap.

Aunque no podemos rastrear contenido JavaScript, podemos rastrear el HTML de una página que tiene algunos elementos de JS y podemos revisar los parámetros de tus archivos de JS y CSS con nuestras verificaciones de rendimiento.

Cambia el User Agent

Es posible que tu sitio web esté bloqueando SemrushBot en tu archivo robots.txt. Puedes cambiar el agente de usuario de SemrushBot a GoogleBot y de este modo es probable que tu sitio web permita el rastreo del agente de usuario de Google. Para realizar este cambio, busca el engranaje de configuración en tu Proyecto y selecciona User Agent.

Solución de problemas de Auditoría del sitio image 2

Bypass Disallow en Robots.txt

Si se utiliza esta opción, los recursos internos bloqueados y las páginas bloqueadas de las comprobaciones de rastreo no se activarán. Ten en cuenta que para usar esto, se deberá verificar la propiedad del sitio.

Esto es útil para sitios que se encuentran actualmente en mantenimiento. También es útil cuando el propietario del sitio no desea modificar el archivo robots.txt.

Rastrea con tus credenciales

Para auditar áreas privadas de tu sitio web que están protegidas con contraseña, ingresa tus credenciales en la opción "Rastreo con tus credenciales" debajo del engranaje de configuración. Esto permite que el bot de Auditoría del sitio llegue a esas páginas y las audite.

Esto es muy recomendable para sitios que aún están en desarrollo o que son privados y están completamente protegidos por contraseña.

Solución de problemas de Auditoría del sitio image 3

Ponte en contacto con el soporte de Semrush

Si aún tienes problemas para ejecutar la Auditoría del sitio, envía un correo electrónico a mail@semrush.com o llámanos al número que figura en el pie de página del sitio web para explicar tu problema.

Visto recientemente