¿La auditoría del sitio no funciona correctamente?
Existen varios motivos por los que el rastreador de Auditoría del sitio podría bloquear páginas en función de la configuración y estructura de tu sitio web, que incluyen:
- Robots.txt bloquea el rastreador
- Alcance del rastreo excluye ciertas áreas del sitio
- El sitio web no está directamente en línea debido al alojamiento compartido
- Las páginas están detrás de una puerta de enlace / área de base de usuarios del sitio
- Rastreador está bloqueado por etiqueta noindex
- El dominio no pudo ser resuelto por DNS - el dominio ingresado en la configuración está fuera de línea
- Contenido del sitio web está en Javascript: nuestro sistema solo verifica el contenido fijo del sitio web y solo puede proporcionar una auditoría parcial de los elementos dinámicos
Pasos para solucionar problemas
Sigue estos pasos de solución de problemas para ver si puedes hacer algún ajuste por tu cuenta antes de comunicarte con nuestro equipo de soporte para obtener ayuda.
Un archivo Robots.txt proporciona instrucciones a los bots sobre cómo rastrear (o no rastrear) las páginas de un sitio web. Puedes permitir y prohibir que bots como Googlebot o Semrushbot rastreen todo tu sitio o áreas específicas de tu sitio mediante comandos como Allow, Disallow y Crawl Delay.
Si tu archivo robots.txt no permite que nuestro bot rastree tu sitio, nuestra herramienta de Auditoría del sitio no podrá verificar tu sitio.
Puedes inspeccionar tu Robots.txt en busca de comandos de disallow que impidan que rastreadores como el nuestro accedan a tu sitio web.
Para permitir que el bot de Auditoría del sitio de Semrush (SiteAuditBot) rastree tu sitio, agrega lo siguiente en tu archivo robots.txt:
User-agent: SiteAuditBot
Disallow:
(deja un espacio en blanco después de "Disallow:")
Este es un ejemplo del aspecto que puede tener un archivo robots.txt:
Ten en cuenta los diversos comandos basados en el user agent (rastreador) al que se dirige el archivo.
Estos archivos son públicos y para poder encontrarlos deben estar alojados en el nivel superior de un sitio. Para encontrar el archivo robots.txt de un sitio web, ingresa el dominio raíz de un sitio seguido por /robots.txt en tu navegador. Por ejemplo, el archivo de robots.txt en Semrush.com se encuentra en https://semrush.com/robots.txt.
Algunos términos que puedes ver en un archivo robots.txt incluyen:
- User-Agent = el rastreador web al que le estás dando instrucciones.
- Ej: SiteAuditBot, Googlebot
- Allow = un comando (solo para Googlebot) que le dice al bot que puede rastrear una página o área específica de un sitio, incluso si la página o carpeta principal no está permitida.
- Disallow = un comando que le dice al bot que no rastree una URL o subcarpeta específica de un sitio.
- Ej: Disallow: /admin/
- Crawl Delay = un comando que le dice a los bots cuántos segundos deben esperar antes de cargar y rastrear otra página.
- Sitemap = indica dónde está el archivo sitemap.xml para una determinada URL.
- / = usa el símbolo "/" después de un comando disallow para decirle al bot que no rastree todo tu sitio
- * = un símbolo comodín que representa cualquier cadena de caracteres posibles en una URL, que se utiliza para indicar un área de un sitio o todos user agents.
- Ej: Disallow: /blog/* indicaría todas las URLs en la subcarpeta del blog de un sitio
- Ex: User agent: * indicaría instrucciones para todos los bots
Lee más sobre las especificaciones de Robots.txt de Google o en el blog de Semrush.
<meta name="robots" content="noindex, nofollow" >
O, una página que contenga al menos uno de los siguientes: "noindex", "nofollow", "none", dará lugar al error de rastreo.
Para permitir que nuestro bot rastree una página de este tipo, elimina estas etiquetas "noindex" del código de tu página. Para obtener más información sobre la etiqueta noindex, consulta este artículo de Soporte de Google.
Para incluir el bot en la lista blanca, ponte en contacto con tu webmaster o proveedor de alojamiento y pídeles que incluyan SiteAuditBot en la lista blanca.
Las direcciones IP del bot son 85.208.98.128/25 (una subred utilizada solo por Site Audit)
El bot está utilizando puertos estándar 80 HTTP y 443 HTTPS para conectarse.
Si usas complementos (Wordpress, por ejemplo) o CDNs (redes de distribución de contenidos) para administrar tu sitio, también tendrás que incluir la IP del bot en la lista blanca.
Para incluir en la lista blanca en Wordpress, ponte en contacto con el soporte de Wordpress.
Las CDNs comunes que bloquean nuestro rastreador incluyen:
- Cloudflare: lee cómo incluir en la lista blanca aquí
- Imperva: lee cómo incluir en la lista blanca aquí
- ModSecurity: lee cómo incluir en la lista blanca aquí
- Sucuri: lee cómo incluir en la lista blanca aquí
Ten en cuenta: si tienes alojamiento compartido, es posible que tu proveedor de alojamiento no te permita incluir bots en la lista blanca o editar el archivo Robots.txt.
Proveedores de alojamiento
A continuación, se muestra una lista de algunos de los proveedores de alojamiento más populares en la web y cómo incluir un bot en la lista blanca de cada uno o cómo comunicarte con su equipo de soporte para obtener ayuda:
- Siteground - instrucciones de lista blanca
- 1&1 IONOS - instrucciones de lista blanca
- Bluehost* - instrucciones de lista blanca
- Hostgator* - instrucciones de lista blanca
- Hostinger - instrucciones de lista blanca
- GoDaddy - instrucciones de lista blanca
- GreenGeeks - instrucciones de lista blanca
- Big Commerce - Debes ponerte en contacto con el soporte
- Liquid Web - Debes ponerte en contacto con el soporte
- iPage - Debes ponerte en contacto con el soporte
- InMotion - Debes ponerte en contacto con el soporte
- Glowhost - Debes ponerte en contacto con el soporte
- A2 Hosting - Debes ponerte en contacto con el soporte
- DreamHost - Debes ponerte en contacto con el soporte
* Ten en cuenta: estas instrucciones funcionan para HostGator y Bluehost si tienes un sitio web en VPS o alojamiento dedicado.
Dependiendo de tu nivel de suscripción, estás limitado a un número determinado de páginas que puedes rastrear en un mes (presupuesto de rastreo mensual). Si excedes la cantidad de páginas permitidas dentro de tu suscripción, tendrás que comprar límites adicionales o esperar hasta el próximo mes cuando tus límites se actualizarán.
Además, si encuentras el error “Has alcanzado el límite para ejecutar campañas simultáneamente” durante la configuración, ten en cuenta que diferentes niveles de suscripción tienen diferentes límites para auditorías simultáneas.
- Free: 1
- Pro: 2
- Guru: 2
- Business: 5
Para evitar este problema, el propietario del sitio web podría agregar una redirección desde el "ejemplo.com" no seguro al "www.example.com" seguro que existe en el servidor. Este problema también podría ocurrir al revés, si el dominio raíz de alguien está protegido, pero su versión WWW no lo está. En tal caso, solo tendrías que redirigir la versión WWW al dominio raíz.
Si tu página de inicio tiene enlaces al resto de tu web que están ocultos en elementos JavaScript, tienes que habilitar JS-rendering para que podamos leerlos y rastrear esas páginas. Esta función está disponible con la suscripción al plan Guru o Business.
Para que no nos dejemos las páginas más importantes de tu web en el rastreo, puedes modificar tu fuente de rastreo de web a sitemap: de este modo no nos dejaremos ninguna página que figure en el sitemap.
También podemos rastrear el HTML de una página que tenga algunos elementos JS, y podemos revisar los parámetros de tus archivos JS y CSS con las comprobaciones de Rendimiento.
Es posible que tu sitio web esté bloqueando SemrushBot en tu archivo robots.txt. Puedes cambiar el agente de usuario de SemrushBot a GoogleBot y de este modo es probable que tu sitio web permita el rastreo del agente de usuario de Google. Para realizar este cambio, busca el engranaje de configuración en tu Proyecto y selecciona User Agent.
Si se utiliza esta opción, los recursos internos bloqueados y las páginas bloqueadas de las comprobaciones de rastreo no se activarán. Ten en cuenta que para usar esto, se deberá verificar la propiedad del sitio.
Esto es útil para sitios que se encuentran actualmente en mantenimiento. También es útil cuando el propietario del sitio no desea modificar el archivo robots.txt.
Para auditar áreas privadas de tu sitio web que están protegidas con contraseña, ingresa tus credenciales en la opción "Rastreo con tus credenciales" debajo del engranaje de configuración. Esto permite que el bot de Auditoría del sitio llegue a esas páginas y las audite.
Esto es muy recomendable para sitios que aún están en desarrollo o que son privados y están completamente protegidos por contraseña.
Ponte en contacto con el soporte de Semrush
Si necesitas una asistencia más personal, te puedes dirigir a nuestro equipo de soporte.