Hay contenido en tu sitio que no es necesario que los motores de búsqueda lo indexen. Y para evitar la indexación de las páginas que no son necesarias, puedes utilizar una metaetiqueta robot o x-robots-tag.
Sin embargo, es común que los robots.txt y meta etiquetas robots se utilicen incorrectamente. Esto da como resultado directivas confusas y conflictivas que no logran el resultado deseado: evitar que se indexe una página.
En esta guía, queremos ayudarte a comprender cómo usar las metaetiquetas de robots y la etiqueta x-robots-tag para controlar la indexación del contenido de tu sitio web y para ayudarte a detectar los errores comunes.
Específicamente, vamos a echar un vistazo a:
- ¿Qué son las metaetiquetas robots?
- Atributos y directivas de las metaetiquetas robots
- Ejemplos de código de metaetiquetas de robots
- Uso de metaetiquetas robots para controlar los snippets
- ¿Qué es X‑Robots-Tag?
- Cómo configurar metaetiquetas robots y X-Robots-Tag
- Errores comunes de Meta Robots
¿Qué son las metaetiquetas robots?
Una metaetiqueta robots, o también conocida como etiqueta de robots, es un fragmento de código HTML que se coloca en la sección <head> </head> de una página web y se utiliza para controlar cómo los motores de búsqueda rastrean e indexan una URL.
Así es como se ve una metaetiqueta robot en el código de una página:
<meta name="robots" content="noindex" />
Estas etiquetas son específicas para cada página y permiten indicar a los motores de búsqueda cómo deseas que manejen la página y si deben incluirla o no en el índice.
¿Para qué se utilizan las metaetiquetas robots?
Las metaetiquetas robots se utilizan para controlar cómo Google indexa el contenido de tu página web. Esto incluye:
- Incluir o no una página en los resultados de búsqueda
- Seguir o no los enlaces de una página (incluso si está bloqueada para que no se indexe)
- Solicitud de no indexar las imágenes en una página
- Solicitud de no mostrar los resultados almacenados en caché de la página web en las SERPs
- Solicitud de no mostrar un snippet (meta descripción) de la página en las SERPs
Para comprender cómo se puede usar una metaetiqueta robots, debemos observar los diferentes atributos y directivas. Te compartiremos ejemplos de código que puedes tomar y colocar en el encabezado de tu página para solicitar a los motores de búsqueda que indexen tu página de cierta manera.
Atributos y directivas de las metaetiquetas robots
Usar metaetiquetas de robots es bastante simple una vez que comprendas cómo configurar los dos atributos: name content. Ambos atributos son obligatorios, por lo que debes establecer un valor para cada uno.
Echemos un vistazo a estos atributos con más detalle.
Nombre
El atributo name controla que los rastreadores y bots (agentes de usuario, también conocidos como UA (user-agents)) sigan las instrucciones que están en la metaetiqueta robots.
Para indicar a todos los rastreadores que sigan las instrucciones, utiliza:
name="robots"
En la mayoría de los escenarios, querrás usar esto como predeterminado, pero puedes usar tantas etiquetas meta robots diferentes como sea necesario para especificar instrucciones para diferentes rastreadores.
Para dar instrucciones a diferentes rastreadores, se trata simplemente de utilizar varias etiquetas:
<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">
Hay cientos de agentes de usuario diferentes. Los más comunes son:
- Google: Googlebot (puedes ver una lista completa de los rastreadores de Google aquí)
- Bing: Bingbot (puedes ver una lista completa de los rastreadores de Google aquí)
- DuckDuckGo: DuckDuckBot
- Baidu: Baiduspider
- Yandex: YandexBot
Content
El atributo content se utiliza para dar las instrucciones al agente de usuario especificado.
Es importante saber que si no especificas una metaetiqueta de robots en una página web, el valor predeterminado es indexar la página y seguir todos los enlaces (a menos que tengan un atributo rel="nofollow" especificado).
Las diferentes directivas que puedes usar incluyen:
- index (incluir la página en el índice) [Nota: no es necesario incluir esto si no se especifica ningún índice, se asume como índice]
- noindex (no incluir la página en el índice ni mostrarle en las SERPs)
- follow (seguir los enlaces de la página para descubrir otras páginas)
- nofollow (no seguir los enlaces de la página)
- none (un atajo para especificar noindex, nofollow)
- all (un atajo para especificar index, follow)
- noimageindex (no indexar las imágenes en la página)
- noarchive (no mostrar una versión en caché de la página en las SERPs)
- nocache (es lo mismo que noarchive, pero solo para MSN)
- nositelinkssearchbox (no mostrar un cuadro de búsqueda para tu sitio en las SERPs)
- nopagereadaloud (no permitir que los servicios de voz lean tu página en voz alta)
- notranslate (no mostrar traducciones de la página en las SERPs)
- unavailable_after (especificar un tiempo después del cual la página no debe indexarse
Puedes ver una lista completa de las directivas que tiene Google aquí y las que tiene Bing aquí.
Ejemplos de código de metaetiquetas de robots
Si buscas ejemplos de metaetiquetas robots que puedas usar para controlar cómo los motores de búsqueda rastrean e indexan tus páginas web, puedes usar los siguientes casos de uso más comunes:
No indexar la página, pero seguir los enlaces a otras páginas:
<meta name="robots" content="noindex, follow" />
No indexar la página y no seguir los enlaces a otras páginas:
<meta name="robots" content="none" />
Indexar la página pero no seguir los enlaces a otras páginas:
<meta name="robots" content="nofollow" />
No mostrar una copia de la caché de la página en las SERPs:
<meta name="robots" content="noarchive" />
No indexar las imágenes en una página:
<meta name="robots" content="noimageindex" /
No mostrar la página en las SERPs después de una fecha/hora especificada:
<meta name="robots" content="unavailable_after: Friday, 01-Jan-21 12:59:59 ET" />
Si es necesario, puedes combinar directivas en una sola etiqueta, separándolas con comas.
Como ejemplo, digamos que no quieres que se sigan ninguno de los enlaces de una página y también deseas evitar que las imágenes se indexen. Utiliza:
<meta name="robots" content="nofollow, noimageindex" /
Uso de metaetiquetas robots para controlar los snippets
Si bien las metaetiquetas robots se usan más comúnmente para controlar si una página está indexada o no y si los enlaces de esa página son rastreados por los motores de búsqueda, también se pueden usar para controlar snippets en las SERPs.
Introducido en septiembre de 2019, Google escribió que los webmasters podían usar "un conjunto de métodos que permiten una configuración más detallada del contenido de vista previa que se muestra para tus páginas".
Son las siguientes metaetiquetas robots:
- nosnippet (no mostrar un snippet/meta descripción de la página en las SERPs)
- max-snippet: (especificar la longitud máxima de texto de un snippet en caracteres)
- max-video-preview: (especificar la duración máxima de una vista previa de vídeo en segundos)
- max-image-preview: (especificar el tamaño máximo de la vista previa de una imagen como "none", "standard" o "large")
Utiliza el siguiente código para controlar cómo se muestran los snippets de tu página web:
No mostrar snippets de una página en las SERPs:
<meta name="robots" content="nosnippet" />
Establecer la longitud máxima de un snippet de texto en 150 caracteres:
<meta name="robots" content="max-snippet:150" />
Establecer la duración máxima de una vista previa de vídeo en 20 segundos:
<meta name="robots" content="max-video-preview:30" />
Establecer el tamaño máximo de una vista previa de imagen en grande:
<meta name="robots" content="max-image-preview:large" />
También, se pueden combinar varias metaetiquetas para tener un mayor control sobre los snippets de tu página. Supongamos que deseas establecer la longitud máxima de tu snippet en 150 caracteres y permitir vistas previas de imágenes grandes, utiliza:
<meta name="robots" content="max-snippet:150, max-image-preview:large" />
Si tienes una audiencia en Francia, debes prestar mucha atención a estas etiquetas, ya que la ley de derechos de autor francesa impide que Google muestre fragmentos de tu sitio web a menos que optes por usarlos.
Si no deseas imponer restricciones a tus snippets, puedes agregar lo siguiente en todo el sitio en el encabezado de tu página:
<meta name="robots" content="max-snippet:-1, max-image-preview:large, max-video-preview:-1" />
¿Qué es X‑Robots-Tag?
Una forma alternativa de controlar cómo los motores de búsqueda rastrean e indexan tus páginas web es utilizar la etiqueta x-robots-tag en lugar de las metaetiquetas robots.
Si bien implementar metaetiquetas robots en páginas HTML es relativamente sencillo, x-robots-tag es más complicado. Si deseas controlar cómo se maneja el contenido que no es HTML, por ejemplo, un PDF, deberás usar la etiqueta x-robots-tag.
Esta es una cabecera de respuesta HTTP, en lugar de una etiqueta HTML. Cualquier directiva que se pueda usar como una metaetiqueta robots también se puede usar como una etiqueta x-robots-tag.
A continuación, se muestra un ejemplo de cómo se ve una cabecera de respuesta x-robots-tag:
x-robots-tag: noindex, nofollow
Para usar la etiqueta x-robots, deberás poder acceder al encabezado del sitio web de tu sitio .php, .htaccess, o archivo de configuración del servidor. Si no tienes acceso a esto, deberás usar metaetiquetas robots para instruir a los rastreadores.
¿Cuándo utilizar la etiqueta X-Robots-Tag?
Usar una etiqueta x-robots-tag no es tan sencillo como usar las metaetiquetas robots, pero permite indicar a los motores de búsqueda cómo indexar y rastrear otros tipos de archivos.
Utiliza la etiqueta x-robots-tag cuando:
- Debes controlar cómo los motores de búsqueda rastrean e indexan los tipos de archivos que no son HTML.
- Debes publicar directivas a nivel global (en todo el sitio) en lugar de a nivel de página.
Cómo configurar metaetiquetas robots y X-Robots-Tag
La configuración de las metaetiquetas de robots es, en general, más fácil que la etiqueta x-robots-tag, pero la implementación de ambos métodos para controlar cómo los motores de búsqueda rastrean e indexan tu sitio puede diferir dependiendo de tu CMS y/o tipo de servidor.
A continuación, te explicamos cómo utilizar las etiquetas meta robots y la etiqueta x-robots-tag en configuraciones comunes:
- Uso de metaetiquetas robots en código HTML
- Uso de metaetiquetas robots en WordPress
- Uso de metaetiquetas robots en Shopify
- Uso de X-Robots-Tag en un servidor Apache
- Uso de X-Robots-Tag en un servidor Nginx
Uso de metaetiquetas robots en código HTML
Si puedes editar el código HTML de tu página, simplemente agrega tus metaetiquetas robots directamente en la sección <head> de la página.
Si quieres que los motores de búsqueda no indexen la página, pero quieres que se sigan los enlaces, como ejemplo, usa:
<meta name="robots" content="noindex, follow" />
Uso de metaetiquetas robots en WordPress
Si estás utilizando Yoast SEO, abre la pestaña 'avanzado' en el bloque debajo del editor de página.
Puedes configurar la directiva "noindex" configurando la opción "¿Permitir que los motores de búsqueda muestren esta página en los resultados de búsqueda?" menú desplegable a no o evitar que se sigan los enlaces estableciendo la opción "¿Deberían los motores de búsqueda seguir los enlaces de esta página?" a no.
Para cualquier otra directiva, deberás implementarlas en el campo "Meta robots avanzados".
Si estás utilizando RankMath, puedes seleccionar las directivas de robots que deseas aplicar directamente desde la etiqueta Avanzado del cuadro meta:
Fuente de la imagen: RankMath
Uso de metaetiquetas robots en Shopify
Si necesitas implementar metaetiquetas robots en Shopify, deberás hacerlo editando la sección de tu archivo de diseño theme.
Para establecer las directivas para una página específica, agrega el siguiente código a este archivo:
{% if handle contains 'page-name' %}
<meta name="robots" content="noindex, follow">
{% endif %}
Este código instruirá a los motores de búsqueda que no indexen /page-name/ sino que sigan todos los enlaces de la página.
Deberás introducir el código independiente para establecer las directivas en diferentes páginas.
Uso de X-Robots-Tag en un servidor Apache
Para usar la etiqueta x-robots-tag en un servidor web Apache, agrega lo siguiente al archivo .htaccess o httpd.config de tu sitio.
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, follow"
</Files>
El ejemplo anterior establece el tipo de archivo .pdf e indica a los motores de búsqueda que no indexen el archivo, sino que sigan los enlaces en él.
Uso de X-Robots-Tag en un servidor Nginx
Si tienes un servidor Nginx, agrega lo siguiente al archivo .conf de tu sitio:
location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, follow";
}
Esto aplicará un atributo noindex y seguirá cualquier enlace en un archivo .pdf.
Errores comunes de Meta Robots
No es raro que se cometan errores al indicar a los motores de búsqueda cómo rastrear e indexar una página web. Los más comunes son:
- Directivas de meta robots en una página bloqueada por robots.txt
- Agregar directivas de robots al archivo robots.txt
- Eliminar las páginas con una directiva noindex de sitemap
- Bloquear accidentalmente los motores de búsqueda para que no rastreen un sitio completo
Directivas de meta robots en una página bloqueada por robots.txt
Si una página no está permitida en tu archivo robots.txt, los robots de los motores de búsqueda no podrán rastrear la página y tomar nota de las directivas que se colocan en las metaetiquetas robots o en una etiqueta x-robots-tag.
Asegúrate de que se puedan rastrear todas las páginas que instruyen a los agentes de usuario de esta manera.
Si una página nunca ha sido indexada, una regla de disallow de robots.txt debería ser suficiente para evitar que esto se muestre en los resultados de búsqueda, pero aún se recomienda agregar una metaetiqueta de robots.
Agregar directivas de robots al archivo robots.txt
Si bien Google nunca lo admitió oficialmente, solía ser posible agregar una directiva noindex al archivo robots.txt de tu sitio.
Este ya no es el caso y Google confirmó que ya no sería efectivo desde 2019.
Eliminar las páginas con una directiva noindex de sitemap
Si estás intentando eliminar una página del índice utilizando una directiva noindex, deja la página en el sitemap de tu sitio hasta que esto suceda.
Eliminar la página antes de que se haya desindexado puede causar retrasos en esto.
Bloquear accidentalmente los motores de búsqueda para que no rastreen un sitio completo
Lamentablemente, no es raro que las directivas de robots que se utilizan en un entorno de staging se dejen accidentalmente en su lugar cuando el sitio se traslada a un servidor activo, y los resultados pueden ser desastrosos.
Antes de mover cualquier sitio de una plataforma de staging a un entorno en vivo, verifica que las direcciones de robots sean las correctas.;
Puedes utilizar la herramienta de Auditoría del sitio de Semrush antes de migrar a una plataforma en vivo para encontrar cualquier página que esté bloqueada con metaetiquetas robots o con la etiqueta x-robots-tag.
Al tomar el tiempo para comprender las diferentes directivas y cómo usarlas, puedes evitar errores técnicos de SEO. Tener suficiente control sobre cómo se rastrean e indexan tus páginas puede ayudar a mantener las páginas no deseadas fuera de las SERPs, evitar que los motores de búsqueda sigan enlaces innecesarios y darle control sobre cómo se muestran los snippets de tu sitio, entre otras cosas. ¡Comienza a configurar tus metaetiquetas robots y x-robots-tag para asegurarte de que tu sitio funcione sin problemas!