¿Qué es el contenido duplicado en SEO y cómo solucionarlo?

Juan Rodríguez Talavera

sep 11, 20158 min de lectura
¿Qué es el contenido duplicado en SEO y cómo solucionarlo?

TABLA DE CONTENIDOS

En SEO, el contenido duplicado es uno de los mayores problemas a los que se enfrenta nuestra página web.

No obstante, MattCutts dijo hace un tiempo que aproximadamente un 25% de todo el contenido web de Internet es duplicado.

¿Sabéis que si lo tenéis podéis limitar muchísimo el potencial de vuestra web?

Es por ello, que en esta ocasión me gustaría hablaros de qué se considera contenido duplicado en SEO, cómo saber si lo tenemos y cómo podríamos solucionarlo.

¿Qué es y qué no es el contenido duplicado en SEO?

Al hablar de SEO, el contenido duplicado es uno de los factores que más nos preocupan.

Este contenido duplicado es cuando Google al analizar dos o más páginas diferentes las considera como muy similares. Puede ser desde texto hasta una imagen pasando por una dirección web como por ejemplo www.ejemplo.com, www.ejemplo.com/ hasta www.ejemplo.com/index.php.

En un artículo publicado por Google, el buscador deja claro que el contenido duplicado en una web no es motivo de penalización a no ser que su intención sea manipular los resultados de búsqueda.

En ese caso, Google podrá actuar contra la página web hasta su eliminación por completo de los resultados de búsqueda.

Por lo tanto, el contenido duplicado no es sólo el mismo texto en diferentes URLs, sino que, también es diferentes URLs para un mismo contenido.

Eso pasa con mucha frecuencia en páginas webs de eCommerce cuando personalizamos un artículo, que nos encontramos con muchos parámetros diferentes para una misma página, siendo ideal que cada pieza de contenido tenga sólo una URL asociada a ella.

¿Por qué es malo el contenido duplicado en SEO?

Una vez citado qué es el contenido duplicado con la explicación por la cual Google podría penalizarnos eliminando nuestra web de los resultados, trataremos de entenderlo un poco más.

Los robots de Google, ya de por sí, asignan un margen de tiempo limitado al rastreo de cada web. Para acabar de ponerlo peor, el contenido duplicado hace que los robots pierdan parte de ese tiempo buscando y, por tanto, nos asignen cada vez menos lapso temporal.

Dicho así suena problemático, y es quizá una de las principales razones por las que caemos en fallos de indexación.

Al tener dos o más versiones de lo mismo, también estamos provocando que las señales de autoridad, como por ejemplo los Backlinks y las acciones en Social Media dividan sus esfuerzos, haciendo que cada versión sea más débil, y por lo general, limitando nuestro rendimiento.

¿Cómo saber si tienes contenido duplicado en tu web?

La duplicación puede darse de muchas formas, por ejemplo: si tenemos dos dominios o subdominios; versiones para dispositivos móviles usando las mismas meta etiquetas como títulos, descripciones, etc.; así como, diferentes urls para una misma página aunque con parámetros diferentes como podría ser "/ejemplo" y /ejemplo/".

Sin embargo, no todo es malo, y aunque tengamos contenido duplicado asimple vista, existen algunas técnicas para decirle a Google que un mismo contenido, por ejemplo en español, es para usuarios de diferentes países o que una de las versiones de nuestra web no es la principal.

Errores y técnicas para solucionar contenido duplicado

Dicho todo lo anterior y puestos en situación, vamos al lío con distintas consideraciones sobre contenido duplicado en SEO.

He recogido algunos errores comunes, vistos siempre desde mi experiencia, por lo que, si veis algo que no os cuadre os agradecería un comentario que ayude a mejorar y completar este artículo.

1. No utilizar la etiqueta Hreflang para SEO Internacional

Esta es una de las primeras cosas que aprendí.

Imaginad que sois nuevos y, de repente, tenéis que buscaros la vida para decirle a Google que no cuente como duplicado el mismo contenido en una web.

En estos casos la etiqueta hreflang es vital.

Por ejemplo, en mi caso, un eCommerce con el mismo contenido pero en el que sólo cambia el precio de los productos...

¿Cómo le digo a Google que no es duplicado sino que va orientado a otro público?

La solución pasa por esta etiqueta que le dice a Google qué versión debe mostrar en qué país.

Hreflang es muy útil en dos casos: por un lado, cuando tenemos una página web con el mismo contenido pero traducido literalmente, y por otro, cuando tenemos el mismo contenido y en el mismo idioma.

En este último caso habría que especificar idioma y país.

De esta forma, solucionamos una posible penalización por contenido duplicado, mostrando la página correcta a la persona ideal.

Algo importante a tener en cuenta, es que para que esto tenga sentido, hay que usarlo en ambas páginas duplicadas.

Además de que Google recomienda usarlo con el "canonical" que luego veremos en el siguiente apartado.

Por ejemplo, para un mismo contenido en español dirigido tanto a México como a España usaremos hreflang="es-es" y hreflang=”es-mx”.

2. Contenido duplicado en URLs separadas

Esto es algo más complicado, y aunque suele darse con normalidad en eCommerce, también lo vemos en webs de contenido.

Por ejemplo, con todos los parámetros creados a partir de una personalización.

Lo típico que vemos "/noticias?personalizacion=1&producto=loquesea" y "/noticias?producto=loquesea&personalizacion=1", así como la repetición de carpetas "/productos/productos/" y la forma en la que pueden terminar las urls, html y aspx, por ejemplo.

Lo primero que vamos a hacer en este caso es solucionar estos problemas con redirecciones 301 que le digan a Google la versión buena de nuestro contenido, la que queremos que indexe bien.

Lo siguiente será elegir entre varias técnicas:

  1. Establecer una etiqueta rel=noindex en los enlaces, dejando la página fuera del alcance del robot.
  2. Etiqueta "rel=canonical" para decirle al robot que página es la adecuada (teniendo cuidado, claro, ya que no es válida para diferentes dominios como por ejemplo un canonical de www.dominiouno.com a www.dominiodos.com).
  3. Añadir un carácter especial a nuestras URLs cuando estas sean dinámicas. Se trata de la almohadilla #, una técnica para parametrizar las paginas AJAX que hace que Google no indexe lo que hay después de ellas, dejando la URL en www.ejemplo.com/#!personalizacion-producto1-loquesea2.

Atención, no usar robots.txt de nuestro servidor para excluir carpetas de rastreo.

Si los robots no pueden rastrear esas páginas, no pueden detectar que esas URLs dirigen al mismo contenido, y por lo tanto, las tratan como páginas separadas.

3. Opciones de dominio

El primer problema entra dentro de las opciones de dominio.

La persona que entra a nuestra web ve el mismo sitio pero en dominios ligeramente diferentes.

Aquí encontramos desde los propios de ejemplo.com y ejemplo.net, hasta los de seguridad http y https.

Una forma de arreglar esto es mediante redirecciones 301 que le indiquen a Google que el dominio "bueno" es uno de ellos, o dicho de otra forma, le especificaremos a Google qué dominio de todos es el bueno.

También podremos usar la etiqueta canonical, diciéndole a los motores de búsqueda la versión "primaria" del sitio web, sin que esto afecte a los usuarios.

Por otro lado, uno de los casos que recuerdo especialmente es el de tener y no tener "www." antes de nuestro dominio. En ese caso Google Webmaster Tools nos servirá de mucha ayuda para decirle al buscador lo que queremos que tome como principal.

4. Títulos y descripciones

Ahora un error más sencillo.

Tenemos el mismo título con idéntica descripción en cada página, o bien porque por ejemplo, vendemos recambios de productos electrónicos y son todos muy parecidos o por las razones que sea.

El problema aquí es que éstas prácticas no sólo hacen que Google no sepa qué mostrar en resultados de búsqueda, sino que, confundiremos al usuario afectando al CTR.

Para arreglarlo tenemos varias opciones... podemos usar desde Google Webmaster Tools hasta ScreamingFrog para identificar qué títulos y descripciones tenemos duplicadas, y a partir de ahí, labor de artesano (como me gusta decir).

Se trata de cambiar todos los títulos y descripciones posibles pensando en las personas que nos van a visitar.

¿Las medidas ideales? Entre 120 y 140 caracteres para la meta descripción y 60 para el título.

El problema que nos encontramos aquí lo tenemos por ejemplo en comunicados de prensa copiados literalmente.

El contenido en cuestión genera un enlace a nuestra web, y aunque cada vez tienen un peso menor en el posicionamiento, podría ser confundido como spam, siendo penalizados por Google.

Y nadie quiere ser penalizado por Google, ¿verdad?

Esto lo podemos arreglar, por ejemplo, con SEMrush que identifica qué sitios web nos enlazan entrando en ellos y comprobando lo que se dice de nosotros.

La solución es tan sencilla como escribir a cada web, pedirles un cambio en el anchor text (texto que nos enlaza) o bien que retiren la página.

Y si no, siempre podemos crear un .txt y enviarlo a Google mediante Disawov Links de Webmaster Tools.

Buenas prácticas SEO para evitar contenido duplicado

Conclusiones

Como he mencionado a lo largo del artículo, detectar contenido duplicado no es una labor sencilla y rápida sino que requiere de mucho tiempo y esfuerzos, porque hay ocasiones en las que este contenido duplicado se genera de forma accidental, como en el caso de las URLs.

No obstante, hay que tener en cuenta que Google es una máquina y no tiene posibilidad de revisar a mano cada página web, al menos de momento, por lo que, siempre contamos con unas buenas prácticas para asegurarnos de que no tenemos contenido duplicado que afecte a nuestro SEO.

Resumiendo:

  1. Haz URLs canónicas o crea redirecciones 301 para las páginas que tienen varias rutas.
  2. Usa la etiqueta hrflang cuando tu contenido este orientado a varios idiomas o regiones.
  3. Reivindica la autoría de tus contenidos.
  4. Establece un objetivo para cada artículo, y crea un título y descripción lo más único posible.
  5. Haz una estrategia de enlaces internos consistente y natural.

Foto (Workflow for computer): Shutterstock

Esto son algunas de las técnicas que se pueden usar, ¿tenéis alguna pregunta?

Háznoslo saber en los comentarios y lo discutimos con más calma.

Compartir
Author Photo
Desde que un ordenador cayera en sus manos por primera vez, Juan no ha tenido un momento sin que un proyecto alimentara sus incansables ganas de aprender y reinventarse (como lo demuestra en su blog). Autodidacta y observador, escuchar a los demás es clave en su día a día.