¿Cómo y por qué filtrar el tráfico no deseado en Google Analytics?

Antonio Fernández Alonso

ene 16, 201727 min de lectura
¿Cómo y por qué filtrar el tráfico no deseado en Google Analytics?

TABLA DE CONTENIDOS

¿Por qué es importante filtrar el tráfico no deseado o tráfico basura (visitas SPAM)?

Dicen que una imagen vale más que mil palabras, así que empezaré este artículo con la siguiente imagen para que comprendáis la importancia y el impacto que el tráfico no deseado puede tener en nuestras estrategias:

Gráfica de las páginas visitadas a un sitio web

Esta gráfica corresponde a un sitio web real que, en unos pocos días, casi triplicó el número de visitas a páginas.

La primera sensación ante tal comportamiento es una mezcla de sorpresa y euforia, mientras una pregunta revolotea sobre nuestra cabeza: “¿qué ha pasado?”

Si ves una gráfica así en tu sitio web, seguro que revisas tu registro de actividades y acciones de tu estrategia de difusión, promoción o posicionamiento del sitio web, para encontrar una explicación a ese crecimiento.

Y, casi siempre, encontrarás algo que coincida en el tiempo con este cambio y que, legítimamente, lo justificaría, como la publicación de un post en el que te esmeraste especialmente, una revisión en la optimización de palabras clave, un cambio en la estrategia Social Media o el inicio de una nueva campaña, por poner algunos ejemplos más que posibles.

Si te sigues llevando por la euforia, consideras que has acertado plenamente en el cambio o ampliación de tu estrategia y, claro, continúas con ella...

Hasta que varias semanas después observas que esta explosión de visitas no viene pareja con el aumento de otras métricas mucho más relevantes y, al final, las que realmente importan: por ejemplo, que las conversiones mantienen un mismo nivel.

Ahora cambian las sensaciones.

De la euforia pasamos a la zozobra, de la alegría a la desazón, mientras nos hacemos esta pregunta: “¿qué está pasando?”.

Y pensamos que puede ser un problema de la Landing Page o que las palabras clave no están optimizadas para la conversión...

Pero, ¿y si todo el problema hubiera estado en esa primera gráfica?

Veamos ahora la siguiente gráfica, del mismo sitio web, en las mismas fechas y la misma métrica:

Comparación de la gráfica de visitas antes y después de filtrar el spamming

En este informe vemos la comparación entre dos gráficas: la gráfica azul corresponde con la primera que vimos, mientras que la gráfica naranja representa la misma métrica pero filtrando el tráfico basura.

Como veis, apenas hubo un cambio significativo en su comportamiento y todas las decisiones que hubiéramos tomado a partir de la primera gráfica habrían estado condenadas al fracaso, dado que partían de supuestos falsos.

El tráfico no deseado suministra información falsa a la analítica web que nos hará tomar decisiones estratégicas equivocadas.

¿Podemos detectar y evitar el tráfico no deseado?

Visto el enorme impacto que el tráfico basura y el Ghost Spam en particular, pueden tener en nuestras estrategias, lo primero que nos planteamos es si podemos detectar y eliminar este tráfico basura y si existe algún método para evitarlo.

En ambos casos, la respuesta es afirmativa.

Solo así habría sido posible obtener la gráfica comparativa en el apartado anterior.

Ahora bien, ¿cómo lograrlo?

Nuestro problema de interpretación del número de visitas se produjo porque nos habíamos limitado a los resultados globales en esta métrica, sin entrar a analizar más profundamente el origen exacto de su radical aumento.

En otras palabras, ¿qué provocó esa subida?

Pero si consultamos las tablas con datos más detallados en Google Analytics, habríamos observado dos entradas con información algo desconcertante a primera vista:

Filas del informe de visitas Analytics sospechosas de ser Spam

Son varios los datos de esta tabla que llaman la atención:

  1. Nunca antes había habido visitas desde la dirección lifehacker.com, donde, además, la “k” no es una “k” real, sino un carácter con esa apariencia.
  2. Tampoco habíamos tenido visitas anteriormente desde la dirección reddit.com.
  3. Ambos muestran porcentajes de rebote cercanos al 0% visitando 2 páginas, casi en números redondos por sesión. ¿Tanto interés despertaba, de repente, el sitio web?
  4. El porcentaje de nuevas sesiones rondaba el 90%. No es que sea demasiado atípico, pero tampoco es un valor habitual para el sitio web (que ronda entre el 60-70%).

Veamos ahora cuáles serían esos datos si desechamos (filtramos) las visitas correspondientes a estas direcciones:

Comparación de las visitas de los presuntos spammers antes y después de filtrarlos

¡Increíble! De 489 visitas entre ambos, hemos pasado a 0 visitas.

Además, si investigamos un poco por Internet, encontramos que hay debate en la red debido a tráfico spam que proviene de la dirección lifehacker.com y reddit.com.

Hemos dado pues, con el origen de nuestros males y, desde este momento, podemos configurar nuestro servidor o Google Analytics para que los datos relacionados con ese spamming sean filtrados, tanto de los informes de resultados globales como de las propias tablas de datos.

Esta situación que he descrito no es tan inusual como puede parecer.

La mayoría de los webmasters, especialmente los propietarios de sitios pequeños e incluso medianos, están centrados en el desarrollo de su modelo de negocio, no tienen por qué ser expertos en analítica web ni suelen tener el tiempo suficiente.

Por tanto, su analítica web gira fundamentalmente en torno a los resultados y comportamientos globales, sin ser conscientes de lo que se “cuece” por debajo, de lo que puede llegar a representar o a afectar a su negocio, ni cómo solucionar cualquier anomalía o aberración en el análisis.

Los webmasters deberían revisar periódicamente las visitas de su web y saber cómo identificar cuáles pueden corresponder a spammers.

La mayoría de las veces, copian soluciones para filtrar el tráfico basura publicado en blogs o sitios web especializados, con la esperanza de que resuelvan el problema y con cierta resignación de que no pueden hacer mucho más.

Sin embargo, muchas veces estas soluciones solo palian parte del problema, puesto que no se adaptan a las visitas concretas de su sitio web, es decir, que tenga filtros para visitas spam que el sitio no está recibiendo pero, en cambio, no tengan filtros para las que sí está recibiendo.

Por este motivo, los webmasters deberían realizar tareas básicas de análisis de las visitas que están teniendo, para ser capaces de identificar cuáles pueden corresponder a potenciales fuentes de spam y crear ellos mismos los filtros para que no contaminen el análisis de los resultados globales.

Posibles fuentes de tráfico no deseado

Habréis observado que hasta he usado un poco indistintamente tráfico no deseado, tráfico basura y Ghost Spam, pero ¿es lo mismo?

En realidad, se podría decir que todo Ghost Spam es tráfico basura pero, no todo el tráfico basura es Ghost Spam porque hay otros tipos de tráfico no deseado que pueden alterar el análisis de los informes de Google Analytics:

  • Nuestras propias visitas al sitio web

No es tráfico basura como tal, pero sí que son visitas que Analytics contabiliza y, si suponen un porcentaje significativo del total, pueden distorsionar los informes de análisis.

  • Crawler Referral Spam

O simplemente Crawler Spam.

Visitan y, normalmente, recorren todo el sitio web con algún propósito, ya sea bueno (buscadores) o malo (hackers).

  • Ghost Spam

El más peligroso de los tres porque, de ahí su nombre (“fantasma”), en realidad no visitan al sitio web, sino que se hacen con él (en cierta forma).

Veamos ahora cada uno con más detalle...

► Provenientes de nuestras propias visitas

Este tráfico no deseado no se puede considerar “spam” en el estricto sentido de la palabra, pero debemos evaluarlo para valorar su posible impacto en la tendencia general de las visitas totales de nuestro sitio web.

Para sitios webs grandes y decenas de miles de visitas diarias en el cómputo general, el impacto de nuestras propias visitas al sitio web o, por extensión, del equipo desarrollador del sitio web, suele ser bastante pequeño y puede ignorarse por su escaso impacto.

En sitios webs más pequeños, con unos pocos cientos o miles de visitas, puede darse la situación de que nuestras visitas supongan un porcentaje significativo del total.

Si nuestras visitas se mantuvieran más o menos constantes a lo largo del tiempo, quizás no resultaría demasiado problemático, puesto que no afectarían a la tendencia general de las visitas totales.

Sin embargo, lo habitual es que visitemos nuestro sitio web con mayor frecuencia cuando acabamos de lanzar una novedad, estamos revisando nuevas funcionalidades o ¡cómo no! las primeras semanas después de haberlo lanzado porque, ¿quién puede resistirse a ver cómo está creciendo su nueva criatura?

Esto significa que durante esos días o semanas nuestras visitas tendrán un impacto más significativo en nuestras estadísticas y pueden alterar la tendencia de las visitas totales.

Así, a medida que visitamos menos nuestro sitio web, también descenderán las visitas totales, lo cual nos puede llegar a hacer creer que estamos haciendo algo mal con nuestras estrategias.

Nuestras propias visitas a nuestro sitio web pueden afectar a la interpretación y análisis de los datos de visitas de Google Analytics.

Para que os hagáis una idea del impacto que las visitas propias pueden tener, la siguiente gráfica muestra la comparación de las visitas totales, sin filtrar, que un sitio web recibía durante sus primeras semanas, a finales de 2015, con respecto a las visitas descontando las realizadas por el propietario del sitio web:

Comparación de las visitas recibidas, contablizando o no las visitas propias

Como podéis ver, en algunos momentos las visitas propias pueden suponer casi la totalidad de las visitas del sitio web.

Hay diferentes métodos para filtrar las visitas propias en Google Analytics pero, salvo que tengamos una configuración de navegador muy concreta o una dirección IP fija, solo tienen efecto desde el momento en que son creados o activados.

Aunque algunos de estos métodos no son triviales, existen complementos (plugins) disponibles para los navegadores más extendidos, que hacen este filtrado a la perfección.

Por tanto, mi recomendación es que, si no filtráis vuestras propias visitas, lo hagáis cuanto antes, sobre todo, si no tenéis un volumen muy alto de visitas totales.

► Provenientes de Crawler (Referral) Spam

En su faceta positiva, los Crawlers o rastreadores, son las aplicaciones informáticas que los buscadores utilizan para visitar todas las páginas de un sitio web y parsearlas (“leerlas”) con el fin de indexarlas y posicionarlas cuando los usuarios hagan búsquedas relacionadas con esas páginas.

Estos rastreadores suelen respetar una serie de reglas de “buena urbanidad”, en el sentido de que no hacen más visitas que las realmente necesarias, para no saturar al servidor web ni realizar muchas visitas en un margen de tiempo demasiado pequeño.

Además, estos rastreadores, como prueba de su buena educación, respetan lo que les digamos en el fichero robots.txt, que puede controlar y restringir qué páginas visitan y cuáles no.

En general, no deberíamos preocuparnos demasiado por estos rastreadores, gracias a sus buenas prácticas, pero como pueden ser muchos rastreadores distintos los que pueden visitarnos, el efecto acumulado de todas sus visitas sí que puede ser significativo.

Afortunadamente, Google Analytics proporciona un mecanismo para filtrar estas visitas, a través de los siguientes pasos:

  1. Seleccionar la pestaña de “Administrador” en el menú superior de Google Analytics.
  2. Seleccionar la cuenta, propiedad y vista del sitio web donde queráis filtrar las visitas de los rastreadores.
  3. Seleccionar la opción “Ver configuración” bajo la columna de la vista seleccionada.
  4. Marcar la opción “Excluir todos los hits de robots y de arañas conocido” y pulsar el botón “Guardar”.
Cómo filtrar rastreadores conocidos en Google Anaytics

Sin embargo, no todos los rastreadores son tan “benévolos”, sino que también tienen su Lado Oscuro.

Hay multitud de rastreadores que pululan por Internet con malas intenciones y que, claro, no van a ser tan “considerados” como para respetar las normas de “buena urbanidad” o del fichero robots.txt.

Los Crawler Referral Spam realizan visitas reales a los sitios web y no respetan las instrucciones del fichero robots.txt del servidor.

Por ejemplo, por mencionar algunas de sus malas acciones, pueden rastrear páginas y sitios web para encontrar vulnerabilidades de seguridad y hackearlos o parsear el contenido para buscar direcciones de correo electrónico, números de teléfono u otros datos de contacto para campañas de marketing abusivas.

► Provenientes de Ghost Spam

Los dos tipos de Spam que hemos visto anteriormente tienen una característica común: producen visitas “reales” en el sitio web.

Pueden parecer una nimiedad pero esta propiedad hace que tengamos más alternativas para tratar contra ellos, como veremos más adelante.

Sin embargo, los Ghost Spam no visitan realmente el sitio web, sino que interactúan directamente sobre los servidores de Google Analytics, haciéndoles creer que nuestro sitio web ha recibido una visita.

Comprendamos mejor cómo funcionan los Ghost Spam y cómo engañan a los servidores haciendo un breve recorrido de la mecánica del seguimiento y registro de visitas que hace Analytics.

Una visita “verdadera” a un sitio web, que tiene el código de seguimiento de Google Analytics en la cabecera de sus páginas, se registra en los servidores de Google mediante los siguientes pasos:

  1. La visita accede a una página web.
  2. El navegador carga y ejecuta el código de seguimiento de Google Analytics.
  3. Google Analytics y el servidor web de esa página intercambian información relativa a esa visita.

En cambio, una visita “fantasma” se salta los dos primeros pasos y se hace pasar por el servidor web para ese intercambio de información, utilizando el identificador “UA-XXXXXXXX-X” que todos los códigos de seguimiento incluyen (único para cada sitio web):

(function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
})(window,document,'script','//www.google-analytics.com/analytics.js','ga');
ga('create', 'UA-XXXXXXXX-X', 'auto');
ga('send', 'pageview');

Quizás os preguntéis cómo Google puede dejarse “engañar” así, pero la culpa no es de Google, sino que podríamos decir que se debe a un “imperativo técnico”.

Para que el código de seguimiento sea ejecutado por el navegador del usuario visitante, debe estar visible y en abierto, lo que significa que, por ejemplo, cualquier rastreador puede parsear la página y extraer el código Analytics correspondiente a un sitio web.

Por otro lado, tampoco es necesario que el Ghost Spammer rastree nuestras páginas para leer su código Analytics.

Puede simplemente generar aleatoriamente un identificador UA que, por casualidad, coincida con el nuestro y ejecutar un script similar al nuestro.

En realidad, todo el proceso es algo más complicado que esta explicación tan resumida, pero nos sirve para hacernos una idea bastante aproximada del funcionamiento de los Ghost Spam.

Como el Ghost Spam no visita los sitios web, solo podemos contrarrestarlos desde Google Analytics, nunca en el servidor web.

La primera consecuencia de esta forma de actuar es que no podemos filtrar el Ghost Spam desde el servidor web (como los otros dos tipos de Spam), puesto que no interviene en todo el proceso, sino solo a través de Google Analytics.

De ahí, por tanto, la necesidad de que sepamos cómo identificar y filtrar esas visitas fantasma analizando los datos recopilados por Analytics.

Métodos para filtrar el tráfico no deseado (incluido el Ghost Spam)

En este apartado nos vamos a centrar en el tráfico no deseado proveniente de Crawler Referral Spam y Ghost Spam, los más perjudiciales con gran diferencia. 

Los métodos que vamos a ver aquí se pueden dividir en dos grupos generales:

  • Los que tienen efecto sobre el spam producido por visitas reales al sitio web (es decir, el Crawler Referral Spam): ficheros robots.txt y .htaccess.
  • Aquellos que actúan sobre el spam que no realizan visitas reales al sitio web (esto es, el Ghost Spam): Filtros en la vista de datos y Segmentos con filtros.

La diferencia fundamental entre ambos grupos es que, con el primero, podemos tomar medidas de contención en los propios servidores de hosting, evitando que visiten el sitio web.

Mientras que, con el segundo, los servidores de hosting nunca tienen constancia de tales visitas, por lo que dichas medidas sólo pueden aplicarse desde dentro del propio Google Analytics.

Para explicar cómo utilizar estos métodos con ejemplos reales, vamos a suponer que hemos detectado que nuestro sitio web está recibiendo tráfico web no deseado de las tres siguientes fuentes, reconocidas como spam: www.ilovevitaly.ru, www.kambasoft.com y www.darodar.com

► A través del fichero robots.txt

El fichero robots.txt es un fichero de texto que se encuentra en la carpeta raíz de un sitio web y establece una serie de pautas y condiciones a los rastreadores que visitan un sitio web.

Desde qué carpetas y ficheros pueden rastrear (por ejemplo, para indexarlos en un buscador) hasta qué rastreadores tienen “permiso” para acceder a ese sitio web.

¿Cuál es el principal problema de este fichero?

Que los rastreadores no están obligados a acatar sus instrucciones.

En general, los rastreadores “buenos” (como los de los buscadores que todos conocemos) sí que seguirán los comandos del fichero robots.txt, pero... nuestro enemigo no son estos rastreadores, sino los que generan excesivo tráfico no deseado.

Y, como habréis adivinado, un rastreador con malas intenciones no va a hacer mucho caso de lo que pongamos en el robots.txt.

Sería como poner un cartel de “No entrar” en la puerta de nuestra casa: quien no tenga intención de robarnos no entrará, pero el ladrón ni se parará a leerlo.

Los comandos del robots.txt no son obligatorios a los rastreadores, por tanto, no podemos usarlo para impedir tráfico no deseado.

Entonces, ¿por qué menciono este fichero si, a la hora de la verdad, no sirve para filtrar los spam?

Porque, aún a día de hoy, se pueden encontrar bastantes artículos que describen el fichero robots.txt como un método de control para impedir a los rastreadores el acceso a algunas o a todas las carpetas y ficheros del servidor web.

Por tanto, olvidaos de este fichero como método para filtrar tráfico no deseado y centraos exclusivamente en los que vienen a continuación.

► A través del fichero .htaccess

Al igual que el robots.txt, el fichero .htaccess también es un fichero de texto que se encuentra almacenado en el servidor web y contiene una serie instrucciones y comandos.

Sin embargo, no están dirigidos a los rastreadores, sino al propio servidor web, que debe acatarlos obligatoriamente.

Es decir, ya no queda al albedrío de los rastreadores el acatar o no dichas instrucciones, sino que el servidor web las debe llevar a cabo para cada visita que reciba, independientemente de su origen.

Por su propia definición, el .htaccess solo tendrá utilidad para restringir el tráfico no deseado que produce visitas reales al servidor web, es decir, el Crawler Referral Spam.

No hay forma de impedir el Ghost Spam con este fichero.

El servidor web asegura la ejecución de los comandos del .htaccess, por lo que podemos usarlo para impedir visitas de Crawler Spam.

Antes de continuar, un mensaje de aviso muy importante: además de permitir quiénes pueden acceder o no a nuestro sitio web, el fichero .htacces controla muchas otras áreas vitales del servidor web.

Un comando erróneo, incluso una errata en este fichero puede provocar que nuestro sitio web o parte de él deje de funcionar correctamente.

Por tanto, cuando modifiquemos este fichero, siempre debemos tener a mano una copia de su última versión operativa para, en caso de error, poder restaurarla rápidamente y dejar el servidor tal como estaba antes de cualquier cambio.

Con estas precauciones, veamos ahora cómo configurar el .htaccess para cortar el acceso de las visitas spam generadas por www.ilovevitaly.ru, www.kambasoft.com y www.darodar.com.

Antes de nada, debemos tener en cuenta que el fichero .htaccess puede contener líneas de comandos generados por el gestor de contenidos que estemos utilizando.

Normalmente, estos comandos aparecen al principio del fichero de texto, debidamente comentados.

Por ejemplo, Wordpress añade las siguientes líneas al principio del .htaccess:

# BEGIN WordPress
<IfModule mod_rewrite.c>
rewriteEngine On
rewriteBase /
rewriteRule ^index\.php$ - [L]
rewriteCond %{REQUEST_FILENAME} !-f
rewriteCond %{REQUEST_FILENAME} !-d
rewriteRule . /index.php [L]
</IfModule>
# END WordPress

Es importante que no toquemos estas líneas y que las dejemos tal como están, sin añadir ningún comando antes ni dentro del bloque enmarcado entre las líneas de comentarios # BEGIN WordPress y # END WordPress.

Ahora, a continuación de este bloque de instrucciones creado por el gestor de contenidos, copiar el siguiente bloque de texto:

# INICIO Bloquear el Crawler Referral Spam
<IfModule mod_rewrite.c>
RewriteEngine on
## Aquí se introducen las direcciones web de los spammers:

RewriteRule ^(.*)$ - [F,L]
</IfModule>
# FIN Bloquear el Crawler Referral Spam

Dentro de este bloque (después del comentario ## Aquí se introducen...), debemos añadir una línea por cada spammer que queramos impedir el acceso al sitio web.

Por ejemplo, para www.iloveitaly.ru escribiríamos:

RewriteCond %{HTTP_REFERER} ^https?://.*ilovevitaly\.ru/ [NC,OR]

Es decir, solo tenemos que escribir el nombre principal del dominio (ilovevitaly) y su extensión (.ru) en los parámetros correspondientes de este comando.

El patrón es similar para las otras dos direcciones:

RewriteCond %{HTTP_REFERER} ^https?://.*kambasoft\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?://.*darodar\.com/ [NC,OR]

¡Mucho ojo!

Escribid TODOS los caracteres tal como se muestran (como los puntos, interrogaciones, etc.), sin intercalar espacios en blanco, excepto los que ya aparecen.

Cualquier omisión puede anular el funcionamiento del comando de bloqueo.

El bloque completo quedaría como sigue:

# INICIO Bloquear el Crawler Referral Spam
<IfModule mod_rewrite.c>
RewriteEngine on
## Aquí se introducen las direcciones web de los spammers:
RewriteCond %{HTTP_REFERER} ^https?://.*ilovevitaly\.ru/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?://.*kambasoft\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?://.*darodar\.com/ [NC]
RewriteRule ^(.*)$ - [F,L]
</IfModule>
# FIN Bloquear el Crawler Referral Spam

Para terminar, una última consideración.

Observad que en el último comando RewriteCond (el correspondiente a darodar.com), solo aparece el parámetro “[NC]”, en vez de “[NC,OR]”.

Esto es debido a que el siguiente comando no es otro RewriteCond, sino el comando RewriteRule.

El parámetro “OR” solo lo incluimos para concatenar comandos RewriteCond consecutivos.

Como veis, es bastante fácil configurar el fichero .htaccess para bloquear el acceso a los Referral Spam.

Sin embargo, a continuación veremos que también es muy fácil filtrarlo dentro de Google Analytics.

Por tanto, ¿qué sistema es mejor para eliminar este tipo de tráfico no deseado?

En su cometido, ninguno es mejor que el otro y elegir uno u otro depende de nuestras preferencias.

Personalmente, prefiero utilizar solo los filtros de Google Analytics por las siguientes razones:

  • Toda la gestión de tráfico no deseado está centralizada en una única herramienta, no en dos lugares separados e independientes, con lo que solo tengo que trabajar en un entorno.
  • Evito tener que estar modificando el fichero .htaccess y cometer algún error que pueda afectar la navegación del sitio web. Mientras que un error en los filtros de Analytics ni afecta a la navegabilidad ni se pierden datos de las visitas recibidas.
  • Al restringir el acceso en el .htaccess, no hay una forma sencilla de saber si estoy recibiendo un elevado número de visitas de Referral Spam, puesto que no se reflejarían en Google Analytics y no podría adoptar otras medidas de protección.

Aunque un buen proveedor de hosting WordPress proporciona mecanismos de detección y protección contra las visitas masivas de los spammers, las dos primeras razones son de suficiente peso para mí como para que no utilice el fichero .htaccess para bloquear el Crawler Referral Spam y lo haga todo en Analytics.

Filtros en la vista de datos de Google Analytics

Todos los datos recopilados por Google Analytics para un sitio web se agrupan dentro de las vistas, en las que configuramos cómo queremos gestionar, analizar y revisar dichos datos.

Entre las múltiples operaciones que podemos hacer con las vistas, una de ellas es la creación de filtros, para restringir o descartar qué datos se van a recopilar en esa vista.

Por tanto, nos puede servir para filtrar las visitas de los spammers pero no solo el Crawler Referral Spam, sino también el Ghost Spam, puesto que trabajamos sobre datos de Analytics y no sobre las visitas reales del sitio web.

Ahora bien, no deberíamos sin más, crear un filtro dentro de la vista principal de nuestro sitio web, puesto que estos filtros descartan completamente los datos filtrados, sin posibilidad de recuperarlos y siempre deberíamos tener una vista con todos los datos, sean buenos o malos, por si los necesitáramos para futuros análisis o cometiéramos un error con algún filtro.

Así que, el primer paso consiste en crear una nueva vista desde la pestaña de Administrador, para la cuenta y propiedad de nuestro sitio web:

Cómo crear una nueva vista en Google Analytics
  • Filtrando los Crawler Referral Spam

Una vez hayamos creado la vista, la seleccionamos y pulsamos “Filtros”:

Cómo crear filtros en una vista de Analytics

Google Analytics nos mostrará la lista (aún vacía) de filtros de esta vista:

Listado (vacío) de los filtros de una nueva vista

Pulsamos el botón “+ Agregar filtro”, y rellenamos los datos del nuevo filtro con los siguientes datos, en la secuencia numérica que se indica, para filtrar las visitas del spammer www.ilovevitaly.ru:

Cómo agregar un nuevo filtro a una vista para eliminar Crawler Spam

Una vez introducidos estos datos, pulsamos el botón “Guardar” y ya tenemos guardado el filtro para esta vista:

Filtro contra spammers de la vista actual

Ahora podríamos proceder igual con el resto de spammers y crear un filtro para cada uno de ellos, sin embargo, esta solución no es la idónea.

Con el tiempo, el número de spammers puede crecer, de forma que acabaríamos con decenas de filtros, resultando en una larga lista de filtros.

Para evitarlo, podemos utilizar expresiones regulares durante la creación del filtro, para indicar no solo la dirección de un único spammer, sino de varios.

De esta forma, el filtro se aplicaría a todos ellos.

Aunque las expresiones regulares pueden adoptar patrones muy complejos, yo siempre recomiendo utilizar la expresión menos compleja posible, aun a costa de hacerla más larga, para que sea muy fácil de entender y a simple vista observemos rápidamente cualquier errata.

En nuestro ejemplo, la expresión regular más sencilla que recoge las 3 direcciones de spam quedaría como: “ilovevitaly\.ru|kambasoft\.com|darodar\.com” (la barra invertida es necesaria para marcar el punto, “.”, de la dirección) y el filtro se vería así:

Cómo crear un filtro para varios spammers con una expresión regular

Desde el momento de creación del filtro, esta vista solo recogerá aquellas visitas que no cumplan la condición del filtro, aunque siempre podremos consultar los datos completos de todas las visitas accediendo a la vista original que hemos dejado sin filtros.

  • Filtrando los Ghost Spam

Aunque la configuración anterior de filtros también se puede utilizar para filtrar los Ghost Spam, no es el sistema más eficaz.

Sobre todo, si tenemos en cuenta que continuamente surgen Ghost Spammers con nuevos nombres y direcciones, lo que haría interminable la lista de filtros.

Afortunadamente, tenemos una alternativa que aprovecha un defecto de los Ghost Spam, debido a que no visitan nuestro sitio web: sus visitas no tienen asociado un nombre de host o, si lo tuvieran, no estaría relacionado con el sitio web.

En general, el nombre del host será la dirección del sitio web pero, puede haber nombres de hosts válidos en función de los servicios que utilice el sitio web o cómo esté configurado.

La mejor forma para comprobarlo es a través de los Informes de Analytics, tal como muestra la figura siguiente:

Determinar los nombres de host válidos para nuestro sitio web

En este caso, sólo aparece un nombre de host válido, el correspondiente a mi dirección web.

El resto no tienen nada que ver con mi web ni tengo ningún tipo de relación con ellos.

Con esta consideración, tan solo tenemos que crear un nuevo filtro (en la misma vista donde creamos el anterior filtro) para que solo recopile aquellos datos que tengan un nombre de host correcto, con la siguiente secuencia de acciones:

Crear un filtro de vista para descartar todos los ghost spam

Con lo que tendríamos nuestra vista con los dos filtros:

Filtros para Crawler Spam y Ghost Spam en una vista

Segmentos con filtros en Google Analytics

A la hora de gestionar y analizar los datos, la utilización de vistas con filtros presenta dos limitaciones:

  • La vista y los filtros solo tienen efecto en los datos a partir del momento en que son creados

Es decir, una nueva vista no dispone de datos anteriores a su creación y un nuevo filtro solo filtra los datos posteriores a su creación.

  • No podemos hacer análisis comparativos sobre un mismo informe entre los datos filtrados con los datos sin filtrar

Por ejemplo, la gráfica comparativa que vimos en la primera sección, sino que tendríamos que hacerlo “a ojo” en dos ventanas separadas del navegador, una para cada vista.

Para superar estas restricciones, podemos utilizar segmentos, creando filtros similares a los que hicimos con las vistas, pero con la particularidad de que tienen efecto sobre todos los datos recopilados en la vista actual, independientemente de cuándo fuera creado el segmento o el filtro.

El proceso es muy sencillo:

  1. Pulsamos en la pestaña “Informes” y, en la Visión general de audiencia, pulsamos la barra “+ Agregar segmento”:
Agregar un segmento a la vista actual en Analytics
  1. Pulsamos el botón rojo “+ CREAR SEGMENTO”.
  2. Seleccionamos “Condiciones” en las opciones avanzadas y agregamos dos filtros tal como se muestra en la siguiente imagen:
Crear los filtros contra el Spam dentro de un segmento
  1. Pulsamos el botón “Guardar”.

Observad que en un mismo segmento hemos creado los dos filtros que necesitábamos:

  • Para el Ghost Spam (recuadro 3), seleccionando el “Nombre de host” e introduciendo la expresión regular de las direcciones web válidas (en este caso, sólo el nombre de dominio del sitio web).
  • Para el Crawler Referral Spam (recuadros 4-6), el filtro tiene dos condiciones que deben cumplirse simultáneamente (la “Y” del recuadro 5).Por un lado, debemos seleccionar la “Fuente” e introducir la expresión regular de las direcciones de los spammers. Además, hay que seleccionar el “Medio” para indicar que debe ser de tipo “Referral”.

A medida que vamos creando los filtros, el cuadro resumen de la derecha va mostrando el porcentaje y número de usuarios y de sesiones que pasan los filtros.

En este caso, el 47,70% de usuarios no cumple ninguna de las condiciones de los filtros y son visitas “legales”.

Una vez creado el segmento, tan solo necesitamos seleccionarlo para que los informes no incluyan datos de visitas de spammers:

Seleccionar el segmento que filtra las vistas spam

¿Cómo detectar el tráfico basura?

Ahora que sabemos los tipos de tráfico basura que podemos encontrar en Google Analytics y cómo descartarlos en nuestra analítica web, la siguiente pregunta que surge es, ¿cómo saber que unas determinadas visitas son producto de un spammer?

De todas las tareas y configuraciones que hemos visto hasta ahora, analizar los datos recopilados por Google Analytics para encontrar cuáles pueden corresponder a un spammer puede resultar la más complicada y tediosa.

¿El motivo?

No hay una regla fija que nos permita identificar con certeza y rotundidad que una determinada visita la realiza un spammer, sino una serie de pautas y comportamientos sospechosos que pueden darnos indicios de que se están produciendo.

En líneas generales, no deberíamos preocuparnos por el Ghost Spam, ya que como hemos visto, presenta el defecto de utilizar un nombre de host inválido o que no está relacionado con nuestro sitio web, por lo que el filtro que hemos creado puede confrontarlos perfectamente.

El problema puede venir, entonces, de los Crawler Referral Spam que cambien o utilicen nuevos nombres o direcciones de origen (“Fuente de campaña”, en los filtros), por lo que deberemos, primero identificarlos y segundo, actualizar las expresiones regulares de los filtros.

Para identificarlos, no nos queda otro remedio que analizar periódicamente la gráfica y los informes del “Tráfico de referencia”:

Analizando el tráfico de referencia en Google Analytics

Sobre estos datos, debemos comprobar si se presenta alguno de los siguientes comportamientos sospechosos de spamming:

  • Crecimiento desmesurado del número de sesiones o de visitas desde una misma referencia, que es el caso que os presentaba como introducción en este artículo. Muchas veces, éste será el primer indicio de que algo anómalo está pasando.
  • Nombres de fuente (direcciones URL) sin sentido o de los que no cabe esperar que nos referencien (columna “Fuente”). Por ejemplo, en la tabla anterior, abc.xyz o reddit.com serían sospechosos. Sin embargo, t.co o plus.google.com sí que serían válidos, pues es normal que nos referencien desde Twitter o Google+.
  • Porcentaje de rebote irreal, tanto cercano al 100% como al 0%. El porcentaje de rebote varía mucho de un sitio web a otro, en función de muchos factores, pero siempre debería moverse por la zona media, no en los extremos. En la tabla anterior, motherboard.vice.com y site-auditor.online serían sospechosos de spamming.
  • Duración media de la sesión atípica, ya sea porque dura cero o muy pocos segundos o varios minutos muy por encima de la duración media. En la tabla anterior, site-auditor.online o addons.mozilla.org se salen del comportamiento típico en este sitio web.
  • Porcentaje de nuevas sesiones cercano al 100% o al 0%, es decir, que casi todas las visitas son de usuarios distintos o casi todas son de un mismo usuario, respectivamente. Lo normal es que este valor se ubique en una zona media, no en los extremos. En nuestro ejemplo, lifehacker.com o thenextweb.com resultarían sospechosas.

Una vez hayamos identificado algunas fuentes sospechosas de spamming, el siguiente paso sería analizarlas más en detalle.

Por ejemplo, viendo si esa dirección web realmente existe o comprobar que la página web que nos está referenciando exista y sea válida.

Otra posibilidad, más rápida y sencilla, es buscar directamente en Google esas direcciones de los nombres de fuente (por ejemplo, buscando “abc.xyz spam”).

Si son spammers, lo más seguro es que alguien ya lo haya detectado y escrito acerca de ellos.

Como mencionaba al principio, no es una ciencia exacta pero con estas precauciones casi siempre seremos capaces de identificar posibles fuentes de spamming.

Conclusiones

En cualquier estrategia de Marketing Digital, la analítica web proporciona información crucial para determinar la eficacia de nuestras acciones y el impacto en las visitas de nuestro sitio web.

En consecuencia, cualquier adulteración de los datos recopilados por Google Analytics puede resultar en una interpretación errónea de los resultados de la estrategia y hacernos tomar nuevas decisiones que perjudiquen o limiten el éxito de nuestras campañas.

El tráfico basura o las visitas spam, son la principal causa de alteración de las visitas de un sitio web, haciéndonos creer que estamos recibiendo más visitas de las que realmente están llegando de usuarios reales, además de afectar a otros factores, como el porcentaje de rebote o la duración media de las visitas.

El origen del tráfico basura puede producirse por dos medios:

  • Crawler Referral Spam, que hacen visitas reales al sitio web y, por tanto, son detectadas y registradas por el servidor web. Se pueden filtrar tanto en el propio servidor web (mediante el fichero .htaccess) como con filtros en vistas o segmentos de Google Analytics.
  • Ghost Spam, que no visitan el sitio web, sino que interactúan directamente con los servidores de Analytics, simulando que hacen visitas. Como no hacen visitas al servidor web, solo se pueden filtrar en las vistas o segmentos de Google Analytics.

Nuestras propias visitas al sitio web, sin ser tráfico basura como tal, también pueden alterar la interpretación de los datos de analítica web, por lo que también debemos tomar medidas para eliminarlas.

La detección del tráfico basura no tiene un proceso claro y válido para cualquier circunstancia, sino que debemos fijarnos en una serie de indicios (como el porcentaje de rebote, la duración de la visita o el nombre de la fuente) que puedan identificar algunas visitas como posible spamming.

El webmaster o el analista web debe prestar atención a tales indicios para, en caso de observarlos, investigarlo más detenidamente, determinar si corresponde a spamming o no y actualizar los filtros en caso necesario.

En el artículo hemos visto diversos métodos y filtros para eliminar y detectar el tráfico no deseado o tráfico basura, pero como cada maestrillo tiene su librillo, ¿utilizas otros métodos para detectarlo y eliminarlo?

Compartir
Author Photo
Consultor SEO, Certificado en Google Analytics y Adwords, Experto Universitario de Social Media Marketing y Certificado en Emprendimiento y Gestión Empresarial por Business & Marketing School (ESIC). Ingeniero Superior de Informática, con 20 años de experiencia en desarrollo, análisis y gestión de proyectos con Internet.
Más sobre esto