Crawlers de Google: Todo lo que nunca te atreviste a preguntar

Sergio Ramírez López

nov 20, 20177 min de lectura
Crawlers de Google: Todo lo que nunca te atreviste a preguntar
Compartir

TABLA DE CONTENIDOS

¿Cuánto conoces de los crawlers de Google?

Hoy vamos a tratar uno de los temas más importantes que pueden existir a nivel de marketing online, pero que muchas veces no se ve en la profundidad que se debe por ser un tema técnico.

Pero, antes de comenzar, ¡no te asustes!, quiero tratar este tema contigo para que puedas entenderlo, en especial, si no sabes absolutamente nada de programación.

Simplemente, tendrás que dejar lo que estés haciendo durante 10 minutos y leer con atención y te prometo que te voy a solventar todas las dudas que tengas con los crawlers, en especial, con el crawler de Google.

¿Qué es esto de un crawler de Google?

A los crawlers también se les llama indistintamente: rastreadores, spiders, arañas, bots o robots, así que no te extrañe si los ves con alguna de estas denominaciones cuando leas un artículo sobre el tema.

Los llames como los llames, son exactamente lo mismo.

Un crawler es un pedacito de software de programación que tiene un objetivo único en su vida: Rastrear páginas web, leerlas y llevarse la información a un servidor.

Ni más ni menos que eso, así de sencillo.

Pero claro, te estarás preguntando como algo tan sencillo puede ser tan importante en el marketing online en general, y en el posicionamiento en particular, y es que esta acción es fundamental, entre otras cosas, para el funcionamiento de Google.

Te cuento más.

¿Cómo funciona Google a nivel técnico?

No sé si alguna vez te has planteado cómo funciona Google a nivel técnico, es decir, qué ocurre desde que tú lanzas un dominio o una página nueva a Internet hasta que aparece en el buscador.

Te lo voy a contar de una forma super resumida.

  • Paso 1

Lanzas tu nueva página (o tu nuevo proyecto) a Internet.

  • Paso 2

Los servidores de Google reciben un ping de ese nuevo contenido.

Es algo que, por ejemplo, WordPress hace de forma automática y se basa a nivel programación en decirle a Google: Oye, acabo de publicar algo que no tienes, ¡pásate cuando puedas y lo ves!

  • Paso 3

Google lanza un crawler hacia el contenido nuevo.

Aquí es cuando la cosa se pone interesante.

  • Paso 4

Ese crawler llega al contenido nuevo y leerá la nueva página web o dominio, siguiendo sus enlaces, normalmente hasta un tercer nivel pero, esta parte es accesoria en estos momentos.

Lo importante es que este crawler leerá el código de tu página web, no tu diseño.

Si quieres saber cómo ve un crawler una página, prueba a darle al botón derecho del ratón y “Ver cómo código fuente”.

Eso es lo que se lleva el rastreador.

  • Paso 5

El crawler va leyendo información y, una vez ha terminado, la comprime y se la lleva al servidor de Google.

  • Paso 6

Esta información se indexa en el servidor de Google, a la espera de que el buscador le otorgue una relevancia para las palabras clave que sea relevante.

  • Paso 7

Un usuario realiza una búsqueda en Google.

  • Paso 8

Google se va a por las páginas que son más relevantes para esa búsqueda y usuario en concreto.

Vamos a suponer que la página que Google ha indexado y que es nuestra es relevante para esa búsqueda.

  • Paso 9

Google lista todos los resultados del más relevante al menos relevante.

  • Paso 10

El usuario pincha en uno de ellos y entra a ver el contenido.

Si has leído todos los pasos del primero al último habrás comprobado que, sin la presencia de un crawler, sencillamente Google no funcionaría y, por eso, son tan importantes.

Cuéntame más sobre cómo ven los crawlers mis páginas

Hemos pasado un poco de largo sobre este concepto, pero es de vital importancia.

Cualquier crawler que exista, sea de Google o de cualquier otra plataforma no deja de ser un programa informático pequeñito hecho para leer código y seguir enlaces.

Ni más, ni menos.

Por ello, cuando entra a un contenido no creas ni por asomo que se va a deleitar con tus imágenes o el gran diseño que te has currado, básicamente porque los crawlers no puede ver.

En lugar de eso, lo que va a hacer es leer el código fuente de tu página de arriba hasta abajo y llevárselo al servidor para que sea éste último el que lo procese y pondere las señales de posicionamiento (en el caso de Google) que tiene esa página.

Te preguntarás entonces como a la gente de marketing se nos llena la boca al hablar de experiencia de usuario y de cómo afecta como factor de posicionamiento en Google y aquí tengo que ser muy claro contigo:

Google toma los datos de experiencia de usuario de otro lado, principalmente del tiempo que pasa un usuario en la página de destino.

Existen muchos más crawlers que el de Google

Sí, el crawler más famoso del mundo es el de Google, pero no por ello es el único, ¡ni mucho menos!

De hecho, personalmente, suelo dividir los distintos crawlers en dos grupos distintos:

  1. Los no-maliciosos.
  2. Los maliciosos.

1.- Crawlers no-maliciosos

Son los rastreadores que tienen como fin recoger información, llevársela a un servidor y procesarla para ofrecerte datos con los que puedas hacer el bien.

Por ejemplo, SEMrush tiene su propio crawler que le permite rastrear tu sitio y ofrecerte distintas métricas sobre errores que puedes tener en tu site.

2.- Crawlers maliciosos

Pero claro, un programador puede montar un crawler y lanzarlo por Internet para hacer el mal, desde intentar encontrar huecos en la seguridad de un dominio hasta para copiar tu contenido y replicarlo de forma masiva en cientos de sitios.

Para mí, estos son ejemplos de crawlers maliciosos y te aseguro que hay un montón.

¿Cómo ver más acerca del Crawler de Google?

Sin duda, el rastreador estrella para ti el 99% de las ocasiones va a ser el de Google y hay una forma de conocer más sobre él.

Google tiene una plataforma llamada Google Webmaster Tools en las que te ofrece un montón de datos sobre su propio crawler y te voy a poner un par de ejemplos a continuación:

1.- Explorar como Google

Dentro de Google Webmaster Tools debes ir a la pestaña Rastreo y de ahí a Explorar como Google.

Si sigues esta ruta te encontrarás con la posibilidad de pedirle a Google que rastree una página específica de tu site y de poder ver toda la información sobre ella.

Es tan sencillo como poner la URL en el cuadro y dejar que Google llegue y la rastree y es muy útil cuando estás haciendo cambios en una página ya publicada.

2.- Estadísticas de rastreo

También dentro de la pestaña Rastreo tienes un subapartado que se llama Estadísticas de Rastreo y en ella tienes una información muy valiosa.

Según entres vas a ver tres gráficas como las que te muestro a continuación:

estadisticas-de-rastreo-crawler

Antes de que flipes más, te voy a contar más sobre cada una de ellas:

1.- Páginas rastreadas por día

La primera gráfica te muestra el número de Páginas rastreadas al día por el crawler de Google.

Con lo que te debes quedar es con lo siguiente:

Si ves que la gráfica va poquito a poco hacia arriba, significa que tu site está siendo cada vez más relevante para Google y, por otro lado, si ves que la gráfica va hacia abajo, al contrario, tu site está perdiendo visibilidad.

También puedes darte cuenta de diversas cosas, por ejemplo:

estadisticas-rastreo-octubre

¿Ves la montañita que hay antes de Octubre?

Pues ni más ni menos que es porque en esas fechas le puse a mi blog el protocolo seguro (HTTPS) y Google reindexó el site de manera profunda.

Te voy a poner otro ejemplo, fíjate en los picos de rastreo que te he señalado

estadisticas-rastreo-mas

Esos picos simbolizan días en los que Google ha indexado un montón de páginas más de lo que acostumbra, normalmente significa que el buscador ha realizado una indexación profunda del site.

Cuanto más relevante sea tu site, más indexaciones profundas hará.

2.- Kilobytes descargados por día

kb-descargados

Esta gráfica suele ser muy similar a la primera y te muestra cuánta cantidad de información se ha descargado Google por día.

Te comento que es muy parecida a la primera porque lo normal es que, cuantas más páginas rastree Google, parece lógico pensar que más información se llevará.

La lógica imperante debe ser la misma de antes: Si la gráfica va hacia arriba, vas ganando visibilidad y relevancia.

Si va para abajo, algo estarás haciendo mal.

3.- Tiempo de descarga de una página (en milisegundos)

descarga-paginas

La última gráfica es muy reveladora, ya que te da la orientación acerca de la velocidad de las páginas de tu site.

Lo normal es que esta gráfica sea muy estable a no ser que cambies de servidor o que tengas problemas con él y cuanto más cerca del cero esté, mejor que mejor, ya que significará que Google tarda menos tiempo en descargar cada página.

Conclusiones sobre los crawlers

Antes de nada, espero haberte solucionado tus dudas acerca de los rastreadores y, si no es así, siempre puedes dejarme un comentario para que te lo responda.

Para finalizar, simplemente me gustaría recalcarte la importancia que tienen los crawlers hoy en día, no sólo a nivel técnico, parcela en la que son indispensables para el funcionamiento de los buscadores tal y cómo los conocemos.

Como has visto, también pueden darte una información súper útil que no debes desaprovechar.

¿Te han quedado dudas sobre los crawlers de Google?

Compartir
Author Photo
Sergio: llevo metido en el mundo de los blogs prácticamente 10 años y ejerciendo profesionalmente como SEO desde hace más de 5. He sido ponente en WordCamp, he escrito un par de ebooks y, además de eso, soy bastante friki. Puedes encontrarme en mi blog.