Actualización de backlinks de Semrush 2021: cómo creamos una nueva herramienta de backlinks

Eugene Levin

jun 15, 20215 min de lectura
Nueva herramienta de backlinks de Semrush

TABLA DE CONTENIDOS

Hace un año y medio nos marcamos un objetivo.

Ese objetivo era construir la base de datos de backlinks más grande, más rápida y de mayor calidad para nuestros clientes y ser mejores que los principales competidores del mercado.

¡Ahora que hemos alcanzado nuestro objetivo no podemos esperar a que lo compruebes! 

¿Quieres saber exactamente cómo hemos sido capaces de crear esta base de datos? 

Hemos necesitado una combinación de 30.000 horas de trabajo de nuestro equipo de ingenieros y científicos de datos, más de 500 servidores y 16.772 tazas de café. 

¿Suena fácil, verdad?

hqdsdXTTyGpv69FdWZn387U2humnfVWLlYsgg1VXoRbyC1-Nrc62SeuxhG-euidfD_UxpK-iD5XFevnyG8785YgwWbXLQ-n0QQK9k9gBbY7ZyWH5a1JG3AS0_j885Q

Consulta este artículo para ver lo rápidos que somos.

Primero, vamos a hablar de qué hay de nuevo. Luego te mostraremos cómo lo hemos logrado y los problemas que hemos resuelto. Con un mayor almacenamiento y tres veces más el número de rastreadores, nuestra base de datos de backlinks ahora tiene capacidad para encontrar, indexar y crecer aún más. En promedio, ahora rastreamos:

img-semblog

Antes de profundizar en lo que hemos mejorado, te explicamos los principios sobre cómo funciona nuestra base de datos de backlinks. 

Primero, hemos generado una cola de URLs que decide qué páginas serán enviadas a rastrear. 

A continuación, nuestros rastreadores inspeccionan dichas páginas. Nuestros rastreadores guardan información cuando identifican enlaces que apuntan desde estas páginas a otras páginas de internet.

Anteriormente, había un almacenamiento temporal, que guardaba todos estos datos durante un tiempo antes de ser descargados en el almacenamiento público que cualquier usuario de Semrush puede ver en la herramienta.

Con nuestra nueva arquitectura, hemos eliminado virtualmente este almacenamiento temporal, añadimos 3 veces más rastreos, y creamos un conjunto de filtros antes de cada cola, de forma que todo el proceso es mucho más rápido y eficiente. 

img-semblog

Cola (queue)

Dicho en pocas palabras, hay demasiadas páginas para rastrear en internet. 

Algunas necesitan ser rastreadas con más frecuencia, y otras no necesitan ser rastreadas en absoluto. Por lo tanto, utilizamos una cola que decide en qué orden deben ser rastreadas las urls.

Un tema común en este paso es rastrear URLs muy similares, e irrelevantes, lo que podría derivar en que la gente vea más spam y menos dominios referidos únicos. 

¿Qué es lo que hicimos?

Para optimizar la cola, añadimos filtros que priorizan el contenido único y las webs de mayor autoridad, y protegen la cola frente a las click farms. Como resultado, el sistema ahora es capaz de encontrar más contenido único y generar informes con menos enlaces duplicados. 

Estos son algunos de los elementos clave del funcionamiento:

  • Para proteger nuestra cola frente a las granjas de enlaces (click farms), comprobamos si un alto número de dominios proceden de la misma dirección IP. Si vemos muchos dominios procedentes de la misma IP, su prioridad en la cola descenderá. Esto nos permite rastrear más dominios de IPs diferentes.
  • Para proteger las webs y evitar contaminar nuestros informes con enlaces similares, verificamos si hay demasiadas URL del mismo dominio. Si vemos demasiadas URLs procedentes del mismo dominio, estas no serán rastreadas el mismo día.
  • Para asegurarnos de rastrear las páginas más recientes lo antes posible, cualquier URL que no hayamos rastreado con anterioridad tendrá más prioridad.
  • Cada página tiene su propio código hash que nos ayuda a priorizar el rastreo de contenido único.
  • Tomamos en cuenta la frecuencia de los nuevos enlaces generados en la página fuente.
  • Tomamos en cuenta la puntuación de autoridad de una página y un dominio.

Cómo se ha mejorado la cola 

  • Con más de 10 factores filtran los enlaces no necesarios.
  • Con páginas más exclusivas y de alta calidad gracias a los nuevos algoritmos de control de calidad.

Rastreadores

Nuestros rastreadores siguen enlaces internos y externos en internet en busca de nuevas páginas con backlinks. Por lo tanto, solo podemos encontrar una página si hay un enlace entrante hacia ella.

Al revisar nuestro sistema anterior, vimos una oportunidad para aumentar la capacidad de rastreo general y encontrar mejor contenido, contenido que los dueños de webs querrían que rastreáramos e indexáramos.

¿Qué es lo que hicimos?

  • Triplicamos nuestro número de rastreos (de 10 a 30)
  • Dejamos de rastrear páginas con parámetros de url que no afectan al contenido de la página (&sessionid, UTM, etc.)
  • Incrementamos la frecuencia de lectura de los archivos robots.txt en las webs

Cómo se han mejorado los rastreadores

  • Más rastreadores (¡ahora son 30!)
  • Limpieza de datos sin enlaces o duplicados
  • Mejor localización del contenido más relevante
  • Velocidad de rastreo de 20.000 millones de páginas al día

Almacenamiento

El almacenamiento es donde se guardan todos los enlaces que puedes ver como usuario de Semrush. Este almacenamiento te muestra los enlaces en la herramienta y te ofrece filtros que puedes aplicar para encontrar lo que estás buscando.

La principal preocupación que teníamos con nuestro antiguo sistema de almacenamiento era que solo podía ser completamente reescrito después de la actualización. Lo que significa que cada 2-3 semanas, debía ser reescrito y el proceso volvía a comenzar. 

Así, durante la actualización, se acumularon nuevos enlaces en el almacenamiento temporal, creando un retraso en la visibilidad de la herramienta para los usuarios. Queríamos mejorar la velocidad en este paso.

¿Qué hicimos?

Para mejorar, reescribimos la arquitectura desde cero. Para eliminar la necesidad de almacenamiento temporal, aumentamos nuestro número de servidores en más de cuatro veces. 400%. 

Requirió más de 30.000 horas de ingeniería para implementar las últimas tecnologías. Ahora, tenemos un sistema escalable que no tiene límites.

Cómo se ha mejorado el almacenamiento

  • Más de 500 servidores en total 
  • 287TB de memoria RAM
  • 16.128 CPU cores
  • 30 PB de espacio total de almacenamiento 
  • Filtrado e informes a la velocidad de la luz
  • ACTUALIZACIÓN INSTANTÁNEA - no más almacenamiento temporal

Llevamos a cabo un estudio en dos partes para comparar la velocidad de nuestra herramienta de Análisis de backlinks con Moz, Ahrefs y Majestic.

Para ver exactamente cómo es de rápida nuestra herramienta comparada con otras alternativas de SEO del mercado, consulta este artículo. 

Estamos muy orgullosos de nuestra nueva base de datos de Análisis de Backlinks y queremos que todo el mundo la experimente. 

Obtén un acceso a una prueba gratuita creando una cuenta de Semrush, navega en la sección de Análisis de backlinks disponible para ti.

Pruébala, y ¡cuéntanos qué piensas!

¡Bienvenido al futuro de la gestión dinámica de backlinks!

Compartir
Author Photo
Eugene has served as our Chief Strategy and Corporate Development Officer since March 2016. Before joining Semrush he was Investment Director of Target Global from March 2016 to March 2017 and Partner from November 2014 to March 2016. Prior to that, he served as the Co-Founder and Head of Marketing at AggroStudios from September 2013 to November 2014. Eugene also served as a Partner of Foresight Ventures and as a Senior Systems Analyst at Cloudmach Inc.