Googlebot: qué es y cómo rastrea tu página web

Tabla de contenido

En el mundo del SEO, Googlebot juega un papel crucial. Este es el nombre genérico que se le da a los dos tipos de rastreador que utiliza Google Search: el Googlebot Smartphone y el Googlebot Desktop. Ambos simulan el comportamiento de un usuario, pero el móvil es el que más se utiliza hoy en día.

La mayoría de los sitios web son indexados principalmente a través de la versión móvil del contenido. Esto es fundamental para quienes gestionan un sitio, ya que afecta cómo se presentan en los resultados de búsqueda.

Además, es interesante saber que Googlebot representa aproximadamente el 23.7% de todas las solicitudes HTTP de bots buenos, según Cloudflare Radar. Esto significa que está constantemente rastreando millones de páginas para construir el índice que todos utilizamos.

En este artículo, te explicaremos cómo identificar a Googlebot en tus registros, controlar su acceso y entender el concepto de crawl budget. Al final, tendrás las herramientas necesarias para optimizar tu sitio web y mejorar tu posicionamiento en Google.

¿Qué es Googlebot y cuál es su función en el rastreo web?

person using macbook pro on table

En el universo del SEO, Googlebot actúa como el motor que impulsa el rastreo. Este software de rastreo web es fundamental para que Google recopile documentos y construya su índice de búsqueda. Cuando hablamos de Googlebot, nos referimos a dos tipos de rastreadores: el Googlebot Desktop y el Googlebot Smartphone.

Una de las características más interesantes de Googlebot es que es «evergreen». Esto significa que ve los sitios web como lo haría un usuario en la última versión del navegador Chrome. Desde mayo de 2019, utiliza un servicio de renderizado web que se actualiza automáticamente, asegurando que pueda manejar capacidades modernas como ECMAScript 6.

Googlebot se ejecuta en miles de máquinas y decide qué rastrear y a qué velocidad. Este enfoque es crucial para no saturar los sitios web que visita. Aquí te explicamos por qué Googlebot es tan importante para el SEO y la indexación:

  • Descubrimiento de contenido: Googlebot encuentra nuevas páginas y actualizaciones, lo que es esencial para mantener tu contenido visible en los resultados de búsqueda.
  • Procesamiento eficiente: Al descargar y procesar el contenido, Googlebot lo almacena en el índice de Google, que es la base de datos de donde provienen todos los resultados de búsqueda.
  • Rastreo y relevancia: No solo lee texto, también entiende la estructura de tu sitio, lo que ayuda a determinar la relevancia y autoridad de tus páginas.
  • Impacto en el SEO: Si Googlebot no puede rastrear tu sitio correctamente, no importa cuán bueno sea tu contenido; simplemente no aparecerás en las búsquedas.

En resumen, Googlebot es el bibliotecario incansable de la web. Visita millones de sitios, lee su contenido y organiza la información para que los usuarios encuentren lo que buscan. Es el portero del SEO, y entender su funcionamiento puede marcar la diferencia en el tráfico de tu sitio.

Características de GooglebotDescripción
Tipo de rastreadorGooglebot Desktop y Googlebot Smartphone
Motor de renderizadoEvergreen basado en Chromium
Función principalDescubrir y procesar contenido web
Velocidad de rastreoControlada para no saturar sitios
Impacto en SEOCrucial para la indexación y visibilidad

Tipos de Googlebot: Googlebot Smartphone y Googlebot Desktop

Para el éxito en SEO, es fundamental conocer las versiones de Googlebot que afectan tu sitio. Hoy en día, existen dos tipos principales de Googlebot que recorren la web: el Googlebot Smartphone y el Googlebot Desktop. Cada uno tiene su propio comportamiento y relevancia en el proceso de rastreo.

Características del Googlebot Smartphone

El Googlebot Smartphone es el más utilizado actualmente. Se identifica con una cadena de user agent que incluye referencias a Android y Mobile. Este rastreador se ha vuelto esencial desde que Google completó la migración al mobile-first indexing a finales de 2023.

La mayoría de las solicitudes de rastreo provienen de este tipo de Googlebot. Esto significa que si tu sitio no está optimizado para dispositivos móviles, podrías perder visibilidad en los resultados de búsqueda.

Características del Googlebot Desktop

Por otro lado, el Googlebot Desktop utiliza un user agent diferente, similar al de un navegador Chrome de escritorio. Aunque todavía existe y rastrea sitios, su importancia ha disminuido en comparación con el rastreador móvil.

Este tipo de Googlebot sigue siendo relevante para ciertos casos, como sitios que solo tienen versión de escritorio o productos específicos como Google Shopping.

Diferencias clave y relevancia del rastreo móvil

La diferencia clave que todo dueño de un sitio web debe entender es que Google ahora indexa y rankea basándose principalmente en la versión móvil de tu contenido. Si tu sitio no se ve bien en un celular, estás en problemas serios.

No puedes bloquear selectivamente a uno de los dos Googlebots mediante robots.txt, ya que ambos obedecen el mismo token de producto. Esto significa que cualquier regla que establezcas afectará a ambos por igual.

Además de estos dos principales, existen rastreadores especializados como Googlebot Image para imágenes, Googlebot Video para videos y Googlebot News para noticias, cada uno con su propio comportamiento y frecuencia de rastreo.

En mi experiencia con sitios latinoamericanos, he observado que el 80-90% del tráfico de rastreo proviene del Googlebot Smartphone. Por lo tanto, optimizar para móvil no es opcional, es obligatorio si quieres aparecer en los resultados de búsqueda.

Tipo de GooglebotUser AgentRelevancia
Googlebot SmartphoneMozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)Principal para el rastreo desde mobile-first indexing
Googlebot DesktopMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36Menos relevante, pero aún útil para sitios de escritorio

¿Cómo rastrea Googlebot tu página web?

Entender cómo Googlebot rastrea tu página web es esencial para optimizar su rendimiento en los motores de búsqueda. Este proceso no es aleatorio; comienza con una lista de URLs que Google ya conoce. Estas URLs provienen de sitemaps, páginas previamente visitadas, feeds RSS y envíos manuales que realizas en Google Search Console.

Proceso de rastreo y construcción del índice

Cuando Googlebot decide rastrear una URL, descarga el contenido de la página. Sin embargo, no descarga todo el contenido. Para la mayoría de archivos, solo toma los primeros 15 MB. En el caso del archivo robots.txt, el límite es de apenas 500 KiB. Si tu página es muy pesada, puede que no se indexe completa.

Tecnologías usadas: renderizado, recursos y límites de tamaño

Después de descargar el HTML, Googlebot busca todos los recursos referenciados, como CSS, JavaScript e imágenes. Los descarga por separado y los utiliza para renderizar la página completa, tal como lo haría un navegador Chrome actual. Este renderizado es clave, ya que Googlebot usa un servicio evergreen basado en Chromium que ejecuta JavaScript y procesa contenido dinámico.

Si tu sitio depende de AJAX o frameworks como React o Vue, Googlebot puede ver ese contenido siempre que esté bien implementado. Además, Googlebot soporta HTTP/1.1 y HTTP/2, eligiendo automáticamente el protocolo que mejor rendimiento le dé al rastrear tu sitio. También acepta compresión gzip, deflate y Brotli para reducir el ancho de banda.

Descubrimiento de URLs y seguimiento de enlaces

Durante el proceso de rastreo, Googlebot descubre nuevas URLs a través de los enlaces que encuentra en la página. Estos pueden ser enlaces HREF tradicionales o enlaces SRC de recursos. Las URLs descubiertas se agregan a la cola de rastreo para futuras visitas.

Un detalle técnico que pocos conocen es que Googlebot respeta los encabezados de caché HTTP, como ETag e If-Modified-Since. Esto significa que si tu servidor responde correctamente con un 304 Not Modified, Googlebot no descargará de nuevo contenido que no ha cambiado.

En resumen, Googlebot rastrea principalmente desde Mountain View, California, aunque puede utilizar rastreo localizado si detecta que tu sitio bloquea solicitudes desde Estados Unidos.

AspectoDescripción
Inicio del rastreoLista de URLs de sitemaps, páginas visitadas y envíos manuales
Tamaño de descarga15 MB para la mayoría de archivos, 500 KiB para robots.txt
RenderizadoUsa un servicio basado en Chromium para procesar contenido dinámico
Protocolos soportadosHTTP/1.1 y HTTP/2, con compresión de datos
Descubrimiento de URLsA través de enlaces HREF y SRC encontrados en las páginas

Identificando y verificando Googlebot en tus registros

La identificación de Googlebot en tus registros es un paso clave para asegurar el buen rendimiento de tu sitio. Saber cómo reconocer las solicitudes de este rastreador te permitirá gestionar mejor tu contenido y proteger tu sitio de bots maliciosos.

User-agent: cadenas de texto para identificar Googlebot

Los user-agents son cadenas de texto que identifican el tipo de dispositivo o software que realiza la solicitud. Para Googlebot, las cadenas de user-agent incluyen siempre «Googlebot/2.1» y un enlace a http://www.google.com/bot.html. Aquí tienes las diferencias clave:

  • Googlebot Smartphone: Contiene referencias a Android y Mobile.
  • Googlebot Desktop: Se asemeja más a un navegador Chrome de escritorio.

Conocer estas diferencias te ayudará a segmentar el análisis de rastreo y a identificar solicitudes legítimas.

Métodos para verificar si las solicitudes provienen realmente de Googlebot

Sin embargo, no te puedes confiar solo en el user-agent. Muchos bots maliciosos imitan a Googlebot. Para verificar si una solicitud es genuina, puedes usar dos métodos confiables:

  • Búsqueda DNS inversa: Realiza una búsqueda DNS inversa sobre la IP de origen y verifica que el dominio resuelva a googlebot.com.
  • Comparación de IP: Compara la IP contra la lista pública de rangos de IP que Google publica y actualiza regularmente.

Google también ofrece una lista de IPs públicas para facilitar esta verificación. Te recomendamos automatizar este proceso si manejas un sitio con mucho tráfico.

Además, en Google Search Console, en el informe de Crawl Stats, puedes ver qué Googlebot está rastreando tu sitio, qué archivos solicita y con qué frecuencia. Esta información es invaluable para diagnosticar problemas.

Si encuentras solicitudes sospechosas con user-agent de Googlebot pero IPs que no coinciden con los rangos oficiales, bloquéalas sin miedo. Son impostores que consumen tu ancho de banda y no aportan nada a tu SEO.

En mi experiencia con servidores de clientes en Latinoamérica, he visto casos donde hasta el 40% del tráfico de rastreo «Googlebot» era falso. Por eso, verificar siempre vale la pena.

Controlando el rastreo de Googlebot: robots.txt, meta etiquetas y Search Console

Gestionar el acceso de Googlebot a tu sitio es crucial para mantener un buen rendimiento en los motores de búsqueda. Aquí te diremos sobre tres herramientas principales que puedes utilizar: el archivo robots.txt, las etiquetas meta y Google Search Console.

Uso del archivo robots.txt para gestionar accesos

El archivo robots.txt es tu primera línea de defensa. Con él, puedes indicarle a Googlebot qué directorios o páginas no deseas que rastree. Sin embargo, es importante recordar que esto solo bloquea el rastreo, no la indexación. Muchas personas confunden estos dos conceptos.

Por ejemplo, si una página está bloqueada en robots.txt, aún puede aparecer en los resultados de búsqueda si recibe enlaces externos. Esto significa que simplemente no puedes mantener un sitio «secreto» solo evitando enlaces a él.

Etiquetas noindex y nofollow para limitar índice y rastreo

Si tu objetivo es que una página no aparezca en los resultados de búsqueda, lo que necesitas es la etiqueta noindex en el meta robots. La etiqueta nofollow, ya sea en meta robots o como atributo de enlace, le sugiere a Googlebot que no siga ciertos enlaces. Pero ten en cuenta que es solo una sugerencia, no una orden.

Por lo tanto, no dependas de ella para controlar el flujo de rastreo. Si realmente necesitas proteger contenido sensible, la mejor opción es implementar protección por contraseña o autenticación. Googlebot no inicia sesión en sitios web, así que no podrá acceder a ese contenido.

Herramientas de Google Search Console para ajustar la velocidad de rastreo

En Google Search Console, puedes encontrar herramientas valiosas como el informe de cobertura. Aunque la herramienta de ajuste de velocidad de rastreo fue deprecada, aún puedes enviar URLs manualmente para rastreo. Esto te permite tener un control más efectivo sobre qué contenido se rastrea.

Un error común que he visto en sitios latinoamericanos es bloquear recursos CSS y JavaScript en robots.txt. Esto impide que Googlebot renderice correctamente las páginas y, en lugar de ayudar, perjudica el SEO.

Recuerda que Googlebot descubre URLs principalmente siguiendo enlaces. Así que, incluso si no publicas enlaces a una página «secreta», en el momento en que alguien haga clic en un enlace hacia ella desde tu sitio, la URL puede ser descubierta.

Optimización del crawl budget y rendimiento en el rastreo de Googlebot

Comprender el crawl budget puede marcar la diferencia en cómo Googlebot rastrea tu contenido. Este término se refiere a la cantidad de URLs que Googlebot está dispuesto a rastrear en tu sitio durante un período determinado. Para los sitios grandes, esto es especialmente relevante.

Qué es el crawl budget y por qué es importante

El crawl budget es una estimación de la frecuencia con la que un sitio web es actualizado y cuántas URLs Googlebot rastreará. Por lo general, Googlebot no accede a todas tus URLs todos los días. La prioridad se establece en función de la popularidad del sitio, la frescura del contenido y la velocidad de respuesta del servidor.

Si tu sitio es lento, el crawl budget se desperdicia. Esto significa que Googlebot puede reducir la frecuencia de acceso para no saturar tu servidor. Por lo tanto, optimizar este aspecto es vital para mantener tu contenido visible en los resultados de búsqueda.

Cómo influir positivamente en el presupuesto de rastreo

Hay varias formas de influir en tu crawl budget de manera positiva:

  • Mejora la velocidad de carga: Un servidor rápido permite a Googlebot rastrear más páginas en menos tiempo.
  • Elimina contenido duplicado: Esto ayuda a que Googlebot no pierda tiempo en páginas que no aportan valor.
  • Optimiza la estructura de enlaces internos: Una estructura clara facilita que Googlebot encuentre y rastree tus URLs importantes.

Consejos para mejorar la eficiencia del rastreo en sitios web

Para mejorar la eficiencia del rastreo, considera estos consejos:

  • Revisa regularmente el informe de Google Search Console para identificar qué URLs está rastreando Googlebot.
  • Configura correctamente tus sitemaps XML para ayudar a Googlebot a descubrir tus URLs más importantes.
  • Evita cadenas de redireccionamiento y corrige errores 404 para que Googlebot no pierda tiempo en páginas inactivas.

Si tu sitio tiene problemas para mantenerse al día con el rastreo, revisa tu servidor. He visto casos en los que sitios en hosting compartido barato no pueden manejar el rastreo normal de Google y pierden indexación.

turned on MacBook Pro beside gray mug

Bloqueos de Googlebot: consecuencias y diferencias entre rastreo e indexación

La gestión del acceso de Googlebot puede determinar el éxito o el fracaso de tu visibilidad en línea. Si decides bloquear a este rastreador, es crucial que entiendas las repercusiones que esto conlleva.

Qué sucede si bloqueas Googlebot en tu sitio

Bloquear Googlebot no es una decisión que debas tomar a la ligera. Las consecuencias van mucho más allá de simplemente no aparecer en Google. Esto afecta a Discover, Google Images, Google Video y Google News, todo de un solo golpe.

He visto casos de sitios que, al bloquear accidentalmente a Googlebot en su archivo robots.txt, perdieron todo su tráfico orgánico de la noche a la mañana. Este error puede costar miles de dólares en ventas perdidas.

Diferencias entre bloquear el rastreo y evitar la indexación

Es fundamental distinguir entre bloquear el rastreo y evitar la indexación. Usar robots.txt impide que Googlebot rastree una URL, pero la página aún puede aparecer en los resultados de búsqueda si tiene enlaces externos. Por otro lado, la etiqueta noindex evita que la URL sea indexada, aunque Googlebot aún puede rastrearla.

Impacto en resultados de búsqueda y productos relacionados

Si decides bloquear completamente a Googlebot, le estás diciendo a Google que no te interesa aparecer en su motor de búsqueda. Esto puede resultar en una caída drástica de tu tráfico orgánico.

Recuerda que, incluso si bloqueas el rastreo, otras personas pueden enlazar a tu sitio. Es casi imposible mantener un sitio secreto sin publicar enlaces a él. Las URLs pueden aparecer en Google con el mensaje: «No se ha podido obtener una descripción del resultado debido al archivo robots.txt del sitio».

Para contenido que realmente deseas mantener fuera del alcance de Google, la protección por contraseña es la única opción segura. Ni robots.txt ni noindex son métodos de seguridad, son solo sugerencias de cortesía.

Mejores prácticas para aprovechar Googlebot en la mejora de tu SEO

Aprovechar al máximo Googlebot puede transformar la visibilidad de tu sitio en los motores de búsqueda. Aquí algunas prácticas para optimizar tu contenido y mejorar tu SEO:

  • Optimiza la velocidad de carga: Un sitio rápido permite a Googlebot rastrear más páginas eficientemente.
  • Revisa tus logs de servidor: Analiza cómo Googlebot interactúa con tu sitio y corrige errores que desperdicien tu crawl budget.
  • Mantén tu archivo robots.txt limpio: No bloquees recursos necesarios para el renderizado de tu sitio.
  • Utiliza Google Search Console: Envía sitemaps, revisa errores de rastreo y monitorea el rendimiento de tus páginas.
  • Implementa encabezados de caché HTTP: Asegúrate de que Googlebot no descargue contenido que no ha cambiado.
  • Verifica las solicitudes de Googlebot: Asegúrate de que sean legítimas usando listas de IPs oficiales.
  • Crea contenido valioso: Googlebot prioriza sitios con contenido fresco y relevante.

Siguiendo estos consejos, mejorarás la indexación y el rendimiento de tu sitio en Google Search.

Preguntas frecuentes

¿Qué es Googlebot?

Googlebot es el crawler o robot de búsqueda de Google que se encarga de rastrear y indexar las páginas web para que aparezcan en los resultados de búsqueda.

Googlebot es crucial para el SEO porque su capacidad de rastreo y indexación determina cómo y cuándo tu sitio web aparecerá en los resultados de búsqueda, afectando así tu visibilidad online.

Existen principalmente dos tipos de Googlebot: Googlebot Smartphone, que rastrea sitios optimizados para móviles, y Googlebot Desktop, que se enfoca en las versiones de escritorio de las páginas.

Googlebot utiliza un proceso de rastreo que incluye la exploración de enlaces, la descarga de contenido y la construcción de un índice que almacena la información de las páginas web.

El crawl budget es la cantidad de páginas que Googlebot puede rastrear en tu sitio web durante un período específico. Optimizarlo es clave para mejorar la eficiencia del rastreo.

Compartir:
Facebook
WhatsApp
Telegram

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *