06

SEO técnico

Capítulo 06 / 09

robots.txt

Qué controla de verdad el robots.txt (no impide la indexación), la sintaxis que importa y las reglas para los bots de los buscadores con IA que todo sitio necesita en 2026: ChatGPT, Gemini, Perplexity y Claude.

8 min de lecturaPublicado 4 may 2026
robots.txt

robots.txt es un archivo de texto pequeño con una capacidad enorme de arruinar un sitio. Controla el crawl, no la indexación: una distinción que hace tropezar a más equipos que cualquier otro concepto de SEO técnico. Bien usado, gestiona el crawl budget en sitios grandes, evita que se desperdicie crawl en rutas de bajo valor y le dice a los bots de los buscadores con IA si son bienvenidos. Mal usado, mata el tráfico en silencio.

El robots.txt es una indicación para los crawlers que respetan el estándar, no un sistema de control de acceso. Si una URL tiene que ser privada, la respuesta es autenticación. Si no tiene que aparecer en el índice de Google, la respuesta es noindex. El robots.txt sirve para gestionar el crawl: ese es el único trabajo que hace.

Lo que hace el robots.txt y lo que no

Lo que SÍ haceIndicarle a los crawlers que respetan el estándar qué rutas pueden rastrear
Lo que NO haceImpedir la indexación: las URLs con el crawl bloqueado igual pueden aparecer en las SERPs
Lo que SÍ haceGestionar el crawl budget excluyendo rutas de bajo valor
Lo que NO haceEsconder contenido del público: el /robots.txt es de lectura pública
Lo que SÍ haceIndicar la ubicación del XML sitemap
Lo que NO haceImponer control de acceso: los bots que no respetan el estándar lo ignoran
Lo que SÍ haceDiferenciar el comportamiento por user-agent (Googlebot, Bingbot, GPTBot)
Lo que NO haceQuitar de la búsqueda URLs ya indexadas: para eso hace falta noindex + recrawl

La sintaxis que importa

Un robots.txt mínimo:

User-agent: *
Allow: /

Sitemap: https://www.ejemplo.com/sitemap.xml

Esa es la configuración de “todo abierto, aquí está mi sitemap”. Cada directiva con detalle:

  • User-agent:: a qué crawler se aplican las reglas. * coincide con todos los bots; Googlebot solo con Googlebot; se pueden nombrar bots específicos.
  • Allow: / Disallow:: rutas a permitir o bloquear. Las rutas son relativas a la raíz del dominio. Se admiten comodines (*) y fin de cadena ($).
  • Sitemap:: URL absoluta completa del XML sitemap. Se permiten varias líneas Sitemap para sitemap-indexes por tipo de contenido.
  • Crawl-delay:: Google la ignora; Bing y Yandex la respetan. Para Google, gestiona el crawl rate desde Search Console.

Patrones comunes

Bloquear /admin y resultados de búsqueda interna

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /*?sort=

Permitir todo

User-agent: *
Allow: /

Bloquear todo (un desastre si se sube por accidente)

User-agent: *
Disallow: /

Esta es la regla que mata sitios cuando el robots.txt de staging termina en producción. Agrega una verificación en el deploy que detecte un Disallow: / bajo User-agent: * en producción.

Reglas distintas por bot

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Disallow: /premium/

User-agent: *
Allow: /

La lista de bots de los buscadores con IA en 2026

Frente nuevo para el SEO técnico en 2026: los buscadores con IA tienen sus propios crawlers. Decide de forma explícita si cada uno es bienvenido. La opción por defecto para la mayoría de los sitios: permitirlos a todos (genera tráfico por citas desde las respuestas con IA); bloquea solo si tienes una razón concreta.

BotGPTBot
Buscador / caso de usoOpenAI: entrenamiento y navegación de ChatGPT
Bloquéalo para quedar fuera de…Datos de entrenamiento de ChatGPT + citas de ChatGPT con búsqueda
BotChatGPT-User
Buscador / caso de usoOpenAI: navegación en tiempo real en ChatGPT
Bloquéalo para quedar fuera de…Solo las citas en vivo de ChatGPT (el entrenamiento no se ve afectado)
BotGoogle-Extended
Buscador / caso de usoGoogle: entrenamiento de Gemini (no Search)
Bloquéalo para quedar fuera de…Entrenamiento de Gemini sin afectar los rankings de Google Search
BotClaudeBot
Buscador / caso de usoAnthropic: entrenamiento y citas de Claude.ai
Bloquéalo para quedar fuera de…Datos de entrenamiento de Claude + superficie de citas de Claude
BotPerplexityBot
Buscador / caso de usoPerplexity: navegación en tiempo real para respuestas
Bloquéalo para quedar fuera de…Superficie de citas de Perplexity
BotApplebot-Extended
Buscador / caso de usoApple Intelligence: entrenamiento
Bloquéalo para quedar fuera de…Datos de entrenamiento de Apple Intelligence
BotCCBot
Buscador / caso de usoCommon Crawl: lo usan muchos entrenadores de modelos
Bloquéalo para quedar fuera de…La mayoría de los datos públicos para entrenar modelos

Los errores catastróficos

  • Subir el Disallow: / de staging a producción. La forma más común de matar el tráfico de un sitio. Agrega una validación en el deploy que rompa el build si el robots.txt de producción bloquea la ruta raíz.
  • Bloquear archivos JS o CSS que Google necesita para renderizar la página. Los sitios modernos se renderizan con JS; si Googlebot no puede pedir el JS, no puede ver el contenido renderizado. Permite /_next/static/, las rutas de tu bundle de CSS y tus bundles de JS. Audítalo desde Search Console > Inspección de URL > Ver página probada.
  • Usar el robots.txt para “esconder” URLs sensibles. El robots.txt es de lectura pública en /robots.txt: cualquier persona con curiosidad puede ver justo lo que estás intentando ocultar. Usa autenticación para contenido sensible.
  • Bloquear páginas que quieres sacar del índice. No funciona: Google puede seguir indexando URLs que no puede crawlear. Usa la meta etiqueta noindex y deja el crawl permitido para que Google pueda leer la etiqueta.
  • Olvidar la referencia al sitemap. Agrega la línea Sitemap: al final; deja que los crawlers distintos a Googlebot lo encuentren sin envío manual.
  • Olvidar un robots.txt por subdominio. m.ejemplo.com, blog.ejemplo.com y shop.ejemplo.com necesitan cada uno el suyo. Habitual después de migraciones de subdominio.

El patrón de seguridad en el deploy

Para los sitios donde una regresión en robots.txt costaría dinero real, agrega esta verificación de CI antes del deploy:

  • Romper el build si el robots.txt de producción contiene User-agent: *\nDisallow: / sin otras reglas Allow.
  • Romper el build si el robots.txt de producción está vacío o devuelve 404 o 500.
  • Comparar el candidato del deploy contra la versión actualmente en vivo y mostrar cualquier cambio a un revisor humano.
  • Smoke test diario que pida /robots.txt en producción y valide que parsea sin errores.

Barato de implementar y se paga solo la única vez que atrapa un accidente de staging a producción.

El veredicto

El robots.txt es una indicación para gestionar el crawl, no un sistema de control de acceso ni un control de indexación. Úsalo para gestionar el crawl budget, excluir rutas de bajo valor y decidir qué bots de IA tienen acceso. Usa autenticación para la privacidad y noindex para sacar páginas del índice: son trabajos distintos. Agrega una validación en el deploy contra el Disallow: / en producción. El archivo está a un cambio de una línea de provocar un desastre; la red de seguridad se paga sola.

Preguntas frecuentes

Preguntas frecuentes

Respuestas rápidas a lo que nos preguntan antes de cada prueba.

Le indica a los crawlers que respetan el estándar qué rutas pueden rastrear. Nada más. NO impide la indexación: Google puede indexar una URL que no puede crawlear si está enlazada desde otro lado, solo que sin ver el contenido. NO mantiene el contenido en secreto: el robots.txt es público en /robots.txt. NO obliga a nada: los bots que no respetan el estándar lo ignoran. El error más común en SEO técnico es usar robots.txt para ‘esconder’ una página cuando lo que quieres es un noindex.