SEO técnico
Capítulo 06 / 09
robots.txt
Qué controla de verdad el robots.txt (no impide la indexación), la sintaxis que importa y las reglas para los bots de los buscadores con IA que todo sitio necesita en 2026: ChatGPT, Gemini, Perplexity y Claude.

robots.txt es un archivo de texto pequeño con una capacidad enorme de arruinar un sitio. Controla el crawl, no la indexación: una distinción que hace tropezar a más equipos que cualquier otro concepto de SEO técnico. Bien usado, gestiona el crawl budget en sitios grandes, evita que se desperdicie crawl en rutas de bajo valor y le dice a los bots de los buscadores con IA si son bienvenidos. Mal usado, mata el tráfico en silencio.
“El robots.txt es una indicación para los crawlers que respetan el estándar, no un sistema de control de acceso. Si una URL tiene que ser privada, la respuesta es autenticación. Si no tiene que aparecer en el índice de Google, la respuesta es noindex. El robots.txt sirve para gestionar el crawl: ese es el único trabajo que hace.”
Lo que hace el robots.txt y lo que no
| Lo que SÍ hace | Lo que NO hace |
|---|---|
| Indicarle a los crawlers que respetan el estándar qué rutas pueden rastrear | Impedir la indexación: las URLs con el crawl bloqueado igual pueden aparecer en las SERPs |
| Gestionar el crawl budget excluyendo rutas de bajo valor | Esconder contenido del público: el /robots.txt es de lectura pública |
| Indicar la ubicación del XML sitemap | Imponer control de acceso: los bots que no respetan el estándar lo ignoran |
| Diferenciar el comportamiento por user-agent (Googlebot, Bingbot, GPTBot) | Quitar de la búsqueda URLs ya indexadas: para eso hace falta noindex + recrawl |
La sintaxis que importa
Un robots.txt mínimo:
User-agent: *Allow: /Sitemap: https://www.ejemplo.com/sitemap.xml
Esa es la configuración de “todo abierto, aquí está mi sitemap”. Cada directiva con detalle:
User-agent:: a qué crawler se aplican las reglas.*coincide con todos los bots;Googlebotsolo con Googlebot; se pueden nombrar bots específicos.Allow:/Disallow:: rutas a permitir o bloquear. Las rutas son relativas a la raíz del dominio. Se admiten comodines (*) y fin de cadena ($).Sitemap:: URL absoluta completa del XML sitemap. Se permiten varias líneas Sitemap para sitemap-indexes por tipo de contenido.Crawl-delay:: Google la ignora; Bing y Yandex la respetan. Para Google, gestiona el crawl rate desde Search Console.
Patrones comunes
Bloquear /admin y resultados de búsqueda interna
User-agent: *Disallow: /admin/Disallow: /search?Disallow: /*?sort=
Permitir todo
User-agent: *Allow: /
Bloquear todo (un desastre si se sube por accidente)
User-agent: *Disallow: /
Esta es la regla que mata sitios cuando el robots.txt de staging termina en producción. Agrega una verificación en el deploy que detecte un Disallow: / bajo User-agent: * en producción.
Reglas distintas por bot
User-agent: GooglebotAllow: /User-agent: GPTBotDisallow: /premium/User-agent: *Allow: /
La lista de bots de los buscadores con IA en 2026
Frente nuevo para el SEO técnico en 2026: los buscadores con IA tienen sus propios crawlers. Decide de forma explícita si cada uno es bienvenido. La opción por defecto para la mayoría de los sitios: permitirlos a todos (genera tráfico por citas desde las respuestas con IA); bloquea solo si tienes una razón concreta.
| Bot | Buscador / caso de uso | Bloquéalo para quedar fuera de… |
|---|---|---|
| GPTBot | OpenAI: entrenamiento y navegación de ChatGPT | Datos de entrenamiento de ChatGPT + citas de ChatGPT con búsqueda |
| ChatGPT-User | OpenAI: navegación en tiempo real en ChatGPT | Solo las citas en vivo de ChatGPT (el entrenamiento no se ve afectado) |
| Google-Extended | Google: entrenamiento de Gemini (no Search) | Entrenamiento de Gemini sin afectar los rankings de Google Search |
| ClaudeBot | Anthropic: entrenamiento y citas de Claude.ai | Datos de entrenamiento de Claude + superficie de citas de Claude |
| PerplexityBot | Perplexity: navegación en tiempo real para respuestas | Superficie de citas de Perplexity |
| Applebot-Extended | Apple Intelligence: entrenamiento | Datos de entrenamiento de Apple Intelligence |
| CCBot | Common Crawl: lo usan muchos entrenadores de modelos | La mayoría de los datos públicos para entrenar modelos |
Los errores catastróficos
- Subir el
Disallow: /de staging a producción. La forma más común de matar el tráfico de un sitio. Agrega una validación en el deploy que rompa el build si el robots.txt de producción bloquea la ruta raíz. - Bloquear archivos JS o CSS que Google necesita para renderizar la página. Los sitios modernos se renderizan con JS; si Googlebot no puede pedir el JS, no puede ver el contenido renderizado. Permite
/_next/static/, las rutas de tu bundle de CSS y tus bundles de JS. Audítalo desde Search Console > Inspección de URL > Ver página probada. - Usar el robots.txt para “esconder” URLs sensibles. El robots.txt es de lectura pública en /robots.txt: cualquier persona con curiosidad puede ver justo lo que estás intentando ocultar. Usa autenticación para contenido sensible.
- Bloquear páginas que quieres sacar del índice. No funciona: Google puede seguir indexando URLs que no puede crawlear. Usa la meta etiqueta
noindexy deja el crawl permitido para que Google pueda leer la etiqueta. - Olvidar la referencia al sitemap. Agrega la línea
Sitemap:al final; deja que los crawlers distintos a Googlebot lo encuentren sin envío manual. - Olvidar un robots.txt por subdominio.
m.ejemplo.com,blog.ejemplo.comyshop.ejemplo.comnecesitan cada uno el suyo. Habitual después de migraciones de subdominio.
El patrón de seguridad en el deploy
Para los sitios donde una regresión en robots.txt costaría dinero real, agrega esta verificación de CI antes del deploy:
- Romper el build si el robots.txt de producción contiene
User-agent: *\nDisallow: /sin otras reglas Allow. - Romper el build si el robots.txt de producción está vacío o devuelve 404 o 500.
- Comparar el candidato del deploy contra la versión actualmente en vivo y mostrar cualquier cambio a un revisor humano.
- Smoke test diario que pida
/robots.txten producción y valide que parsea sin errores.
Barato de implementar y se paga solo la única vez que atrapa un accidente de staging a producción.
El veredicto
El robots.txt es una indicación para gestionar el crawl, no un sistema de control de acceso ni un control de indexación. Úsalo para gestionar el crawl budget, excluir rutas de bajo valor y decidir qué bots de IA tienen acceso. Usa autenticación para la privacidad y noindex para sacar páginas del índice: son trabajos distintos. Agrega una validación en el deploy contra el Disallow: / en producción. El archivo está a un cambio de una línea de provocar un desastre; la red de seguridad se paga sola.
Preguntas frecuentes
Preguntas frecuentes
Respuestas rápidas a lo que nos preguntan antes de cada prueba.
Le indica a los crawlers que respetan el estándar qué rutas pueden rastrear. Nada más. NO impide la indexación: Google puede indexar una URL que no puede crawlear si está enlazada desde otro lado, solo que sin ver el contenido. NO mantiene el contenido en secreto: el robots.txt es público en /robots.txt. NO obliga a nada: los bots que no respetan el estándar lo ignoran. El error más común en SEO técnico es usar robots.txt para ‘esconder’ una página cuando lo que quieres es un noindex.
En este clúster