¿Cuál es la diferencia entre un bloqueo en robots.txt y un noindex?

robots.txt impide el crawl: Googlebot no puede pedir la URL. noindex (en meta tag o header HTTP) impide la indexación: Googlebot puede pedirla y leerla, pero no la mete al índice. Importante: una URL bloqueada por robots.txt SÍ puede aparecer en los resultados de búsqueda (Google la indexa por los enlaces que apuntan a ella, solo que sin contenido). Para sacar una página del índice por completo, aplica noindex Y deja el crawl permitido en robots.txt para que Google pueda leer la etiqueta.

¿Cómo pruebo mi robots.txt?

Tres fuentes. (1) Search Console > Probador de robots.txt (legacy, pero sigue funcionando): valida URLs específicas contra el archivo en vivo. (2) Inspección de URL en Search Console: confirma si una URL concreta está bloqueada. (3) Pídeselo directo con curl: curl https://www.ejemplo.com/robots.txt. Después de cada deploy que toque robots.txt, contrasta el archivo de producción con la plantilla de staging: subir por accidente un ‘Disallow: /’ de staging a producción ha tumbado sitios enteros.

¿Dónde debe estar el robots.txt?

Siempre en la raíz del dominio: /robots.txt. Los subdirectorios (por ejemplo /carpeta/robots.txt) no se respetan. Cada subdominio necesita el suyo (m.ejemplo.com/robots.txt es independiente de www.ejemplo.com/robots.txt). El archivo es texto plano, codificado en UTF-8 y servido con Content-Type: text/plain.

SEO técnico

Capítulo 06 / 09

robots.txt

Q: ¿Debo bloquear los bots de IA en robots.txt?

Depende del caso. (1) Bloquear GPTBot, ClaudeBot y similares impide que tu contenido se use para entrenar modelos, pero también deja fuera a los crawlers que llevan tu marca a las respuestas de ChatGPT, Claude y Perplexity. (2) Bloquear Google-Extended te saca del entrenamiento de Gemini sin afectar los rankings de Google Search. A la mayoría de los sitios les conviene que los buscadores con IA los indexen (genera tráfico por citas y visibilidad de marca); bloquea solo si tienes una razón concreta: contenido bajo paywall, datos premium de entrenamiento o riesgos de propiedad intelectual.

Qué controla de verdad el robots.txt (no impide la indexación), la sintaxis que importa y las reglas para los bots de los buscadores con IA que todo sitio necesita en 2026: ChatGPT, Gemini, Perplexity y Claude.

8 min de lecturaPublicado 4 may 2026

robots.txt es un archivo de texto pequeño con una capacidad enorme de arruinar un sitio. Controla el crawl, no la indexación: una distinción que hace tropezar a más equipos que cualquier otro concepto de SEO técnico. Bien usado, gestiona el crawl budget en sitios grandes, evita que se desperdicie crawl en rutas de bajo valor y le dice a los bots de los buscadores con IA si son bienvenidos. Mal usado, mata el tráfico en silencio.

“El robots.txt es una indicación para los crawlers que respetan el estándar, no un sistema de control de acceso. Si una URL tiene que ser privada, la respuesta es autenticación. Si no tiene que aparecer en el índice de Google, la respuesta es noindex. El robots.txt sirve para gestionar el crawl: ese es el único trabajo que hace.”

Lo que hace el robots.txt y lo que no

Lo que SÍ hace	Lo que NO hace
Indicarle a los crawlers que respetan el estándar qué rutas pueden rastrear	Impedir la indexación: las URLs con el crawl bloqueado igual pueden aparecer en las SERPs
Gestionar el crawl budget excluyendo rutas de bajo valor	Esconder contenido del público: el /robots.txt es de lectura pública
Indicar la ubicación del XML sitemap	Imponer control de acceso: los bots que no respetan el estándar lo ignoran
Diferenciar el comportamiento por user-agent (Googlebot, Bingbot, GPTBot)	Quitar de la búsqueda URLs ya indexadas: para eso hace falta noindex + recrawl

Lo que SÍ haceIndicarle a los crawlers que respetan el estándar qué rutas pueden rastrear

Lo que NO haceImpedir la indexación: las URLs con el crawl bloqueado igual pueden aparecer en las SERPs

Lo que SÍ haceGestionar el crawl budget excluyendo rutas de bajo valor

Lo que NO haceEsconder contenido del público: el /robots.txt es de lectura pública

Lo que SÍ haceIndicar la ubicación del XML sitemap

Lo que NO haceImponer control de acceso: los bots que no respetan el estándar lo ignoran

Lo que SÍ haceDiferenciar el comportamiento por user-agent (Googlebot, Bingbot, GPTBot)

Lo que NO haceQuitar de la búsqueda URLs ya indexadas: para eso hace falta noindex + recrawl

La sintaxis que importa

Un robots.txt mínimo:

User-agent: *
Allow: /

Sitemap: https://www.ejemplo.com/sitemap.xml

Esa es la configuración de “todo abierto, aquí está mi sitemap”. Cada directiva con detalle:

User-agent:: a qué crawler se aplican las reglas. * coincide con todos los bots; Googlebot solo con Googlebot; se pueden nombrar bots específicos.
Allow: / Disallow:: rutas a permitir o bloquear. Las rutas son relativas a la raíz del dominio. Se admiten comodines (*) y fin de cadena ($).
Sitemap:: URL absoluta completa del XML sitemap. Se permiten varias líneas Sitemap para sitemap-indexes por tipo de contenido.
Crawl-delay:: Google la ignora; Bing y Yandex la respetan. Para Google, gestiona el crawl rate desde Search Console.

Patrones comunes

Bloquear /admin y resultados de búsqueda interna

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /*?sort=

Permitir todo

User-agent: *
Allow: /

Bloquear todo (un desastre si se sube por accidente)

User-agent: *
Disallow: /

Esta es la regla que mata sitios cuando el robots.txt de staging termina en producción. Agrega una verificación en el deploy que detecte un Disallow: / bajo User-agent: * en producción.

Reglas distintas por bot

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Disallow: /premium/

User-agent: *
Allow: /

La lista de bots de los buscadores con IA en 2026

Frente nuevo para el SEO técnico en 2026: los buscadores con IA tienen sus propios crawlers. Decide de forma explícita si cada uno es bienvenido. La opción por defecto para la mayoría de los sitios: permitirlos a todos (genera tráfico por citas desde las respuestas con IA); bloquea solo si tienes una razón concreta.

Bot	Buscador / caso de uso	Bloquéalo para quedar fuera de…
GPTBot	OpenAI: entrenamiento y navegación de ChatGPT	Datos de entrenamiento de ChatGPT + citas de ChatGPT con búsqueda
ChatGPT-User	OpenAI: navegación en tiempo real en ChatGPT	Solo las citas en vivo de ChatGPT (el entrenamiento no se ve afectado)
Google-Extended	Google: entrenamiento de Gemini (no Search)	Entrenamiento de Gemini sin afectar los rankings de Google Search
ClaudeBot	Anthropic: entrenamiento y citas de Claude.ai	Datos de entrenamiento de Claude + superficie de citas de Claude
PerplexityBot	Perplexity: navegación en tiempo real para respuestas	Superficie de citas de Perplexity
Applebot-Extended	Apple Intelligence: entrenamiento	Datos de entrenamiento de Apple Intelligence
CCBot	Common Crawl: lo usan muchos entrenadores de modelos	La mayoría de los datos públicos para entrenar modelos

BotGPTBot

Buscador / caso de usoOpenAI: entrenamiento y navegación de ChatGPT

Bloquéalo para quedar fuera de…Datos de entrenamiento de ChatGPT + citas de ChatGPT con búsqueda

BotChatGPT-User

Buscador / caso de usoOpenAI: navegación en tiempo real en ChatGPT

Bloquéalo para quedar fuera de…Solo las citas en vivo de ChatGPT (el entrenamiento no se ve afectado)

BotGoogle-Extended

Buscador / caso de usoGoogle: entrenamiento de Gemini (no Search)

Bloquéalo para quedar fuera de…Entrenamiento de Gemini sin afectar los rankings de Google Search

BotClaudeBot

Buscador / caso de usoAnthropic: entrenamiento y citas de Claude.ai

Bloquéalo para quedar fuera de…Datos de entrenamiento de Claude + superficie de citas de Claude

BotPerplexityBot

Buscador / caso de usoPerplexity: navegación en tiempo real para respuestas

Bloquéalo para quedar fuera de…Superficie de citas de Perplexity

BotApplebot-Extended

Buscador / caso de usoApple Intelligence: entrenamiento

Bloquéalo para quedar fuera de…Datos de entrenamiento de Apple Intelligence

BotCCBot

Buscador / caso de usoCommon Crawl: lo usan muchos entrenadores de modelos

Bloquéalo para quedar fuera de…La mayoría de los datos públicos para entrenar modelos

Los errores catastróficos

Subir el Disallow: / de staging a producción. La forma más común de matar el tráfico de un sitio. Agrega una validación en el deploy que rompa el build si el robots.txt de producción bloquea la ruta raíz.
Bloquear archivos JS o CSS que Google necesita para renderizar la página. Los sitios modernos se renderizan con JS; si Googlebot no puede pedir el JS, no puede ver el contenido renderizado. Permite /_next/static/, las rutas de tu bundle de CSS y tus bundles de JS. Audítalo desde Search Console > Inspección de URL > Ver página probada.
Usar el robots.txt para “esconder” URLs sensibles. El robots.txt es de lectura pública en /robots.txt: cualquier persona con curiosidad puede ver justo lo que estás intentando ocultar. Usa autenticación para contenido sensible.
Bloquear páginas que quieres sacar del índice. No funciona: Google puede seguir indexando URLs que no puede crawlear. Usa la meta etiqueta noindex y deja el crawl permitido para que Google pueda leer la etiqueta.
Olvidar la referencia al sitemap. Agrega la línea Sitemap: al final; deja que los crawlers distintos a Googlebot lo encuentren sin envío manual.
Olvidar un robots.txt por subdominio. m.ejemplo.com, blog.ejemplo.com y shop.ejemplo.com necesitan cada uno el suyo. Habitual después de migraciones de subdominio.

El patrón de seguridad en el deploy

Para los sitios donde una regresión en robots.txt costaría dinero real, agrega esta verificación de CI antes del deploy:

Romper el build si el robots.txt de producción contiene User-agent: *\nDisallow: / sin otras reglas Allow.
Romper el build si el robots.txt de producción está vacío o devuelve 404 o 500.
Comparar el candidato del deploy contra la versión actualmente en vivo y mostrar cualquier cambio a un revisor humano.
Smoke test diario que pida /robots.txt en producción y valide que parsea sin errores.

Barato de implementar y se paga solo la única vez que atrapa un accidente de staging a producción.

El veredicto

El robots.txt es una indicación para gestionar el crawl, no un sistema de control de acceso ni un control de indexación. Úsalo para gestionar el crawl budget, excluir rutas de bajo valor y decidir qué bots de IA tienen acceso. Usa autenticación para la privacidad y noindex para sacar páginas del índice: son trabajos distintos. Agrega una validación en el deploy contra el Disallow: / en producción. El archivo está a un cambio de una línea de provocar un desastre; la red de seguridad se paga sola.

Preguntas frecuentes

Respuestas rápidas a lo que nos preguntan antes de cada prueba.

Le indica a los crawlers que respetan el estándar qué rutas pueden rastrear. Nada más. NO impide la indexación: Google puede indexar una URL que no puede crawlear si está enlazada desde otro lado, solo que sin ver el contenido. NO mantiene el contenido en secreto: el robots.txt es público en /robots.txt. NO obliga a nada: los bots que no respetan el estándar lo ignoran. El error más común en SEO técnico es usar robots.txt para ‘esconder’ una página cuando lo que quieres es un noindex.

En este clúster

SEO técnico

Capítulo anterior

05. XML sitemaps

Siguiente capítulo

07. Etiquetas canonical

Producto

Recursos

Empresa

robots.txt

Lo que hace el robots.txt y lo que no

La sintaxis que importa

Patrones comunes

Bloquear /admin y resultados de búsqueda interna

Permitir todo

Bloquear todo (un desastre si se sube por accidente)

Reglas distintas por bot

La lista de bots de los buscadores con IA en 2026

Los errores catastróficos

El patrón de seguridad en el deploy

El veredicto

Preguntas frecuentes

SEO técnico