¿Por qué no se indexa mi página?

Seis causas comunes, en orden de frecuencia. (1) Rastreada pero no indexada: Google la renderizó y decidió que no daba el ancho; casi siempre es un tema de calidad de contenido o duplicación. (2) Descubierta pero no rastreada: Googlebot encontró la URL pero no la fue a buscar; presupuesto de rastreo o baja prioridad. (3) Bloqueada por robots.txt. (4) Marcada con noindex. (5) Etiqueta canonical apuntando a otra parte. (6) El servidor devolvió un error 4xx/5xx cuando Googlebot fue a buscarla. El informe Search Console > Páginas te dice en qué cubeta cae la URL.

¿Qué es el presupuesto de rastreo y me importa?

El presupuesto de rastreo es la cantidad de URLs que Googlebot está dispuesto a traer de tu sitio en un periodo dado. Para sitios con menos de unas 10,000 URLs, casi nunca importa: Google puede rastrearlo todo. Para sitios con cientos de miles o millones de URLs (e-commerce, marketplaces, SEO programático), el presupuesto de rastreo se vuelve una restricción real, y el trabajo de optimización también: control de navegación facetada, manejo de parámetros, priorización de sitemap, sacar URLs de bajo valor de la ruta de rastreo.

¿Cómo fuerzo a Google a rastrear una página nueva?

Tres opciones, en orden de velocidad. (1) Search Console > Inspección de URL > Solicitar indexación: manual, sirve para páginas individuales de alta prioridad, con cuota diaria. (2) Asegúrate de que la página esté enlazada desde una página con autoridad en el sitio (home, página hub, artículo reciente); Googlebot la encuentra rastreando. (3) Sube un XML sitemap actualizado que incluya la URL nueva; con el tiempo Googlebot lo procesa. La más rápida es la opción 1 para páginas urgentes y aisladas; la 2 es el sistema duradero; la 3 es la opción por defecto para volumen.

¿Qué significa 'soft 404' en Search Console?

Un soft 404 es una página que devuelve HTTP 200 (éxito) pero Google decidió que en realidad es una página de 'no encontrado' o 'sin contenido': páginas de producto vacías, páginas de error con apariencia normal, resultados de búsqueda interna con cero coincidencias, contenido borrado que no se redirigió. Google la trata como un 404 para efectos de indexación pero la marca porque el servidor está mintiendo. Arreglo: o devuelve un 404/410 correcto, o restaura el contenido, o redirige (301) a una alternativa relevante.

SEO técnico

Capítulo 04 / 09

Crawling e indexación

Dos etapas distintas, dos modos de falla distintos. Qué impide que Googlebot rastree, qué impide que indexe y cómo diagnosticar cualquiera de las dos desde Search Console sin adivinar.

9 min de lecturaPublicado 4 may 2026

El rastreo y la indexación son las dos etapas fundacionales que cada página tiene que pasar antes de poder posicionar. Son distintas: el rastreo es descubrimiento y renderizado; la indexación es decisión y almacenamiento. Tienen distintos modos de falla, distintas superficies de diagnóstico en Search Console y distintos arreglos. Confundirlas es la razón más común por la que las investigaciones de “por qué no posiciona mi página” dan vueltas en círculo.

“Rastreada pero no indexada es un problema de contenido. Descubierta pero no rastreada es un problema de prioridad de rastreo. Ni siquiera descubierta es un problema de enlazado interno. Tres fallas distintas, tres arreglos distintos; Search Console te dice cuál estás viendo.”

El flujo completo: rastreo → renderizado → indexar → posicionar

Etapa	Qué pasa	Qué puede fallar
Descubrimiento	Googlebot encuentra la URL por enlace interno, sitemap, enlace externo o envío manual	Sin enlace interno + sin sitemap = página huérfana
Rastreo	Googlebot trae el HTML de la URL	Bloqueo de robots.txt, error 4xx/5xx del servidor, respuesta lenta
Renderizado	Google ejecuta el JavaScript, construye el DOM final y extrae contenido + señales	Errores de JS, recursos bloqueados, contenido dinámico que no renderiza
Decisión de índice	Google decide si la página renderizada entra al índice	Calidad baja, duplicación, noindex, canonical apuntando a otra parte
Posicionamiento	Las páginas indexadas compiten en la recuperación para una consulta	Fuera del alcance de este artículo: ver el clúster del algoritmo de Google

EtapaDescubrimiento

Qué pasaGooglebot encuentra la URL por enlace interno, sitemap, enlace externo o envío manual

Qué puede fallarSin enlace interno + sin sitemap = página huérfana

EtapaRastreo

Qué pasaGooglebot trae el HTML de la URL

Qué puede fallarBloqueo de robots.txt, error 4xx/5xx del servidor, respuesta lenta

EtapaRenderizado

Qué pasaGoogle ejecuta el JavaScript, construye el DOM final y extrae contenido + señales

Qué puede fallarErrores de JS, recursos bloqueados, contenido dinámico que no renderiza

EtapaDecisión de índice

Qué pasaGoogle decide si la página renderizada entra al índice

Qué puede fallarCalidad baja, duplicación, noindex, canonical apuntando a otra parte

EtapaPosicionamiento

Qué pasaLas páginas indexadas compiten en la recuperación para una consulta

Qué puede fallarFuera del alcance de este artículo: ver el clúster del algoritmo de Google

Cada etapa tiene una señal en Search Console. Los problemas de descubrimiento y rastreo aparecen en el informe de Estadísticas de Rastreo y en el informe de Páginas (“Descubierta — actualmente sin indexar”). Los problemas de renderizado aparecen en la herramienta Inspeccionar URL al comparar el HTML con el HTML renderizado. Las decisiones de índice aparecen en el informe de Páginas (“Rastreada — actualmente sin indexar”).

Etapa 1: Descubrimiento

Googlebot encuentra URLs nuevas por tres canales principales:

Enlaces internos desde páginas ya rastreadas en tu dominio.
XML sitemaps enviados por Search Console.
Enlaces externos desde otros dominios, más el envío de URL desde la herramienta Inspección de URL en Search Console.

Una página que no aparece en ninguno de esos canales es una “página huérfana”: Google no sabe que existe. El arreglo es el más simple de todo este artículo: agrega un enlace interno desde algún lugar alcanzable, agrega la URL a tu sitemap, o las dos cosas.

Etapa 2: Rastreo

Una vez que Googlebot tiene la URL, intenta traerla. La descarga puede fallar por varias razones:

Bloqueo de robots.txt. Común tras los lanzamientos, cuando las reglas de robots.txt de staging suben por accidente a producción.
Errores 4xx. Los 404 y 410 son correctos para páginas borradas, pero se vuelven un problema cuando páginas válidas los devuelven por error.
Errores 5xx. Problemas del lado del servidor: sobrecarga, caídas de aplicación, CDN mal configurado. Googlebot se repliega y vuelve a intentar; los 5xx persistentes degradan la URL.
Respuesta lenta. Si el servidor tarda más de 10 a 15 segundos en responder, Googlebot puede abandonar la descarga.
Tope del presupuesto de rastreo en sitios grandes: Googlebot no traerá cada URL en cada visita.

El informe de Estadísticas de Rastreo en Search Console muestra el volumen que Googlebot está trayendo, los códigos de respuesta que está viendo y el tiempo de respuesta promedio. Las anomalías ahí suelen predecir problemas de posicionamiento antes de que se vean en el tráfico.

Etapa 3: Renderizado

El Google de hoy renderiza páginas con un Chromium headless que ejecuta JavaScript antes de extraer contenido. Dos páginas pueden devolver HTML idéntico y DOMs renderizados muy distintos según lo que haga su JS. Las fallas de renderizado aparecen como contenido faltante en la versión indexada aunque la URL haya sido rastreada con éxito.

Usa Search Console > Inspección de URL > Probar URL en vivo > Ver página probada > Captura + HTML. Si el HTML renderizado no coincide con lo que ven los usuarios en el navegador, Google tampoco puede ver el contenido faltante. Causas comunes:

JavaScript que bloquea el renderizado y se queda sin tiempo antes de que el bot termine de renderizar.
Contenido cargado después de la interacción del usuario (click-to-reveal, scroll infinito sin prerender basado en IntersectionObserver).
Recursos bloqueados por robots.txt: archivos JS, archivos CSS, endpoints de API críticos para el resultado renderizado.
Fallas de API durante el renderizado: contenido traído desde un backend al que el bot no puede llegar.

Revisa el artículo dedicado de JavaScript SEO para la lista de arreglos de renderizado a fondo.

Etapa 4: Decisión de índice

Una vez renderizada, Google decide si la página merece quedarse en el índice. Los dos estados de rechazo más comunes en Search Console:

Estado	Qué significa	Arreglo típico
Rastreada — actualmente sin indexar	Google trajo + renderizó la página y la rechazó. Razones de calidad, duplicación o contenido pobre.	Mejorar la calidad del contenido, agregar valor único, consolidar URLs duplicadas, actualizar páginas viejas
Descubierta — actualmente sin indexar	Google sabe que la URL existe pero no la trajo. Razón de prioridad de rastreo o de presupuesto.	Aumentar el enlazado interno desde páginas con autoridad; reducir URLs de bajo valor en la ruta de rastreo; revisar la velocidad del sitio
Duplicada sin canonical seleccionado por el usuario	Google decidió que esta página es duplicada de otra, sin canonical configurado	Configurar canonical explícito, consolidar duplicados o mejorar la unicidad
Página con redirección	La URL redirige a otra URL: el destino es lo que se indexa	Normalmente correcto; verifica que el destino sea el canonical previsto
Soft 404	La página devuelve HTTP 200 pero Google la ve como 'no encontrada'	Devolver 404/410 correcto, restaurar contenido o redirección 301
Bloqueada por robots.txt	robots.txt impide el rastreo	Ajustar robots.txt si el bloqueo no era intencional
Excluida por etiqueta 'noindex'	La página tiene meta noindex o header X-Robots-Tag	Quitar noindex si la exclusión no era intencional

EstadoRastreada — actualmente sin indexar

Qué significaGoogle trajo + renderizó la página y la rechazó. Razones de calidad, duplicación o contenido pobre.

Arreglo típicoMejorar la calidad del contenido, agregar valor único, consolidar URLs duplicadas, actualizar páginas viejas

EstadoDescubierta — actualmente sin indexar

Qué significaGoogle sabe que la URL existe pero no la trajo. Razón de prioridad de rastreo o de presupuesto.

Arreglo típicoAumentar el enlazado interno desde páginas con autoridad; reducir URLs de bajo valor en la ruta de rastreo; revisar la velocidad del sitio

EstadoDuplicada sin canonical seleccionado por el usuario

Qué significaGoogle decidió que esta página es duplicada de otra, sin canonical configurado

Arreglo típicoConfigurar canonical explícito, consolidar duplicados o mejorar la unicidad

EstadoPágina con redirección

Qué significaLa URL redirige a otra URL: el destino es lo que se indexa

Arreglo típicoNormalmente correcto; verifica que el destino sea el canonical previsto

EstadoSoft 404

Qué significaLa página devuelve HTTP 200 pero Google la ve como 'no encontrada'

Arreglo típicoDevolver 404/410 correcto, restaurar contenido o redirección 301

EstadoBloqueada por robots.txt

Qué significarobots.txt impide el rastreo

Arreglo típicoAjustar robots.txt si el bloqueo no era intencional

EstadoExcluida por etiqueta 'noindex'

Qué significaLa página tiene meta noindex o header X-Robots-Tag

Arreglo típicoQuitar noindex si la exclusión no era intencional

Presupuesto de rastreo: cuándo importa

Para sitios con menos de unas 10,000 URLs, el presupuesto de rastreo rara vez importa; Google puede rastrear todo el sitio con frecuencia. Para sitios más grandes —e-commerce con catálogos facetados profundos, marketplaces, SEO programático a escala— el presupuesto de rastreo se vuelve una restricción real.

Síntomas de presión sobre el presupuesto de rastreo:

URLs nuevas que tardan semanas en ser rastreadas e indexadas.
Contenido actualizado que no se refresca en el índice durante mucho tiempo.
Grandes cantidades de URLs en “Descubierta — actualmente sin indexar”.
Estadísticas de Rastreo que muestran que el bot gasta la mayor parte de su cuota en URLs de bajo valor (permutaciones de navegación facetada, variantes de orden, combinaciones de filtros).

Mitigaciones:

Bloquear parámetros de URL de bajo valor por robots.txt o noindex.
Usar etiquetas canonical para consolidar duplicados en lugar de dejar que se rastreen todas las variantes.
Podar URLs de peso muerto (páginas de producto de cola larga sin tráfico, listados de archivo que nadie lee).
Mejorar la velocidad del sitio: respuestas más rápidas = más URLs rastreadas por sesión.
Usar XML sitemaps para señalar URLs prioritarias.

El flujo de diagnóstico en Search Console

Cuando una página no posiciona y sospechas problemas de rastreo o indexación, sigue esta secuencia:

1. Inspección de URL. Pega la URL y revisa el estado “La URL está en Google”. Si no está indexada, la herramienta de inspección te dice por qué.
2. Informe de Páginas > filtra al patrón de URL relevante. Mira en qué cubeta cae la URL (indexada, rastreada-sin-indexar, descubierta-sin-rastrear, etc).
3. Informe de Estadísticas de Rastreo. Confirma que Googlebot llega al sitio sin problemas, que los códigos de respuesta están sanos y que el tiempo de respuesta promedio es de pocos segundos.
4. Tendencias de cobertura. Las caídas súbitas en el conteo de páginas indexadas suelen ser una regresión de robots.txt, una etiqueta noindex que se desplegó al sitio entero o un canonical apuntando a otra parte.
5. Inspección de URL > Probar URL en vivo. Confirma que el HTML renderizado coincide con lo que esperas; verifica si el bot puede renderizar el contenido.

El veredicto

El rastreo y la indexación son dos etapas, no una. Una página puede fallar en descubrimiento (sin enlace, sin sitemap), en rastreo (bloqueo de robots, 4xx/5xx), en renderizado (problemas de JS) o en la decisión de índice (calidad, duplicación, canonical). Cada falla aparece en una superficie distinta de Search Console y exige un arreglo distinto. No adivines: diagnostica. Las herramientas están ahí; la mayoría de los equipos simplemente no las usa de manera sistemática.

Preguntas frecuentes

Respuestas rápidas a lo que nos preguntan antes de cada prueba.

El rastreo es la etapa de descubrimiento: Googlebot sigue enlaces, trae el HTML y decide qué renderizar. La indexación es la etapa de almacenamiento: después de renderizar, Google decide si la página merece quedarse en el índice y la guarda con las señales extraídas (contenido, schema, canonical, enlaces). Una página puede ser rastreada pero no indexada (Google la vio y la rechazó) y una página puede no llegar a ser rastreada (sin enlace interno, bloqueada por robots, el servidor devolvió un error). Cada falla pide un arreglo distinto.

En este clúster

SEO técnico

Capítulo anterior

03. SEO móvil

Siguiente capítulo

05. XML sitemaps

Producto

Recursos

Empresa

Crawling e indexación

El flujo completo: rastreo → renderizado → indexar → posicionar

Etapa 1: Descubrimiento

Etapa 2: Rastreo

Etapa 3: Renderizado

Etapa 4: Decisión de índice

Presupuesto de rastreo: cuándo importa

El flujo de diagnóstico en Search Console

El veredicto

Preguntas frecuentes

SEO técnico

Ve el OS en acción

Antes de agendar