SEO técnico
Capítulo 04 / 09
Crawling e indexación
Dos etapas distintas, dos modos de falla distintos. Qué impide que Googlebot crawlee, qué impide que indexe y cómo diagnosticar cualquiera de las dos desde Search Console sin adivinar.

El crawling y la indexación son las dos etapas fundacionales que cada página tiene que pasar antes de poder posicionar. Son distintas: el crawling es descubrimiento y renderizado; la indexación es decisión y almacenamiento. Tienen distintos modos de falla, distintas superficies de diagnóstico en Search Console y distintos arreglos. Confundirlas es la razón más común por la que las investigaciones de “por qué no posiciona mi página” dan vueltas en círculo.
“Crawleada pero no indexada es un problema de contenido. Descubierta pero no crawleada es un problema de prioridad de crawl. Ni siquiera descubierta es un problema de enlazado interno. Tres fallas distintas, tres arreglos distintos; Search Console te dice cuál estás viendo.”
El pipeline completo: crawl → render → indexar → posicionar
| Etapa | Qué pasa | Qué puede fallar |
|---|---|---|
| Descubrimiento | Googlebot encuentra la URL vía enlace interno, sitemap, enlace externo o envío manual | Sin enlace interno + sin sitemap = página huérfana |
| Crawl | Googlebot trae el HTML de la URL | Bloqueo de robots.txt, error 4xx/5xx del servidor, respuesta lenta |
| Render | Google ejecuta el JavaScript, construye el DOM final y extrae contenido + señales | Errores de JS, recursos bloqueados, contenido dinámico que no renderiza |
| Decisión de índice | Google decide si la página renderizada entra al índice | Calidad baja, duplicación, noindex, canonical apuntando a otra parte |
| Posicionamiento | Las páginas indexadas compiten en el retrieval para una consulta | Fuera del alcance de este artículo: ver el cluster del algoritmo de Google |
Cada etapa tiene una señal en Search Console. Los problemas de descubrimiento y crawl aparecen en el informe de Estadísticas de Crawl y en el informe de Páginas (“Descubierta — actualmente sin indexar”). Los problemas de render aparecen en la herramienta Inspeccionar URL al comparar el HTML con el HTML renderizado. Las decisiones de índice aparecen en el informe de Páginas (“Rastreada — actualmente sin indexar”).
Etapa 1: Descubrimiento
Googlebot encuentra URLs nuevas a través de tres canales primarios:
- Enlaces internos desde páginas ya crawleadas en tu dominio.
- XML sitemaps enviados vía Search Console.
- Enlaces externos desde otros dominios, además del envío de URL desde la herramienta Inspección de URL en Search Console.
Una página que no aparece en ninguno de esos canales es una “página huérfana”: Google no sabe que existe. El arreglo es el más simple de todo este artículo: agrega un enlace interno desde algún lugar alcanzable, agrega la URL a tu sitemap, o las dos cosas.
Etapa 2: Crawl
Una vez que Googlebot tiene la URL, intenta traerla. La descarga puede fallar por varias razones:
- Bloqueo de robots.txt. Común tras los lanzamientos, cuando las reglas de robots.txt de staging suben por accidente a producción.
- Errores 4xx. Los 404 y 410 son correctos para páginas borradas, pero se vuelven un problema cuando páginas válidas los devuelven por error.
- Errores 5xx. Problemas del lado del servidor: sobrecarga, caídas de aplicación, CDN mal configurado. Googlebot se repliega y vuelve a intentar; los 5xx persistentes degradan la URL.
- Respuesta lenta. Si el servidor tarda más de 10 a 15 segundos en responder, Googlebot puede abandonar la descarga.
- Topes de crawl budget en sitios grandes: Googlebot no traerá cada URL en cada visita.
El informe de Estadísticas de Crawl en Search Console muestra el volumen que Googlebot está trayendo, los códigos de respuesta que está viendo y el tiempo de respuesta promedio. Las anomalías ahí suelen predecir problemas de ranking antes de que se vean en el tráfico.
Etapa 3: Render
El Google de hoy renderiza páginas con un Chromium headless que ejecuta JavaScript antes de extraer contenido. Dos páginas pueden devolver HTML idéntico y DOMs renderizados muy distintos según lo que haga su JS. Las fallas de render aparecen como contenido faltante en la versión indexada aunque la URL haya sido crawleada con éxito.
Usa Search Console > Inspección de URL > Probar URL en vivo > Ver página probada > Captura + HTML. Si el HTML renderizado no coincide con lo que ven los usuarios en el navegador, Google tampoco puede ver el contenido faltante. Causas comunes:
- JavaScript que bloquea el render y se queda sin tiempo antes de que el bot termine de renderizar.
- Contenido cargado después de la interacción del usuario (click-to-reveal, scroll infinito sin prerender basado en IntersectionObserver).
- Recursos bloqueados por robots.txt: archivos JS, archivos CSS, endpoints de API críticos para el resultado renderizado.
- Fallas de API durante el render: contenido traído desde un backend al que el bot no puede llegar.
Revisa el artículo dedicado de JavaScript SEO para la lista de arreglos de render más a fondo.
Etapa 4: Decisión de índice
Una vez renderizada, Google decide si vale la pena conservar la página en el índice. Los dos estados de rechazo más comunes en Search Console:
| Estado | Qué significa | Arreglo típico |
|---|---|---|
| Rastreada — actualmente sin indexar | Google trajo + renderizó la página y la rechazó. Razones de calidad, duplicación o contenido pobre. | Mejorar la calidad del contenido, agregar valor único, consolidar URLs duplicadas, refrescar páginas desactualizadas |
| Descubierta — actualmente sin indexar | Google sabe que la URL existe pero no la trajo. Razón de prioridad de crawl o de presupuesto. | Aumentar el enlazado interno desde páginas con autoridad; reducir URLs de bajo valor en la ruta de crawl; revisar la velocidad del sitio |
| Duplicada sin canonical seleccionado por el usuario | Google decidió que esta página es duplicada de otra, sin canonical configurado | Configurar canonical explícito, consolidar duplicados o mejorar la unicidad |
| Página con redirección | La URL redirige a otra URL: el destino es lo que se indexa | Normalmente correcto; verifica que el destino sea el canonical previsto |
| Soft 404 | La página devuelve HTTP 200 pero Google la ve como 'no encontrada' | Devolver 404/410 correcto, restaurar contenido o redirección 301 |
| Bloqueada por robots.txt | robots.txt impide el crawl | Ajustar robots.txt si el bloqueo no era intencional |
| Excluida por etiqueta 'noindex' | La página tiene meta noindex o header X-Robots-Tag | Quitar noindex si la exclusión no era intencional |
Crawl budget: cuándo importa
Para sitios con menos de unas 10,000 URLs, el crawl budget rara vez importa; Google puede crawlear todo el sitio con frecuencia. Para sitios más grandes —e-commerce con catálogos facetados profundos, marketplaces, SEO programático a escala— el crawl budget se vuelve una restricción real.
Síntomas de presión de crawl budget:
- URLs nuevas que tardan semanas en ser crawleadas e indexadas.
- Contenido actualizado que no se refresca en el índice durante mucho tiempo.
- Grandes cantidades de URLs en “Descubierta — actualmente sin indexar”.
- Estadísticas de Crawl que muestran que el bot gasta la mayor parte de su cuota en URLs de bajo valor (permutaciones de navegación facetada, variantes de orden, combinaciones de filtros).
Mitigaciones:
- Bloquear parámetros de URL de bajo valor vía robots.txt o
noindex. - Usar etiquetas canonical para consolidar duplicados en lugar de dejar que se crawleen todas las variantes.
- Podar URLs de peso muerto (páginas de producto de cola larga sin tráfico, listados de archivo que nadie lee).
- Mejorar la velocidad del sitio: respuestas más rápidas = más URLs crawleadas por sesión.
- Usar XML sitemaps para señalar URLs prioritarias.
El flujo de diagnóstico en Search Console
Cuando una página no posiciona y sospechas problemas de crawl/indexación, sigue esta secuencia:
- 1. Inspección de URL. Pega la URL y revisa el estado “La URL está en Google”. Si no está indexada, la herramienta de inspección te dice por qué.
- 2. Informe de Páginas > filtra al patrón de URL relevante. Mira en qué cubeta cae la URL (indexada, rastreada-sin-indexar, descubierta-sin-rastrear, etc).
- 3. Informe de Estadísticas de Crawl. Confirma que Googlebot llega al sitio sin problemas, que los códigos de respuesta son sanos y que el tiempo de respuesta promedio es de pocos segundos.
- 4. Tendencias de cobertura. Las caídas súbitas en el conteo de páginas indexadas suelen ser una regresión de robots.txt, una etiqueta noindex que se desplegó al sitio entero o un canonical apuntando a otra parte.
- 5. Inspección de URL > Probar URL en vivo. Confirma que el HTML renderizado coincide con lo que esperas; verifica si el bot puede renderizar el contenido.
El veredicto
El crawling y la indexación son dos etapas, no una. Una página puede fallar en descubrimiento (sin enlace, sin sitemap), en crawl (bloqueo de robots, 4xx/5xx), en render (problemas de JS) o en la decisión de índice (calidad, duplicación, canonical). Cada falla aparece en una superficie distinta de Search Console y exige un arreglo distinto. No adivines: diagnostica. Las herramientas están ahí; la mayoría de los equipos simplemente no las usa de manera sistemática.
Preguntas frecuentes
Preguntas frecuentes
Respuestas rápidas a lo que nos preguntan antes de cada prueba.
El crawling es la etapa de descubrimiento: Googlebot sigue enlaces, trae el HTML y decide qué renderizar. La indexación es la etapa de almacenamiento: después de renderizar, Google decide si vale la pena conservar la página en el índice y la guarda con las señales extraídas (contenido, schema, canonical, enlaces). Una página puede ser crawleada pero no indexada (Google la vio y la rechazó) y una página puede no llegar a ser crawleada (sin enlace interno, bloqueada por robots, el servidor devolvió un error). Cada falla pide un arreglo distinto.
En este clúster