05

SEO técnico

Capítulo 05 / 09

XML sitemaps

Qué hacen realmente los sitemaps (y qué no), qué meterles, qué dejar fuera y la estructura que escala de un sitio de 50 páginas a un marketplace de 5 millones de URLs.

8 min de lecturaPublicado 4 may 2026
XML sitemaps

Los XML sitemaps son simples en concepto y se malentienden de forma consistente en la práctica. Son una pista para los buscadores sobre qué URLs importan: nada más, nada menos. No suben rankings, no garantizan indexación y no resuelven problemas de calidad de contenido. Lo que sí hacen es darle a los buscadores una lista curada de URLs canónicas que quieres que se crawleen, y darte un informe de cobertura de Search Console limpio sobre el cual puedes actuar.

Un sitemap no es una solicitud para que Google indexe tus URLs. Es una pista de que tú consideras que esas URLs son importantes. La calidad, la duplicación y el crawl budget siguen decidiendo si el índice las acepta.

Lo que sí hacen los sitemaps, y lo que no

Lo que SÍ hacenAyudar a los buscadores a descubrir URLs que de otro modo se les pasarían
Lo que NO hacenForzar la indexación: las revisiones de calidad y duplicación siguen aplicando
Lo que SÍ hacenAcelerar el crawl de URLs nuevas agregadas al sitemap
Lo que NO hacenSubir rankings: son una pista de descubrimiento, no una señal de ranking
Lo que SÍ hacenSacar a la superficie datos de cobertura en Search Console para auditar de manera sistemática
Lo que NO hacenReemplazar el enlazado interno: las páginas huérfanas siguen posicionando débil aunque estén en el sitemap
Lo que SÍ hacenPermitir pistas de última modificación (lastmod) para que se detecte el refresh
Lo que NO hacenAnular etiquetas noindex o bloqueos de robots.txt
Lo que SÍ hacenEscalar vía archivos de sitemap-index para catálogos grandes
Lo que NO hacenDisculpar una arquitectura mala: son complemento del enlazado interno, no sustituto

Estructura del sitemap: lo básico

Un sitemap mínimo es un XML que lista cada URL con metadata opcional:

<url>
  <loc>https://www.ejemplo.com/pagina/</loc>
  <lastmod>2026-05-04</lastmod>
  <changefreq>monthly</changefreq>
  <priority>0.8</priority>
</url>

En la práctica:

  • loc: requerido. La URL canónica completa.
  • lastmod: muy recomendado. La fecha en que el contenido cambió de manera significativa. Google la usa para detectar refresh. No mientas: actualizar lastmod en cada deploy sin cambiar contenido entrena a Google para que lo ignore.
  • changefreq: Google ha dicho públicamente que casi siempre se ignora; se puede omitir sin riesgo.
  • priority: también se ignora casi siempre; se puede omitir sin riesgo.

Los sitemaps modernos suelen incluir solo loc y lastmod. Cualquier cosa adicional es teatro.

Qué incluir y qué excluir

El modelo mental: el sitemap es la lista curada de cada URL que quieres indexada y de la que estarías orgulloso si posicionara. Si no quisieras que una URL apareciera en Google, no tiene nada que hacer en tu sitemap.

Incluir

  • Home canónica y todas las landing pages canónicas.
  • Páginas de cluster, páginas hub, páginas de categoría.
  • Todas las URLs de artículo / blog post / academia.
  • Páginas de detalle de producto (solo las canónicas).
  • Páginas de servicio, páginas de ubicación, páginas de comparación.
  • Cualquier contenido generado por usuarios que hayas decidido hacer crawleable (páginas de reseñas, perfiles con contenido sustancial).

Excluir

  • Páginas con meta tag noindex.
  • URLs bloqueadas por robots.txt.
  • Duplicados no canónicos: solo entra el canónico.
  • Páginas de archivo paginadas (/page/2/, /page/3/, etc).
  • Variantes con parámetros (orden, filtro, tracking): solo la URL canónica limpia.
  • Páginas de resultados de búsqueda interna.
  • Páginas de login, signup, gracias, confirmación, cuenta.
  • URLs de redirección: apunta al destino, no a la redirección.
  • Candidatas a soft-404 y páginas que devuelven 4xx/5xx.
  • Versiones para imprimir, páginas AMP (si tienen URL aparte), páginas del subdominio m. móvil.

Archivos sitemap-index para sitios más grandes

Los límites de Google por archivo de sitemap:

  • Máximo 50,000 URLs por sitemap.
  • Máximo 50 MB de tamaño de archivo sin comprimir.

Si rebasas cualquiera de los dos límites, divide en varios archivos de sitemap referenciados desde un sitemap-index. El patrón de índice que usa la mayoría de los equipos:

  • /sitemap.xml: el índice, referencia todos los sub-sitemaps
  • /sitemap-articles.xml: todos los artículos de academia / blog
  • /sitemap-products.xml: todas las páginas canónicas de detalle de producto
  • /sitemap-categories.xml: todas las páginas de categoría y hub
  • /sitemap-locations.xml: para negocios con varias ubicaciones

Dividir por tipo de contenido vuelve directamente accionable el informe de cobertura de Search Console: puedes ver de un vistazo si el problema está en artículos, productos o categorías. Un sitemap monolítico te obliga a filtrar a mano.

Envío y validación

  • 1. Referencia el sitemap en robots.txt: agrega Sitemap: https://www.ejemplo.com/sitemap.xml al final. Le dice a los crawlers dónde buscar.
  • 2. Envíalo vía Search Console: sección de Sitemaps. Google lo lee y reporta cobertura.
  • 3. Valida el formato: Search Console marca errores de sintaxis. Lighthouse y validadores en línea (xml-sitemaps.com, sitemaps.org/protocol.html) revisan que esté bien formado.
  • 4. Monitorea Search Console > Sitemaps: revisa los conteos de enviados contra indexados e investiga las brechas.
  • 5. Reenvía cuando haya cambios mayores de contenido: Google sondea el sitemap de forma automática; reenviarlo a mano acelera el descubrimiento para cambios urgentes.

Errores comunes en sitemaps

  • Incluir URLs duplicadas no canónicas. El sitemap debe ser la lista canónica; los duplicados diluyen la señal.
  • Incluir URLs con noindex. Confunde a Google: a la vez le estás diciendo “indexa esto” y “no indexes esto”.
  • Valores de lastmod rancios. O los actualizas en cada deploy (entrena a Google para que ignore el campo) o no los actualizas nunca (Google nunca vuelve a crawlear el contenido fresco).
  • Sitemap que devuelve 4xx/5xx. Search Console lo marca; el bot no puede leerlo; no se descubre nada.
  • Sitemap no referenciado en robots.txt. El descubrimiento sigue funcionando vía Search Console, pero otros crawlers (Bing, bots de buscadores con IA) pueden no encontrarlo.
  • Olvidar actualizar el sitemap cuando cambia el contenido. Especialmente común en sitemaps escritos a mano; la autogeneración desde el CMS / framework lo resuelve.

El veredicto

Un XML sitemap es una pista de descubrimiento curada. Le dice a los buscadores qué URLs consideras canónicas y dignas de crawlear, y te da un informe de cobertura en Search Console que puedes auditar de manera sistemática. No garantiza la indexación, no sube rankings y no reemplaza el enlazado interno. Constrúyelo solo con URLs canónicas, indexables y valiosas; divide por tipo de contenido cuando excedas los límites; referéncialo desde robots.txt y envíalo vía Search Console. Después vigila el informe de cobertura: ahí es donde la mayoría de los problemas reales de crawl asoman primero.

Preguntas frecuentes

Preguntas frecuentes

Respuestas rápidas a lo que nos preguntan antes de cada prueba.

Le dice a los buscadores qué URLs consideras lo suficientemente importantes para crawlear. Es una pista de descubrimiento: no es señal de ranking ni garantía de indexación. Google puede ignorar las URLs de tu sitemap si fallan revisiones de calidad, duplicación o técnicas. Las URLs que no están en tu sitemap igual pueden descubrirse e indexarse vía enlaces internos. Considera el sitemap como uno de tres canales de descubrimiento junto al enlazado interno y los enlaces externos: importante, pero no toda la historia.