Extractor de URLs de sitemap
Extrae URLs de sitemap.xml o robots.txt; exporta JSON, CSV o texto
¿Necesitas un borrador de llms.txt a partir de una lista de URLs? Usa el Constructor llms.txt.
Resultados (0)
Aún no hay URLs — pega el XML y pulsa Analizar, o carga el ejemplo.
Pull URLs out of sitemap.xml or robots.txt fast
Sitemaps are the source of truth for what a site wants indexed. Extracting their URLs gives you a clean list for SEO audits, archive snapshots, llms.txt builders, AI training datasets, or migration checks — without writing a parser yourself or paying for a desktop tool to do it.
Use the extractor when you need to
Audit a competitor's site structure
Pull every URL from their sitemap to map out content categories and depth in minutes.
Build a list for an llms.txt file
Extract URLs and feed them into the llms.txt builder to publish an LLM-friendly content map.
Migrate or archive a site
Pull all URLs before a redesign so you can set up redirects or capture an archive of the old structure.
How to extract sitemap URLs
- 1
Paste sitemap.xml or robots.txt content, or fetch a public URL when CORS allows.
- 2
Click Extract to list every URL with its lastmod, priority, and changefreq if present.
- 3
Filter or sort the list, then export as JSON, CSV, or plain text.
Keep going
Turn URLs into llms.txt
Feed the extracted URL list into a generator that builds a clean llms.txt for AI crawlers.
Encode URL components
Encode special characters before using URLs in queries or scripts.
Test URL endpoints
Send requests to extracted URLs to verify status, redirects, or content type.
Format the JSON export
Beautify the exported JSON for inclusion in docs or downstream pipelines.
Common extraction workflows
Pull every indexed URL and look for thin pages, duplicates, or missing content categories.
Extract sitemap URLs once and use them as the foundation of your llms.txt content list.
Capture the full URL inventory before changing CMS or restructuring sections.
Herramientas relacionadas
Constructor llms.txt
Crea un llms.txt inicial para crawlers de IA desde tu lista de URLs
URL codificar / decodificar
Codifica y decodifica componentes de URL de forma segura
Explorador de API
Prueba APIs REST en el navegador con respuestas JSON formateadas
Formateador JSON
Embellece y formatea JSON con sangría configurable
Preguntas frecuentes
La mayoría de sitios no envían headers CORS que permitan a otras webs leer su sitemap.xml. Es normal. Usa Fetch cuando funcione (por ejemplo, mismo sitio o CORS abierto), o abre el sitemap en una pestaña nueva, copia el XML y pégalo aquí, o sube el archivo: esas opciones siempre funcionan.
Un sitemap index es un archivo XML que lista otros sitemaps en lugar de incluir todas las URLs de páginas. Si al parsear ves principalmente enlaces .xml, tendrás que obtener o pegar el XML de cada sitemap hijo para recopilar las URLs reales.
Sí. Pega el contenido de tu robots.txt. La herramienta detecta líneas Sitemap: y lista esas URLs. Puedes probar Fetch en cada URL de sitemap cuando CORS lo permita.
No. El parseo y la exportación se ejecutan completamente en tu navegador. No se envía nada a los servidores de JSONTech.
Usa la herramienta llms.txt Builder: copia la lista de URLs extraídas, pégala allí, añade un título y una descripción, y descarga llms.txt.