Extrator de URLs do sitemap
Extrai URLs de sitemap.xml ou robots.txt; exporta JSON, CSV ou texto
Precisa de um rascunho de llms.txt a partir de uma lista de URLs? Use o Construtor llms.txt.
Resultados (0)
Ainda sem URLs — cole o XML e clique em Analisar, ou carregue o exemplo.
Pull URLs out of sitemap.xml or robots.txt fast
Sitemaps are the source of truth for what a site wants indexed. Extracting their URLs gives you a clean list for SEO audits, archive snapshots, llms.txt builders, AI training datasets, or migration checks — without writing a parser yourself or paying for a desktop tool to do it.
Use the extractor when you need to
Audit a competitor's site structure
Pull every URL from their sitemap to map out content categories and depth in minutes.
Build a list for an llms.txt file
Extract URLs and feed them into the llms.txt builder to publish an LLM-friendly content map.
Migrate or archive a site
Pull all URLs before a redesign so you can set up redirects or capture an archive of the old structure.
How to extract sitemap URLs
- 1
Paste sitemap.xml or robots.txt content, or fetch a public URL when CORS allows.
- 2
Click Extract to list every URL with its lastmod, priority, and changefreq if present.
- 3
Filter or sort the list, then export as JSON, CSV, or plain text.
Keep going
Turn URLs into llms.txt
Feed the extracted URL list into a generator that builds a clean llms.txt for AI crawlers.
Encode URL components
Encode special characters before using URLs in queries or scripts.
Test URL endpoints
Send requests to extracted URLs to verify status, redirects, or content type.
Format the JSON export
Beautify the exported JSON for inclusion in docs or downstream pipelines.
Common extraction workflows
Pull every indexed URL and look for thin pages, duplicates, or missing content categories.
Extract sitemap URLs once and use them as the foundation of your llms.txt content list.
Capture the full URL inventory before changing CMS or restructuring sections.
Ferramentas relacionadas
Construtor llms.txt
Crie um llms.txt inicial para crawlers de IA a partir da sua lista de URLs
URL codificar / decodificar
Codifique e decodifique componentes de URL com segurança
Explorador de API
Teste APIs REST no navegador com respostas JSON formatadas
Formatador JSON
Embeleza e formata JSON com recuo configurável
Perguntas frequentes
A maioria dos sites não envia headers de CORS permitindo que outros sites leiam o sitemap.xml. Isso é normal. Use Fetch quando funcionar (por exemplo, no mesmo site ou com CORS aberto) ou abra o sitemap em uma nova aba, copie o XML e cole aqui, ou faça upload do arquivo — essas opções sempre funcionam.
Um sitemap index é um XML que lista outros arquivos de sitemap, em vez de listar todas as URLs de páginas. Se após o parse você vir principalmente links .xml, faça fetch/cole o XML de cada sitemap filho para coletar as URLs reais das páginas.
Sim. Cole o conteúdo do seu robots.txt. A ferramenta encontra linhas Sitemap: e lista essas URLs. Você pode tentar Fetch em cada URL de sitemap quando o CORS permitir.
Não. O parsing e a exportação rodam totalmente no seu navegador. Nada é enviado para os servidores do JSONTech.
Use a ferramenta llms.txt Builder: copie a lista de URLs extraídas, cole lá, adicione um título e uma descrição e faça o download do llms.txt.