Extrator de URLs do sitemap

Extrai URLs de sitemap.xml ou robots.txt; exporta JSON, CSV ou texto

Precisa de um rascunho de llms.txt a partir de uma lista de URLs? Use o Construtor llms.txt.

Resultados (0)

Ainda sem URLs — cole o XML e clique em Analisar, ou carregue o exemplo.

Pull URLs out of sitemap.xml or robots.txt fast

Sitemaps are the source of truth for what a site wants indexed. Extracting their URLs gives you a clean list for SEO audits, archive snapshots, llms.txt builders, AI training datasets, or migration checks — without writing a parser yourself or paying for a desktop tool to do it.

Use the extractor when you need to

Audit a competitor's site structure

Pull every URL from their sitemap to map out content categories and depth in minutes.

Build a list for an llms.txt file

Extract URLs and feed them into the llms.txt builder to publish an LLM-friendly content map.

Migrate or archive a site

Pull all URLs before a redesign so you can set up redirects or capture an archive of the old structure.

How to extract sitemap URLs

  1. 1

    Paste sitemap.xml or robots.txt content, or fetch a public URL when CORS allows.

  2. 2

    Click Extract to list every URL with its lastmod, priority, and changefreq if present.

  3. 3

    Filter or sort the list, then export as JSON, CSV, or plain text.

Common extraction workflows

Run a quick SEO audit

Pull every indexed URL and look for thin pages, duplicates, or missing content categories.

Bootstrap a llms.txt rollout

Extract sitemap URLs once and use them as the foundation of your llms.txt content list.

Plan a content migration

Capture the full URL inventory before changing CMS or restructuring sections.

Ferramentas relacionadas

Perguntas frequentes

A maioria dos sites não envia headers de CORS permitindo que outros sites leiam o sitemap.xml. Isso é normal. Use Fetch quando funcionar (por exemplo, no mesmo site ou com CORS aberto) ou abra o sitemap em uma nova aba, copie o XML e cole aqui, ou faça upload do arquivo — essas opções sempre funcionam.

Um sitemap index é um XML que lista outros arquivos de sitemap, em vez de listar todas as URLs de páginas. Se após o parse você vir principalmente links .xml, faça fetch/cole o XML de cada sitemap filho para coletar as URLs reais das páginas.

Sim. Cole o conteúdo do seu robots.txt. A ferramenta encontra linhas Sitemap: e lista essas URLs. Você pode tentar Fetch em cada URL de sitemap quando o CORS permitir.

Não. O parsing e a exportação rodam totalmente no seu navegador. Nada é enviado para os servidores do JSONTech.

Use a ferramenta llms.txt Builder: copie a lista de URLs extraídas, cole lá, adicione um título e uma descrição e faça o download do llms.txt.