Sitemap-URL-Extraktor
URLs aus sitemap.xml oder robots.txt extrahieren; Export als JSON, CSV oder Text
Brauchen Sie einen llms.txt -Entwurf aus einer URL-Liste? Nutzen Sie den llms.txt-Builder.
Ergebnisse (0)
Noch keine URLs — XML einfügen und Analysieren klicken, oder Beispiel laden.
Pull URLs out of sitemap.xml or robots.txt fast
Sitemaps are the source of truth for what a site wants indexed. Extracting their URLs gives you a clean list for SEO audits, archive snapshots, llms.txt builders, AI training datasets, or migration checks — without writing a parser yourself or paying for a desktop tool to do it.
Use the extractor when you need to
Audit a competitor's site structure
Pull every URL from their sitemap to map out content categories and depth in minutes.
Build a list for an llms.txt file
Extract URLs and feed them into the llms.txt builder to publish an LLM-friendly content map.
Migrate or archive a site
Pull all URLs before a redesign so you can set up redirects or capture an archive of the old structure.
How to extract sitemap URLs
- 1
Paste sitemap.xml or robots.txt content, or fetch a public URL when CORS allows.
- 2
Click Extract to list every URL with its lastmod, priority, and changefreq if present.
- 3
Filter or sort the list, then export as JSON, CSV, or plain text.
Keep going
Turn URLs into llms.txt
Feed the extracted URL list into a generator that builds a clean llms.txt for AI crawlers.
Encode URL components
Encode special characters before using URLs in queries or scripts.
Test URL endpoints
Send requests to extracted URLs to verify status, redirects, or content type.
Format the JSON export
Beautify the exported JSON for inclusion in docs or downstream pipelines.
Common extraction workflows
Pull every indexed URL and look for thin pages, duplicates, or missing content categories.
Extract sitemap URLs once and use them as the foundation of your llms.txt content list.
Capture the full URL inventory before changing CMS or restructuring sections.
Verwandte Tools
Häufig gestellte Fragen
Die meisten Websites senden keine CORS-Header, die anderen Websites erlauben, ihre sitemap.xml auszulesen. Das ist normal. Nutze Fetch, wenn es funktioniert (z. B. gleiche Site oder offene CORS-Policy), oder öffne die Sitemap in einem neuen Tab, kopiere das XML und füge es hier ein bzw. lade die Datei hoch — das funktioniert immer.
Ein Sitemap-Index ist eine XML-Datei, die andere Sitemap-Dateien auflistet, statt alle Seiten-URLs direkt zu enthalten. Wenn du nach dem Parsen überwiegend .xml-Links siehst, musst du die Child-Sitemaps jeweils fetchen oder deren XML einfügen, um die eigentlichen Seiten-URLs zu sammeln.
Ja. Füge den Inhalt deiner robots.txt ein. Das Tool findet Zeilen mit Sitemap: und listet die URLs auf. Du kannst anschließend für jede Sitemap-URL Fetch ausprobieren, sofern CORS es erlaubt.
Nein. Parsing und Export laufen vollständig in deinem Browser. Es wird nichts an JSONTech-Server gesendet.
Nutze das Tool llms.txt Builder: Kopiere deine extrahierte URL-Liste, füge sie dort ein, ergänze Titel und Beschreibung und lade anschließend llms.txt herunter.