Screaming Frog Tutorial 2: So überprüfst Du Deine XML-Sitemap

In diesem zweiten Teil unseres Screaming Frog Tutorials erklären wir Dir Schritt für Schritt, wie Du mithilfe dieses Tools Deine XML-Sitemap überprüfst.

Was ist die XML-Sitemap?

Die XML-Sitemap ist eine Datei im XML-Format, die alle indexierbaren Unterseiten und Dateien einer Website enthalten sollte. Das XML-Format macht es möglich, dass Webcrawler – und damit auch der Google-Bot – alle Inhalte einer Website standardisiert ausgelesen werden können. Die XML-Sitemap sollte aktuell gehalten, neue Seiten dort sofort eingetragen, nicht mehr vorhandene Seiten dort gelöscht werden.

Gerade bei Websites mit vielen Unterseiten oder Dateien hilft eine XML-Sitemap dem Google-Bot, alle relevanten Unterseiten zu erreichen. Deswegen solltest Du in der Google Search Console Deine XML-Sitemap hinterlegen, die Google dann ständig und automatisiert abrufen kann.

Warum sollte ich die XML-Sitemap auf Richtigkeit und Vollständigkeit prüfen?

Moderne Content Management Systeme können die XML-Sitemap automatisch erstellen und aktuell halten. Allerdings sehen wir in der Praxis bei SEO-Audits häufig fehlerhafte XML-Sitemaps. Wenn diese z.B. Dateien mit dem Statuscode 4XX enthalten würden, verschwendet der Google Crawler, wenn er der XML-Sitemap folgt, Crawlbudget.

Idealerweise enthält die XML Sitemap nur diese Assets, die auch über die HTML – Seiten und die Navigationen über die internen Verlinkungen erreichbar sind.

Wie hilft Dir der Screaming Frog SEO Spider dabei?

Der Webcrawler Screaming Frog SEO Spider crawlt eine Webseite, extrahiert deren Informationen und sammelt diese in seiner Datenbank zur Analyse und Weiterverarbeitung, z.B. in Excel. Für kleine Webseiten bis 500 URLs ist der Screaming Frog kostenlos. Es lohnt sich aber auf alle Fälle, wenn Du eine Jahreslizenz für 149 £ kaufst. Denn nur die Paid Variante erlaubt es Dir, Tools wie die Google Search Console und Google Analytics zu integrieren und die reinen Crawl-Daten mit anderen Metriken zu verknüpfen. Hier im Tutorial benötigen wir aber erstmal nur die Grundfunktionen des Programms.

So findest Du heraus, welche URLs in der XML-Sitemap vorhanden, aber eigentlich nicht intern auf der Webseite verlinkt sind!

So gehst Du genau vor – die Vorbereitungen

Befolge einfach unsere Schritt für Schritt-Anleitung, um in Deiner XML-Sitemap URLs zu identifizieren, die nicht intern auf Deiner Website verlinkt sind. Auf den Screenshots kannst Du den Prozess einfach nachverfolgen und dann für Dein Projekt umsetzen.

1. SEO Spider Einstellungen vornehmen

Für die Aufgabe benötigst Du den LIST-Mode des Screaming Frogs. Du lädst dann die XML-Sitemap, im Beispiel unten die https://www.sumago.de/sitemap_index.xml, über UPLOAD ➤ DOWNLOAD XML-SITEMAP in die Liste. In unserem Fall hat das WordPress Plugin YOAST SEO einen Sitemap-Index erstellt, die Sitemap also noch einmal strukturiert. Der Screaming Frog ist trotzdem in der Lage, alle URLs in die Liste zu übernehmen.

screamingfrog xml sitemap upload

2. Liste crawlen

Wenn Du danach auf OK drückst, crawlt der Screaming Frog die Liste durch, und Du erhältst alle Daten zu den jeweiligen URLs, die in der XML-Sitemap verlinkt sind.

3. Ergebnisse bewerten

Sobald der Spider fertig ist, sortierst Du die Ergebnisse der Registerkarte ‚Internal‘ nach ‚Statuscode‘. Alle 4xx-, 3xx, 5xx – oder anderen Statuscodes kannst Du so leicht anzeigen lassen.

screaming frog xml sitemap status codes

Hier ein Beispiel: In der Grafik oben siehst Du, dass wir in der XML-Sitemap einige Bilder verlinkt haben, die den Status Code 404 zurückliefern. Eigentlich sollte das YOAST SEO Plugin Bilder, die gelöscht oder verändert wurden, automatisch aus der XML-Sitemap entfernen. Wir müssen nun entscheiden, ob wir Ressourcen für die Entfernung der Fehler bereitstellen wollen oder nicht.

So findest Du heraus, welche URLs der Website in der XML-Sitmap fehlen!

So gehst Du genau vor – die Vorbereitungen

Auch hier leiten wir Dich Schritt für Schritt durch den Prozess, den Du auf den Screenshots auch visuell nachvollziehen kannst.

1. SEO Spider-Einstellungen vornehmen

Für die Aufgabe benötigst Du den Spider-Mode des Screaming Frog SEO Spider. Den musst Du nun folgerndermaßen konfigurieren: Du setzt das Häkchen bei ‚XML Sitemaps‘ – ‚Crawl Linked XML Sitemaps‘ und das Häkchen bei ‚Crawl These Sitemaps‘ und trägst in das Kästchen die Sitemap-URL ein.

screaming frog xml sitemap spider configuration

2. Crawl Analysis-Einstellungen vornehmen

Damit nach dem Crawl der Vergleich zwischen den Seiten und den Inhalten in der XML-Sitemap vorgenommen werden können, musst Du dies konfigurieren. Geh dazu unter dem Reiter ‚Crawl Analysis‘ auf ‚Configure‘, und schau nach, ob das Häkchen bei ‚Sitemaps‘ gesetzt ist.

screaming frog xml sitemap spider crawl analysis

3. Webseite crawlen

Nun gibst Du die zu untersuchende Domain in das Startfeld ein und drückst auf ‚START‘.

4. Ergebnisse bewerten

Wenn der Crawl beendet ist, klickst Du unter ‚Crawl Analysis‘ auf ‚START‘. Nun vergleicht der Screaming Frog alle Unterseiten und Dateien im Crawl und in der Sitemap. Wenn Du nun rechts im Reiter ‚Overview‘ herunterscrollst bis ‚Sitemaps‘, siehst Du den Eintrag ‚URLs not in Sitemap‘. Ein Klick darauf filtert die URL-Liste zu allen Einträgen der URLs, die einen Statuscode 200 haben, aber nicht in der Sitemap aufgeführt sind. Nun solltest Du bewerten, ob Du Ressourcen in die Beseitigung der Fehler investieren möchtest.

screaming frog xml sitemap spider urls nicht in sitemap

Fazit

Korrekte XML-Sitemaps sind wichtig, damit Crawler wie der Google-Bot eine Webseite, gerade bei größeren Projekten, schnell und effizient crawlen und indexieren kann. Ein Crawl mit dem Screaming Frog SEO Spider und einige wenige Klicks, Anpassungen und der Export helfen Dir, die SEO-Hygiene Deiner Webseite zu verbessern. Damit zeigst Du Google ein technisch möglichst  sauber aufgesetztes Projekt.