ROBOTS.TXT

eine große Bedeutung besitzt

Welche Seiten deiner Domain sollen gecrawlt werden und welche nicht?

ROBOTS.TXT erklärt von SUMAGO

Als robots.txt wird eine Textdatei bezeichnet, die für den Aufbau eines Internetprojektes eine große Bedeutung besitzt. Mithilfe dieser Datei kannst du festlegen, welche Verzeichnisse und Unterseiten von der Suchmaschine indexiert werden dürfen und welche von diesem Vorgang ausgeschlossen bleiben. Als Webmaster hast du mit der Datei robots.txt die Möglichkeit, das Crawlen ganz bewusst zu steuern. Für den Ausschluss aus der Indexierung können mehrere Gründe sprechen. Häufig handelt es sich um Websites, die sich noch im Aufbau befinden oder Unterseiten mit privaten Inhalten.

FUNKTIONSWEISE DES ROBOTS EXCLUSION STANDARD PROTOKOLLS

Zur Gewährleistung des Ausschlusses bestimmter Bereiche einer Webseite vom Crawlen wurde im Jahr 1994 der Robots Exclusion Standard entwickelt. In diesem Protokoll ist festgelegt, dass der Robot einer Suchmaschine, der auch als User Agent bezeichnet wird, zunächst im Root-Verzeichnis einer Webseite nach der robots.txt Datei sucht. Erst nachdem die dort enthaltenen Informationen ausgelesen und analysiert wurden, startet die Indexierung. Damit dieser Vorgang reibungslos verläuft, muss die robots.txt Datei im Root-Verzeichnis der Webseite abgelegt sein und exakt den Dateinamen tragen. Wichtig ist, dass der Name der Datei vollständig in Kleinbuchstaben geschrieben sein muss. Dabei musst du beachten, dass robots.txt kein Garant für eine Geheimhaltung ist, da die Regeln nicht von allen Crawler beachtet werden.

ERSTELLUNG EINER ROBOTS.TXT DATEI

Das Erstellen einer robots.txt Datei ist einfach. Du benötigst dafür lediglich einen Texeditor. Alternativ kannst du auf kostenfreie Tools aus dem Internet zurückgreifen, die den Prozess automatisch durchführen. Auch Google stellt in seinen Webmastertools einen Generator zur Verfügung, den du allerdings nur mit einem gültigen Google-Account nutzen kannst. Der Aufbau jeder robots.txt Datei erfolgt nach einem bestimmten Schema, wobei sich der Datensatz aus zwei Teilen zusammensetzt. Im ersten Teil wird der User Agent benannt, für den die Anweisungen gelten sollen, während im zweiten Teil die Anweisungen selbst hinterlegt werden. In der Praxis sieht die Formulierung des ersten Befehls für den Google-Crawler folgendermaßen aus:

User-agent: Googlebot
Disallow:

Damit ist klar, dass sich der Datensatz auf den Googlebot bezieht. Wird hinter der Bezeichnung „Disallow“ kein Verzeichnis genannt, erlaubst du Google die Indexierung aller Webseiten. Möchtest du die gesamte Seite für die Indexierung sperren, benutzt du einen einzelnen Slash.

User-agent: Googlebot
Disallow: /

Wenn du bestimmte Verzeichnisse oder Unterseiten für alle Robots und damit für sämtliche Suchmaschinen ausschließen möchtest, verwendest du einen Platzhalter, der als Wildchar bezeichnet wird. Die robots.txt Datei sieht in dem Fall folgendermaßen aus:

User-agent: *
Disallow: /beispielverzeichnis/

Auch das gezielte Ausschließen mehrerer User Agents ist mit der robots.txt Datei möglich. Dabei werden die Robots untereinander angegeben. Sollen die User Agents von Google, Yahoo und MSN / Bing ausgeschlossen werden, erfolgt die Eingabe nach folgendem Muster:

User-agent: Googlebot
User-agent: slurp
User-agent: bingbot
Disallow:

Nach dem gleichen Schema verfährst du, wenn mehrere Unterseiten nicht indexiert werden sollen. In diesem Fall erstellst du für jedes Verzeichnis eine eigene Disallow-Zeile.

User-agent: Googlebot
Disallow: /beispielverzeichnis/
Disallow: /beispielverzeichnis-1/
Disallow: /beispieldatei.html

AUSWIRKUNGEN AUF DIE SUCHMASCHINENOPTIMIERUNG

Im SEO-Bereich kann die Verwendung von robots.txt bestimmte Auswirkungen haben. Wenn du einzelne Webseiten von der Indexierung ausschließt, können sie nicht ranken und erscheinen nicht in den Suchergebnislisten. Bezieht sich die Einschränkung auf viele Unterseiten, kann dies negative Folgen für die Platzierung deiner Webseite in den SERPs haben. Andererseits kann ein zu freizügiger Umgang zur Indexierung von Webseiten mit Duplicate Content führen, was in der Regel eine negative Bewertung durch Google mit sich bringt. Grundsätzlich gilt jedoch, dass bei einem korrekten Einsatz von robots.txt keine gravierenden Folgen für das Ranking zu befürchten sind. Du musst dir lediglich im Klaren darüber sein, dass die URL ausgeschlossener Unterseiten nicht im Index der Suchmaschine vorkommt und demzufolge von den Nutzern nicht gefunden werden kann.

Weiterführende Links:

Google Search Console-Hilfe: Informationen zur robots.txt-Datei

Artikel: Verbesserungen des Robots-Exclusion-Protokolls im Google Webmaster-Blog (10.6.2008)

JA, ICH WILL MEHR ERFAHREN!




Ich bitte um Informationen zu (bitte auswählen):

Mit dem Absenden dieses Kontaktformulars erklären Sie sich damit einverstanden, dass Ihre Daten zur Bearbeitung Ihres Anliegens verwendet und gespeichert werden. Weitere Informationen und Widerrufshinweise finden Sie in unserer Datenschutzerklärung