powered by SUMAGO network

Crawler/
Webcrawler

Fragen zum Thema
SEO & Content Marketing?

Marketing Glossar | SUMAGO network

Crawler/Webcrawler - Was ist das?

Als Crawler werden Computerprogramme bezeichnet, die automatisch das Internet nach Dokumenten und Webseiten durchsuchen. In der Praxis werden Crawler auch „Bot“ oder „Spider“ genannt. Vorrangig kommen Crawler bei Suchmaschinen zum Einsatz, wo sie nach der Analyse von Webseiten eine Sortierung nach vorher definierten Kriterien vornehmen. Die sich ständig wiederholenden Vorgänge laufen nach der Programmierung vollkommen autonom ab.

Crawler/Webcrawler - Was ist das?

Entwicklung der Crawler

Die Geschichte der ersten Crawler reicht zurück bis in das Jahr 1993. Damals wurde am Massachusetts Institute of Technology der erste Webcrawler mit dem Namen World Wide Web Wanderer entwickelt, dessen Aufgabe darin bestand, das Wachstum des Internets zu messen. Die erste für alle Internetnutzer erreichbare Suchmaschine mit dem Namen Webcrawler ging 1994 an den Start. Sie war die erste Suchmaschine mit Volltextindex. Schnell gewann die Suchmethode in der Folge an Bedeutung und die Anzahl der verfügbaren Suchmaschinen nahm stetig zu. In der Gegenwart gibt es zahlreiche Crawler, die bis auf geringfügige Abweichungen nach demselben Grundprinzip arbeiten.

Arbeitsweise eines Crawlers

Ein Crawler wiederholt ständig die immer gleichen Arbeitsschritte und arbeitet völlig selbstständig. Das Computerprogramm durchforstet das Internet nach Informationen, die anschließend in bestimmte Kategorien unterteilt und indexiert werden. Auf diese Weise sind die gefundenen Informationen stets verfügbar. Die Vorgehensweise eines Crawlers entspricht grundsätzlich dem Surfverhalten der Webuser. Der Crawler gelangt über Hyperlinks zu weiteren Webseiten, wobei sämtliche Adressen gespeichert und indexiert werden. Auf den Index greift bei einer klassischen Suchmaschine eine spezielle Software zu. Die Arbeitsschritte des Crawlers werden von den Programmierern festgelegt. Die Art der Informationen, auf die der Crawler im Internet zugreift, wird durch die Aufgabenstellung definiert. Die weltweit größte Suchmaschine Google setzt zahlreiche Crawler ein, die täglich das Internet durchsuchen, um den Nutzern möglichst genaue Suchergebnisse zur Verfügung zu stellen.

Einsatzmöglichkeiten für Crawler

Die Einsatzmöglichkeiten für Webcrawler sind vielfältig. Hauptsächlich werden sie von Suchmaschinen verwendet, um das Internet nach Informationen zu durchsuchen, die anschließend den Usern zugänglich gemacht werden. Spezielle Computerprogramme werden als Focused Crawler bezeichnet. Sie sind auf die Suche nach speziellen Themengebieten fokussiert und indexieren nur Webseiten, die für ein bestimmtes Thema Relevanz besitzen.

 

Spezielle Crawler tragen die Bezeichnung Harvester, was in der deutschen Übersetzung so viel wie „Erntemaschine“ bedeutet. Mithilfe dieser Software wird das Internet gezielt nach E-Mail-Adressen durchsucht, die nach dem Auffinden zu Vermarktungszwecken gesammelt und gespeichert werden. Häufig werden die Mailadressen für den Versand von Spam-Werbemails missbraucht. Webseitenbetreiber versuchen sich gegen das „Ernten“ von E-Mail-Adressen zu schützen, indem die Kontaktadresse durch Leerzeichen oder die Verwendung von Wörtern für Bots unleserlich gemacht wird.

 

Bei der Webanalyse werden Crawler eingesetzt, um Daten zu Seitenaufrufen zu sammeln oder eingehende bzw. ausgehende Links zu analysieren. Darüber hinaus werden Webcrawler von Vergleichsportalen eingesetzt, die Preis- oder Leistungsvergleiche zur Verfügung stellen. Nutzer, die nach der günstigsten Versicherung, dem billigsten Staubsauger oder dem besten Urlaubsschnäppchen suchen, werden auf derartigen Portalen fündig. Die Daten und Preise tragen Crawler durch die Durchforstung aller themenrelevanten Webseiten zusammen. Selbst bei der Suche nach urheberrechtlich geschützten Inhalten kommen Crawler zum Einsatz.

Verhindern der Indexierung

Webseitenbetreiber, die bestimmte Bereiche oder Seiten eines Webprojektes von der Indexierung ausschließen wollen, haben die Möglichkeit, Crawler auszusperren. Über die Datei robots.txt wird dem Crawler mitgeteilt, dass die betreffende Webseite nicht indexiert werden soll. Einen 100-prozentigen Schutz vor der Indexierung bietet dieses Verfahren allerdings nicht, da die Datei nicht von allen Crawlern beachtet wird. Dies gilt vor allem für Webseiten mit einem umfassenden Linkprofil. Der Bot gelangt in diesem Fall über Backlinks auf die Seite und indexiert sie unter Umständen. In den Ergebnislisten wird sie ohne Beschreibungstext veröffentlicht.

Weiterführende Links:

Google Search Console-Hilfe: Googlebot

Bing Webmaster Help & How-To: Übersicht der von Bing verwendeten Crawler

Kann ich dir im Marketing helfen?

*“ zeigt erforderliche Felder an

Ich bin dein erster Ansprechpartner:

Inhaber & Geschäftsführer

Marco Janck

SEO Betreuung ist Chefsache

Telefon:
030 | 9599987-20
E-Mail:
support@sumago.de
Adresse:
Motzener Str. 12-14
12277 Berlin