CRAWLER 

 Die kleinen Helfer der Suchmaschinen 

 Die kleinen Helfer der Suchmaschinen 

SUMAGO® ERKLÄRT CRAWLER»

Zurück zurück zum Onlinemarketing Wörterbuch

Als Crawler werden Computerprogramme bezeichnet, die automatisch das Internet nach Dokumenten und Webseiten durchsuchen. In der Praxis werden Crawler auch „Bot“ oder „Spider“ genannt. Vorrangig kommen Crawler bei Suchmaschinen zum Einsatz, wo sie nach der Analyse von Webseiten eine Sortierung nach vorher definierten Kriterien vornehmen. Die sich ständig wiederholenden Vorgänge laufen nach der Programmierung vollkommen autonom ab.

Inhaltsverzeichnis:


Crawler - Wiki


Entwicklung der Crawler

Die Geschichte der ersten Crawler reicht zurück bis in das Jahr 1993. Damals wurde am Massachusetts Institute of Technology der erste Webcrawler mit dem Namen World Wide Web Wanderer entwickelt, dessen Aufgabe darin bestand, das Wachstum des Internets zu messen. Die erste für alle Internetnutzer erreichbare Suchmaschine mit dem Namen Webcrawler ging 1994 an den Start. Sie war die erste Suchmaschine mit Volltextindex. Schnell gewann die Suchmethode in der Folge an Bedeutung und die Anzahl der verfügbaren Suchmaschinen nahm stetig zu. In der Gegenwart gibt es zahlreiche Crawler, die bis auf geringfügige Abweichungen nach demselben Grundprinzip arbeiten.

Arbeitsweise eines Crawlers

Ein Crawler wiederholt ständig die immer gleichen Arbeitsschritte und arbeitet völlig selbstständig. Das Computerprogramm durchforstet das Internet nach Informationen, die anschließend in bestimmte Kategorien unterteilt und indexiert werden. Auf diese Weise sind die gefundenen Informationen stets verfügbar. Die Vorgehensweise eines Crawlers entspricht grundsätzlich dem Surfverhalten der Webuser. Der Crawler gelangt über Hyperlinks zu weiteren Webseiten, wobei sämtliche Adressen gespeichert und indexiert werden. Auf den Index greift bei einer klassischen Suchmaschine eine spezielle Software zu. Die Arbeitsschritte des Crawlers werden von den Programmierern festgelegt. Die Art der Informationen, auf die der Crawler im Internet zugreift, wird durch die Aufgabenstellung definiert. Die weltweit größte Suchmaschine Google setzt zahlreiche Crawler ein, die täglich das Internet durchsuchen, um den Nutzern möglichst genaue Suchergebnisse zur Verfügung zu stellen.

Einsatzmöglichkeiten für Crawler

Die Einsatzmöglichkeiten für Webcrawler sind vielfältig. Hauptsächlich werden sie von Suchmaschinen verwendet, um das Internet nach Informationen zu durchsuchen, die anschließend den Usern zugänglich gemacht werden. Spezielle Computerprogramme werden als Focused Crawler bezeichnet. Sie sind auf die Suche nach speziellen Themengebieten fokussiert und indexieren nur Webseiten, die für ein bestimmtes Thema Relevanz besitzen.

Spezielle Crawler tragen die Bezeichnung Harvester, was in der deutschen Übersetzung so viel wie „Erntemaschine“ bedeutet. Mithilfe dieser Software wird das Internet gezielt nach E-Mail-Adressen durchsucht, die nach dem Auffinden zu Vermarktungszwecken gesammelt und gespeichert werden. Häufig werden die Mailadressen für den Versand von Spam-Werbemails missbraucht. Webseitenbetreiber versuchen sich gegen das „Ernten“ von E-Mail-Adressen zu schützen, indem die Kontaktadresse durch Leerzeichen oder die Verwendung von Wörtern für Bots unleserlich gemacht wird.

Bei der Webanalyse werden Crawler eingesetzt, um Daten zu Seitenaufrufen zu sammeln oder eingehende bzw. ausgehende Links zu analysieren. Darüber hinaus werden Webcrawler von Vergleichsportalen eingesetzt, die Preis- oder Leistungsvergleiche zur Verfügung stellen. Nutzer, die nach der günstigsten Versicherung, dem billigsten Staubsauger oder dem besten Urlaubsschnäppchen suchen, werden auf derartigen Portalen fündig. Die Daten und Preise tragen Crawler durch die Durchforstung aller themenrelevanten Webseiten zusammen. Selbst bei der Suche nach urheberrechtlich geschützten Inhalten kommen Crawler zum Einsatz.

Verhindern der Indexierung

Webseitenbetreiber, die bestimmte Bereiche oder Seiten eines Webprojektes von der Indexierung ausschließen wollen, haben die Möglichkeit, Crawler auszusperren. Über die Datei robots.txt wird dem Crawler mitgeteilt, dass die betreffende Webseite nicht indexiert werden soll. Einen 100-prozentigen Schutz vor der Indexierung bietet dieses Verfahren allerdings nicht, da die Datei nicht von allen Crawlern beachtet wird. Dies gilt vor allem für Webseiten mit einem umfassenden Linkprofil. Der Bot gelangt in diesem Fall über Backlinks auf die Seite und indexiert sie unter Umständen. In den Ergebnislisten wird sie ohne Beschreibungstext veröffentlicht.

Weiterführende Links:

Google Search Console-Hilfe: Googlebot

Bing Webmaster Help & How-To: Übersicht der von Bing verwendeten Crawler

Artikel: Top 50 open source web crawlers for data mining – Bigdata-madesimple.com (23.01.2015)

Noch Fragen zum Thema - Crawler?

 

Zurück zurück zum Onlinemarketing Wörterbuch

WAYNE - Human Marketing Podcast


Wir setzen auf Tools von:

sistrix-sumago awr-sumago

onpage_logo_weiss

 

Konferenz Vorträge für:

campixxseokommsmx-muenchen

seo-day-koelnonma-badenbarcamp-hamburg

bvmwshortconomcap


bekannt aus:

website-boostingt3ngruenderszene

suchradarheise-onlineseo-united1

venture-tv-2radio4seobild-zeitung-online


Wir schulen an der:

afs-akademie   mma


Empfohlen von:

ib-0215     seounited615

Kontakt

SUMAGO GmbH
SEO AGENTUR
Tel : +49 (0)30 959998720
Kontaktformular
Marketing Platoon | SEO BERLIN
Partner | Jobs | Blog
Presse | Sitemap | Impressum | Wiki
Deine SEO Agentur in Berlin & Deutschland