Googlebot

Googlebot ist ein Webcrawler des US-amerikanischen Unternehmens Google LLC. Das Computerprogramm lädt World-Wide-Web-Inhalte eigenständig herunter und führt diese der herstellereigenen Suchmaschine Google zu.

Arbeitsweise

Zwischen dem Herunterladen einer Dateiversion und der Aktualisierung des Suchmaschinen-Index mit ebendiesem Inhalt dieser neuen Version liegen üblicherweise einige Tage. Wie oft Googlebot eine Seite besucht, hängt unter anderem davon ab, wie viele externe Links auf diese Seite verweisen und wie hoch ihr PageRank-Wert ist. In den meisten Fällen greift der Googlebot im Durchschnitt jedoch nur einmal alle paar Sekunden auf eine Website zu.

Um die Zugriffe auf die zu indizierende Seite möglichst gering zu halten wird zunächst jeder Crawlvorgang in einem von allen Googlebots genutzten Cache abgelegt. Wird eine Seite von mehreren Bots innerhalb eines bestimmten Zeitraumes besucht, kann die Anfrage somit aus dem Cache bedient werden.[1]

Googlebot beachtet die Datei robots.txt und die Robots-Anweisungen in HTML-Meta-Tags. Zu beachten ist, dass es bei blockiertem CSS oder JavaScript Missverständnisse beim Crawlvorgang geben kann und der Googlebot interpretiert die Webseite unter Umständen falsch.

Dynamische Seiteninhalte

Seiteninhalte, die nur hinter PHP-Sessions oder hinter Variablen enthalten sind, kann der Googlebot bislang nur schwer oder gar nicht indexieren. Dies liegt daran, dass dem Bot meist weder die nötigen Variablen, noch die zugehörigen Parameter bekannt sind. Google arbeitet gegenwärtig daran, den Webcrawler soweit anzupassen, dass er auch solche Inhalte erfassen kann, die bisher hinter mehreren AJAX-Requests verborgen bleiben. So sollen künftig auch solche Inhalte erfasst werden können, die eine Website dynamisch nachlädt. Geplant sei auch, dass der Webcrawler POST-Requests an eine Webseite schickt. Das Problem dabei ist, dass POST-Requests ungewollt Nutzeraktionen ausführen können.[2]

Identifikation

Googlebot identifiziert sich, je nach Aufgabe, unter anderem mit den folgenden User-Agent-Kennungen:

Googlebot/2.1 (+http://www.google.com/bot.html) Mozilla/5.0 (compatible); Googlebot/2.1; (+http://www.google.com/bot.html)
Googlebot-Image/1.0

Ein weiterer Google-Crawler dient dazu, Seiten herunterzuladen, um passende Werbung im Rahmen des Google-AdSense-Programms zu ermitteln. Er identifiziert sich wie folgt:

Mediapartners-Google/2.1

Verifikation

Manche Web-Benutzer und Crawler geben sich über diese Kennungen fälschlicherweise als Googlebot aus, in der Hoffnung, dass ein Site-Betreiber für Googlebot besonders gute oder werbefreie Inhalte bereitstellt.

Um festzustellen, ob es sich bei einem Besucher tatsächlich um Googles Crawler handelt, empfiehlt Google die Verwendung des Domain Name System. Zunächst wird die IP-Adresse des Besuchers mittels einer inversen Anfrage in einen Domain-Namen übersetzt, der auf googlebot.com enden sollte. Anschließend überprüft man mit einer regulären DNS-Anfrage (forward lookup), ob man wieder die ursprüngliche IP-Adresse des Besuchers erhält.[3]

Weblinks

Einzelnachweise

  1. Matt Cutts: Crawl caching proxy, 23. April 2006
  2. googlewebmastercentral.blogspot.com
  3. Matt Cutts: How to verify Googlebot. 20. September 2006. Official Google Webmaster Central Blog, googlewebmastercentral.blogspot.com abgerufen am 13. November 2006.