Sitemaps-Protokoll

Das Sitemaps-Protokoll ermöglicht einem Webmaster, Suchmaschinen über Seiten seiner Website zu informieren, die von dieser ausgelesen werden sollen. Der Standard wurde am 16. November 2006 von Google, Yahoo und Microsoft beschlossen. Es handelt sich um einen auf XML basierenden Standard.

Ziel des Sitemaps-Protokolls ist eine Verbesserung der Suchresultate. Der einheitliche Standard hilft bei der Etablierung dieser Art von „Etikettierung“ eines Webauftritts, da nicht, wie vor der Standardisierung, für jede Suchmaschine eine eigene Sitemap-Datei erstellt werden muss.

Geschichte

Das Sitemaps-Protokoll basiert auf der Idee von Webcrawler-freundlichen Webservern.[1][2]

Google veröffentlichte im Juni 2005 die Technologie Sitemaps 0.84.[3] Mit dieser Technik konnten Webmaster eine Liste von Links auf ihre Seite veröffentlichen.

Im November 2006 machten MSN und Yahoo bekannt, dem Sitemaps-Protokoll zuzustimmen.[4] Die Revisionskennung wurde zu Sitemaps 0.90 verändert, aber das Protokoll blieb unverändert.

Im April 2007 schlossen sich Ask.com und IBM dem Standard an. Zur gleichen Zeit kündigten Google, Yahoo und Microsoft Unterstützung zur Erkennung von Sitemap-Dateien durch den Robots Exclusion Standard an.

XML-Sitemap-Format

Sitemaps-Datei
Dateiendung:.xml, .gz
MIME-Type:application/xml, text/xml
Aktuelle Version0.9[5]
Erweitert von:XML
Standard(s):sitemaps.org


Sitemap-Dateien sind gewöhnliche Textdateien, die sich der Extensible Markup Language bedienen. Sitemap-Dateien müssen die Zeichenkodierung UTF-8 verwenden.

Alternativ zu der umfangreichen XML-Notation können Sitemap-Dateien auch gewöhnliche Textdateien sein, die lediglich eine Liste von URLs enthalten.

Zudem sieht der Standard vor, dass Sitemap-Dateien, egal welcher Form, auch gzip-komprimiert werden können.

Der Dateiname von Sitemap-Dateien ist, anders als bei robots.txt-Dateien, grundsätzlich irrelevant. Auch Dateiendungen spielen, selbst bei GZIP-Kompression, keine Rolle.

Beschränkungen

Sitemap-Dateien dürfen nach Protokoll im Gesamten nicht mehr als 50.000 URLs beinhalten und höchstens 50 MB (52,428,800 Bytes) umfassen. Bei Verwendung von komprimierten Sitemap-Dateien darf die nicht komprimierte Sitemap-Datei ebenfalls nicht größer als 50 MB sein. Diese Beschränkung kann umgangen werden, indem mehrere Sitemap-Dateien verwendet werden, zu der man eine „Haupt“-Sitemap anlegt, die auf maximal 50.000 Sitemaps verweist.[6] Auf diese Weise sind theoretisch 50.000 × 50.000 = 2.500.000.000 (2,5 Milliarden) URLs beschreibbar.

Beispiele

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9"
 xmlns:xsi="https://www.w3.org/2001/XMLSchema-instance"
 xsi:schemaLocation="https://www.sitemaps.org/schemas/sitemap/0.9 https://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
 <url>
  <loc>http://example.com/</loc>
  <lastmod>2006-11-18</lastmod>
  <changefreq>daily</changefreq>
  <priority>0.8</priority>
 </url>
</urlset>
 http://example.com/seite1.html
 http://example.com/verzeichnis/seite2.html
 http://example.com/bild3.png

Einsendung von Sitemaps-Dateien bei Suchmaschinen

Anders als robots.txt-Dateien werden Sitemaps-Dateien nicht zwangsläufig an einem besonderen Ort auf der Webpräsenz veröffentlicht, sondern einer beliebigen Suchmaschine direkt zugesendet (in einer einem Pingback ähnlichen Methode). Diese gibt daraufhin Statusausgaben bzw. Fehler beim Verarbeiten der Sitemaps-Datei zurück. Die bei dieser Einsendung übergebenen Daten, d. h., die Anfragemaske und das Ausgabeformat hängen stark von der verwendeten Suchmaschinen ab, der Sitemaps-Standard macht darüber keine Aussage.

Alternativ kann die Adresse einer Sitemap-Datei auch in die robots.txt aufgenommen werden, indem man an beliebiger Position die Zeile

 Sitemap: sitemap_url

einfügt, wobei sitemap_url die komplette URL zu der Sitemap darstellt (z. B. http://www.example.org/sitemap.xml). Diese Information wird unabhängig von dem User-Agent-Kontext ausgewertet, daher spielt die Position der Zeile keine Rolle. Verfügt eine Webpräsenz über mehrere Sitemaps, dann sollte diese URL zur Haupt-Sitemap-Datei verweisen.

Die Inhalte einer Sitemap sind nicht mit Befehlen zu verwechseln. Sie geben einem Webcrawler lediglich Empfehlungen, wie eine Website am effizientesten zu indexieren ist. Ob oder in welchem Umfang diese tatsächlich umgesetzt werden, lässt sich mit Sitemaps nicht verbindlich festlegen.

Weblinks

Einzelnachweise

  1. M. L. Nelson, J. A. Smith, del Campo, H. Van de Sompel, X. Liu: Efficient, Automated Web Resource Harvesting. 2006 (public.lanl.gov PDF)
  2. O. Brandman, J. Cho, Héctor García-Molina, Narayanan Shivakumar: Crawler-friendly web servers. In: Proceedings of ACM SIGMETRICS Performance Evaluation Review. Band 28, Nr. 2, 2000.
  3. Google-Blog: Webmaster-friendly
  4. googlepress.blogspot.de
  5. sitemaps.org.
  6. sitemaps.org