Sitemap Best-Practice

Wie muss eine Sitemap-Datei ausschauen? Wie baut man sie am besten auf?

In diesem Artikel möchte ich Dir einmal die wichtigsten Regeln für Deine XML-Sitemap-Datei mit an die Hand geben. Nahezu jedes CMS, Shopsystem und/oder Website-Baukasten bietet eine Funktion, um eine solche XML-Sitemap-Datei zu erzeugen. Somit sollte man denken, dass so ein Artikel wie dieser eigentlich überflüssig sein sollte. Jedoch zeigt sich immer wieder, dass selbst solche fertigen Funktionen ihre Schwachstellen, Lücken und Fehler aufweisen.

Wozu benötigt man eine XML-Sitemap-Datei?

Solche Sitemap-Dateien helfen Suchmaschinen bei der Indexierung einer Website. Gerade bei großen Websites, Websites auf denen Inhalte schnell wechseln oder aktualisiert werden, können Sitemaps die Indexierung unterstützen und beschleunigen.

Benötige ich auf meiner Website ein solche Sitemap?

Wenn Du selber eine sehr kleine Website betreibst oder eine Website, die nur aus einer URL besteht, solltest Du Dir nicht zu viel Zeit mit einer XML-Sitemap für diese Website verschwenden. Betreibst Du hingegen einen Onlineshop mit ständig wechselnden Sortiment oder ein Newsportal, in dem häufig Artikel aktualisiert werden, solltest Du auf jeden Fall XML-Sitemaps einsetzen. Betreibst Du ein Newsportal und möchtest in die Listings von Google News und Discover, so benötigst Du zwangsweise eine spezielle XML-Sitemap-Datei.

Welche Punkte sind in einer XML-Sitemap zu beachten?

  • Nehme alle URLs in die Sitemaps auf, die für Dein Business wichtig sind und die für Deine Website ranken sollen.
    Jede URL, die ranken soll, muss auch in Deiner Sitemap enthalten sein.
  • Nehme nur Seiten auf, die mit einen HTTP-Status-Code 200 ausgeliefert, nicht per robots.txt, per Robots-Anweisung gesperrt oder kanonisiert werden
    Andere Seiten können die Verarbeitungs-Warteschlange einer Suchmaschine nur unnötig verstopfen und die Suchmaschine benötigt ggf. länger, um die wesentlichen Inhalte Deiner Website zu untersuchen.
  • Achte auf eine korrekte Syntax der Sitemap und dass die Sitemaps von den Suchmaschinen gelesen werden können.
    Hierzu zählt eine valide XML-Syntax Sonderzeichen in den URLs müssen ggf. escaped werden, da sie ansonsten als Steuerzeichen im XML erkannt werden (Entity escaping)
  • Sitemap-Dateien müssen UTF-8 kodiert sein.
    Achte beim Speichern Deiner Sitemap darauf, dass diese als UTF-8-Textdatei abgelegt bzw. an die jeweiligen Clients übertragen wird.
  • URLs in einer Sitemap müssen absolut angegeben werden.
    Dabei besteht die URL nicht nur aus einem Pfad- und Dateinamen, sondern auch aus Protokoll und Domain.
  • In der Sitemap sollte die Angabe <lastmod> das korrekte Datum der letzten Änderung der URL angegeben werden.
    Das Datum ist dabei im W3C-Format anzugegeben. Dieses Format bietet Dir etwas Flexibilität in der Formatierung. Jedoch sollte es auf jeden Fall ein gültiges Datum widerspiegeln und darf nicht leer sein. Das Datum muss das letzte Änderungsdatum des Contents der URL sein, nicht das der Sitemap enthalten. Verwendest Du die Angabe lastmod in einer Index-Sitemap, so darf sich das Datum nur ändern, wenn sich auch der Inhalt der verlinkten Sitemap geändert hat. Beachte, dass sich die Zeitangaben in diesem Tag auf eine Zeit in einer bestimmten Zeitzone beziehen. Findet nun in der Zeitzone eine Zeitumstellung zwischen Sommer und Winterzeit statt, muss sich dies auch in der Zeitangabe in Deiner Sitemap widerspiegeln. Das Datum der letzten Veränderung sollte auch in dem Artikel auf der Website klar für Benutzer lesbar sein. Dies darf sich nicht von dem Datum in der Angabe <lastmod> unterscheiden. Denke dabei auch an die unterschiedlichen Formate und Zeitzonen.
  • Das <lastmod>-Datum darf nicht vor dem 01.01.1970 liegen.
    Google arbeitet bei diesem Datenfeld mit einem Unix-Timestamp und ausschließlich postiven Werten. Da der Unix-Timestamp am 01.01.1970 anfängt mit 0 zu zählen sind keine älteren Datumsangaben für Google gültige Datumsangaben.
  • Das <priority>-Tag kannst Du ignorieren. Viele Suchmaschinen ignorieren diese Angabe meist und sind daher überflüssig.
    Als das Sitemap-Format entworfen wurde, dachte man noch, dass wir selbst die Priorität einzelner URLs selber besser bestimmen können. Die Zeit hat jedoch gezeigt, dass Suchmaschinen dies nun selber besser bestimmen können, weshalb dieses Tag von den meisten Suchmaschinen ignoriert wird.
  • Ebenso kannst Du auf das Tag ​​<changefreq> verzichten, da es von den meisten Suchmaschinen mittlerweile ignoriert wird.
    Das gleiche gilt für die Änderungshäufigkeit eines Dokuments. Um einer Website mitzuteilen, dass sich ein bestimmter Inhalt geändert hat, verwende besser das <lastmod>-Tag. Suchmaschinen werden schnell lernen, dass bestimmte URLs häufiger gecrawlt werden sollten als andere.
  • Max. darf eine Sitemap 50MB groß sein. Benötigst Du mehr Platz teile die Sitemaps in mehrere Sitemap-Dateien auf und nutze Index-Sitemaps
    Bei der Angabe der maximalen Größe handelt es sich um die unkomprimierte XML-Sitemap-Datei. Wird die Datei größer, so teile sie in mehrere Sitemaps auf.
    Struktur einer XML-Sitemap-Datei Struktur einer Index-Sitemap-Datei
  • Das gleiche gilt für das Limit von 50.000 URLs pro Sitemap-Datei. Beinhaltet Deine Sitemap mehr als 50.000 URLs, so musst Du diese auf mehrere Dateien aufteilen.
    Auch die maximale Anzahl an URLs ist in einer Sitemap zu beachten. Übersteigt Deine Sitemap die maximale Anzahl, so teile sie in mehrere Sitemaps auf.
  • Sitemaps sollten schnell ausgeliefert werden. Dauert es zu lange, kann es zu Problemen bei Suchmaschinen kommen.
    Lege die XML-Sitemap-Dateien als statische Datei in das Dateisystem des Webservers. Liefere die Dateien aus, ohne dass das Serversystem das Framework Deines CMS oder Shopsystemes laden muss. Wenn die Auslieferung der XML-Sitemap-Dateien zu lange dauert, können Suchmaschinen den Vorgang abbrechen. In so einem Fall wird es immer wieder zu Problemen beim Abruf der Sitemaps kommen und damit die Indexierung der Website stören bzw. verlangsamen. Oft werden Sitemaps “On the Fly” erst beim Aufruf der eigentlichen Sitemap-Datei OnDemand erstellt. Dies kann je nach System, Datenbankgröße, Systemressourcen und Auslastung des Serversystem ggf. zu Problemen führen. Teste mit unserem Sitemap-Checker, wie schnell Deine Sitemap abgerufen wird.
  • Parameter in der URL einer Sitemap solltest Du vermeiden.
    Vermeide Parameter in der URL Deiner Sitemap-Datei. Vor allem wenn sich diese Parameter häufig ändern, kann dies ein Problem sein.
  • Melde die Sitemaps in der Google Search Console (GSC) und den Bing Webmaster Tools an, um wichtige Informationen über die “Abdeckung” zu erhalten.
    So gehst Du auf “Nummer sicher” und kannst sicher sein, dass die jeweilige Suchmaschine Deine Sitemaps auch kennt. Zusätzlich bekommst Du wichtige Informationen in den jeweiligen “Abdeckungsberichten”. Wann wurde die Sitemap das letzte Mal abgerufen? Welche URLs in welcher Sitemap wurden indexiert? Welche noch nicht? Und welche Probleme gibt es auf welcher URL?
  • Benötigst Du mehr als eine Sitemap-Datei, so verwende eine Index-Sitemap-Datei, um auf alle anderen Sitemap-Dateien zu verweisen.
    Die Index-Sitemap sorgt dafür, dass es einen zentralen Einstiegspunkt in den Sitemaps gibt und sorgt dafür, dass Suchmaschinen alle Sitemaps finden können.
  • Deine Sitemap-Datei darf nur unter gewissen Umständen in einem Unterverzeichnis liegen. Daher plaziere Deine Sitemap oder Index-Sitemap- Datei im Stammverzeichnis Deiner Domain
    Nur wenn die Sitemaps auch in der robots.txt referenziert oder über die GSC eingereicht wurden, sind diese auch global für die Domain gültig. Ansonsten ist sie nur für das Verzeichnis gültig, in dem sie abgelegt wurde.
  • Benenne die Datei als “sitemap.xml”. Mit diesem Standard-Dateinamen versuchen Suchmaschinen Sitemaps abzurufen.
    Mache es Suchmaschinen einfach, Deine Sitemap zu finden. Wenn die Sitemap nicht in der robots.txt referenziert ist, suchen viele Crawler nach einer Datei mit dem Namen sitemap.xml im Stammverzeichnis der Domain.
  • Referenziere Deine Sitemap- oder Index-Sitemap-Datei in der robots.txt
    Die Referenz der Sitemap in der robots.txt sorgt dafür, dass auch Suchmaschinen Deine Sitemaps finden können, bei denen Du Deine Website und die Sitemaps nicht angemeldet hast. Achte dabei darauf, dass Deine Sitemap mit einer abosluten URL angegeben wird.
  • Verbiete die Indexierung der Sitemaps, indem Du im HTTP-Header "X-Robots-Tag: noindex" beim Abruf Deiner Sitemaps übermittelst
    Das sorgt dafür, dass die URLs aus derSitemaps verarbeitet werden, aber die Sitemaps selber nicht im Index einer Suchmaschine landen.
  • Sitemaps nicht per robots.txt verbieten

Absolute Limits von Sitemap-Dateien

Maximale URLs pro Domain 1250 000 000 000 URLs
Maximale Sitemaps pro Index-Sitemap-Datei 50.000 Sitemaps
Maximale Index-Sitemap-Dateien pro Domain 500 Sitemaps
Maximale Größe pro Datei (unkomprimiert) 50 MB
Maximale Anzahl an URLs pro Datei 50.000 URLs
Maximale Anzahl an Bild-URLs pro URL 1.000 Bild-URLs