Robots.txt-Datei
Einleitung
Die Robots.txt-Datei ist eine Textdatei, die von Webseitenbetreibern bereitgestellt wird und Suchmaschinen dabei hilft, festzulegen, welche Teile der Website indexiert werden können. Es wird benötigt, um die Art und Weise zu ste
Einleitung
Robots.txt ist eine Textdatei, die von Webseitenbetreibern bereitgestellt wird und Suchmaschinen dabei hilft, festzulegen, welche Teile der Website indexiert werden können. Es wird benötigt, um die Art und Weise zu steuern, in der Suchmaschinen die Website scannen und Teile davon verfolgen.
Die Datei robots.txt wird im Stammverzeichnis (Root-Verzeichnis) einer Website abgelegt. Sie ist eine normale Textdatei und besteht normalerweise aus dem Namen des Nutzersagenten - meistens Suche Crawler - und der Liste der Verzeichnisse oder Seiten, die für den Crawl nicht zugelassen sind. Die Dateigröße von robots.txt kann variiert werden; sie sollte jedoch niemals größer als 512 Kilobyte sein.
Inhalt:
Maximale Größen
Einige Suchmaschinen begrenzen die Größe der robots.txt um deren Verarbeitung zu beschleunigen. Daher solltest Du bei der Erstellung unbendingt auf die maximale Größen achten.Suchmaschine | Max- Größe |
---|---|
512 KB | |
Yandex | 500 KB |
Baidu | 48 KB |
Unterstütze Direktiven
Nicht jede Suchmaschine unterstützt auch jede Anweisung in der robots.txt. Anbei haben wir eine Matrix mit den unterstützenden Direktiven einer robots.txt aufgebaut.
Bing | Yandex | Baidu | ||
User-agent | X | X | X | X |
Disallow | X | X | X | X |
Sitemap | X | X | X | |
Clean-param | X | |||
Allow | X | X | X | |
Crawl-delay | X | X |