Robots.txt-Datei

Einleitung

Die Robots.txt-Datei ist eine Textdatei, die von Webseitenbetreibern bereitgestellt wird und Suchmaschinen dabei hilft, festzulegen, welche Teile der Website indexiert werden können. Es wird benötigt, um die Art und Weise zu ste

Einleitung

Robots.txt ist eine Textdatei, die von Webseitenbetreibern bereitgestellt wird und Suchmaschinen dabei hilft, festzulegen, welche Teile der Website indexiert werden können. Es wird benötigt, um die Art und Weise zu steuern, in der Suchmaschinen die Website scannen und Teile davon verfolgen.

Die Datei robots.txt wird im Stammverzeichnis (Root-Verzeichnis) einer Website abgelegt. Sie ist eine normale Textdatei und besteht normalerweise aus dem Namen des Nutzersagenten - meistens Suche Crawler - und der Liste der Verzeichnisse oder Seiten, die für den Crawl nicht zugelassen sind. Die Dateigröße von robots.txt kann variiert werden; sie sollte jedoch niemals größer als 512 Kilobyte sein.

Inhalt:

  1. Einleitung
  2. Maximale Größen
  3. Unterstütze Direktiven
  4. FAQ:

Maximale Größen

Einige Suchmaschinen begrenzen die Größe der robots.txt um deren Verarbeitung zu beschleunigen. Daher solltest Du bei der Erstellung unbendingt auf die maximale Größen achten.
Suchmaschine Max- Größe
Google 512 KB
Yandex 500 KB
Baidu 48 KB

Unterstütze Direktiven

Nicht jede Suchmaschine unterstützt auch jede Anweisung in der robots.txt. Anbei haben wir eine Matrix mit den unterstützenden Direktiven einer robots.txt aufgebaut.

Google Bing Yandex Baidu
User-agent X X X X
Disallow X X X X
Sitemap X X X
Clean-param X
Allow X X X
Crawl-delay X X

FAQ:

Was sind Robots txt Dateien?
Robots.txt Dateien sind Textdateien, die Websites verwenden, um Suchmaschinen zu informieren, welche Bereiche einer Website durchsucht werden können, und welche Bereiche ausgeschlossen werden sollen. Als Richtlinie für die Suchmaschinenlaufwerke wird die robots.txt-Datei verwendet, um zu bestimmen, welche Seiten und Unterverzeichnisse nicht indexiert oder angezeigt werden sollen.
Was macht eine Robots txt?
Eine Robots.txt ist eine Textdatei, die Webmastern dabei hilft, Suchmaschinen daran zu hindern, bestimmte Teile ihrer Website zu indexieren. Die Datei enthält Anweisungen, die definieren, welche Teile der Website abgerufen oder nicht abgerufen werden können. Diese Regeln sind vor allem für Suchmaschinen-Roboter (Spinnen) gedacht. Wenn ein Roboter versucht, eine Seite zu indexieren und dann auf die Robots.txt-Version stößt, wird er den Anweisungen in der Datei folgen und nicht versuchen, die Seiten zu indexieren.
Wie erstelle ich eine Robots txt?
Die Erstellung einer Robots.txt-Datei erfordert nur Grundkenntnisse in HTML-Code. Es ist ein einfacher Text-Editor (wie Notepad), der dazu verwendet wird, um die Datei zu erstellen oder zu bearbeiten. Anweisungen: 1) Öffnen Sie einen Texteditor und kopieren Sie den folgenden Code hinein: User-agent: * Disallow: / 2) Legen Sie die Anweisungen fest, die Sie für Suchmaschinen festlegen möchten. In diesem Beispiel blockiert der Roboter alle Seiten auf der Website. Wenn Sie bestimmte Seiten gesperrt haben möchten, fügen Sie den Pfad zu jeder gewünschten Seite unter dem Disallow-Tag hinzu. 3) Speichern Sie die Datei als "Robots.txt" auf Ihrem Webserver ab.
Wo liegt die Robots txt?
Die Robots.txt ist meistens in der Wurzel des Webservers abgelegt und kann unter der URL "domain.de/robots.txt" aufgerufen werden.