robots.txt

« Back to Glossary Index

Die robots.txt ist eine simple Text-Datei und befindet sich im Stammverzeichnis der Website. Die robots.txt der Webmasters-Toolbox finden Sie beispielsweise hier: https://webmasters-toolbox.de/robots.txt.

Einer der hauptzwecke ist die Steuerung der Crawlability, bestimmt also wer (welcher Bot / Spider) die Website crawlen und indexieren darf. Diese Steuerung kann bis auf Unterverzeichnisse und Webseiten genau bestimmt werden.

Richtig eingesetzt kann die robots.txt die Crawl-Frequenz der Website erhöhen und und zu schnelleren Ergebnissen von SEO-Maßnahmen führen.

Das Prinzip der Verwendung einer Plain Text Steuerdatei wurde 1984 als „Robots Exclusion Protocol“ finalisiert.

Existiert bei einer Website keine robots.txt sollte sie im Rahmen der technischen Suchmaschinenoptimierung mit einem einfaachen Texteditor erstellt werden. Anschließend wird sie in das Stammverzeichnis der Domain hiochgeladen, die Berechtigung 755.

Syntax:

Jede Zeile besteht aus zwei Feldern, die durch einen Doppelpunkt getrennt sind.

User-agent: Sidewinder
Disallow: /
Sitemap: http://example.com/sitemap.xml

Die Datei wird vom Webcrawler von oben nach unten gelsen, der Crawler stoppt bei Zeilen, die sich auf ihn beziehen. Im Beispiel oben stoppt der Webcrawler „Sidewinder“ in der genannten Zeile 2, für ihn ist das Durchsuchen der kompletten Webiste untersagt. Die Sitemap findet sich an der angegebenen Adresse.

ACHTUNG:

User-agent: *
Disallow:

erlaubt allen Crawlern das Durchsuchen der kompletten Website!

Beispiel Webmaster Toolbox:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Disallow: /wp-content/uploads/wpo-plugins-tables-list.json

Allen (*) Webcrawlern ist das Durchsuchen des Verzeichnisses /wp-admin untersagt, die Datei admin-ajax.php darf jedoch gelesen werden.

Die Datei wpo-plugins-tables-list.json darf im ansonsten crawlbaren Vereichnis /wp-content nicht gelesen werden.

EIne Datei ‚robots.txt‘ ist nicht vorgeschrieben, eine Website kann auch ohne sie gut ranken. Die Verwendung bringt jedoch Vorteile:

  • Private Verzeichnisse können vor Bots geschützt werden – dies ist zwar eine unsicher Methode, kann es jedoch der Suchmaschine schwerer mache, sensible Verzeichnisse zu indexieren.
  • Kontrolle von Ressourcen – jeder Crawl verwendete wertvolle Ressourcen, durch den Einsatz der robots.txt lässt sich die Verwendung jedoch einschränken. Dies kommt besonders auf serh großen Websites zum Tragen.
  • Der Ort der Sitemap kann kommuniziert werden.
  • Es wird Duplicate Content vermiden – Seiten mit doppleten Inhalten lassen sich von der Indexierung ausschließen

Tools:

Generieren einer robots.txt

Testen::

« Back to Glossary Index