{"id":4786,"date":"2022-05-07T16:49:30","date_gmt":"2022-05-07T14:49:30","guid":{"rendered":"https:\/\/webmasters-toolbox.de\/?post_type=glossary&#038;p=4786"},"modified":"2022-05-07T16:49:30","modified_gmt":"2022-05-07T14:49:30","slug":"robots-txt-2","status":"publish","type":"glossary","link":"https:\/\/webmasters-toolbox.de\/en\/glossary\/robots-txt-2\/","title":{"rendered":"robots.txt"},"content":{"rendered":"<p>Die <strong>robots.txt<\/strong> ist eine simple Text-Datei und befindet sich im Stammverzeichnis der Website. Die robots.txt der Webmasters-Toolbox finden Sie beispielsweise hier: <a href=\"https:\/\/webmasters-toolbox.de\/en\/robots.txt\/\" target=\"_blank\" rel=\"noopener\">https:\/\/webmasters-toolbox.de\/robots.txt<\/a>.<\/p>\n<p>Einer der hauptzwecke ist die Steuerung der Crawlability, bestimmt also wer (welcher Bot \/ Spider) die Website crawlen und indexieren darf. Diese Steuerung kann bis auf Unterverzeichnisse und Webseiten genau bestimmt werden.<\/p>\n<p>Richtig eingesetzt kann die robots.txt die Crawl-Frequenz der Website erh\u00f6hen und und zu schnelleren Ergebnissen von SEO-Ma\u00dfnahmen f\u00fchren.<\/p>\n<p>Das Prinzip der Verwendung einer Plain Text Steuerdatei wurde 1984 als &#8222;<a href=\"https:\/\/de.wikipedia.org\/wiki\/Robots_Exclusion_Standard\" target=\"_blank\" rel=\"noopener\">Robots Exclusion Protocol<\/a>&#8220; finalisiert.<\/p>\n<p>Existiert bei einer Website keine robots.txt sollte sie im Rahmen der technischen Suchmaschinenoptimierung mit einem einfaachen Texteditor erstellt werden. Anschlie\u00dfend wird sie in das Stammverzeichnis der Domain hiochgeladen, die Berechtigung 755.<\/p>\n<h2>Syntax:<\/h2>\n<p>Jede Zeile besteht aus zwei Feldern, die durch einen Doppelpunkt getrennt sind.<\/p>\n<pre>User-agent: Sidewinder\r\nDisallow: \/\r\nSitemap: http:\/\/example.com\/sitemap.xml<\/pre>\n<p>Die Datei wird vom Webcrawler von oben nach unten gelsen, der Crawler stoppt bei Zeilen, die sich auf ihn beziehen. Im Beispiel oben stoppt der Webcrawler &#8222;Sidewinder&#8220; in der genannten Zeile 2, f\u00fcr ihn ist das Durchsuchen der kompletten Webiste untersagt. Die Sitemap findet sich an der angegebenen Adresse.<\/p>\n<p>ACHTUNG:<\/p>\n<pre>User-agent: *\r\nDisallow:<\/pre>\n<p>erlaubt allen Crawlern das Durchsuchen der kompletten Website!<\/p>\n<p><strong>Beispiel Webmaster Toolbox:<\/strong><\/p>\n<pre>User-agent: *\r\nDisallow: \/wp-admin\/\r\nAllow: \/wp-admin\/admin-ajax.php\r\n\r\nDisallow: \/wp-content\/uploads\/wpo-plugins-tables-list.json<\/pre>\n<p>Allen (*) Webcrawlern ist das Durchsuchen des Verzeichnisses \/wp-admin untersagt, die Datei admin-ajax.php darf jedoch gelesen werden.<\/p>\n<p>Die Datei wpo-plugins-tables-list.json darf im ansonsten crawlbaren Vereichnis \/wp-content nicht gelesen werden.<\/p>\n<p>EIne Datei &#8218;robots.txt&#8216; ist nicht vorgeschrieben, eine Website kann auch ohne sie gut ranken. Die Verwendung bringt jedoch Vorteile:<\/p>\n<ul>\n<li>Private Verzeichnisse k\u00f6nnen vor Bots gesch\u00fctzt werden &#8211; dies ist zwar eine unsicher Methode, kann es jedoch der Suchmaschine schwerer mache, sensible Verzeichnisse zu indexieren.<\/li>\n<li>Kontrolle von Ressourcen &#8211; jeder Crawl verwendete wertvolle Ressourcen, durch den Einsatz der robots.txt l\u00e4sst sich die Verwendung jedoch einschr\u00e4nken. Dies kommt besonders auf serh gro\u00dfen Websites zum Tragen.<\/li>\n<li>Der Ort der Sitemap kann kommuniziert werden.<\/li>\n<li>Es wird Duplicate Content vermiden &#8211; Seiten mit doppleten Inhalten lassen sich von der Indexierung ausschlie\u00dfen<\/li>\n<\/ul>\n<h2>Tools:<\/h2>\n<h3>Generieren einer robots.txt<\/h3>\n<ul>\n<li><a href=\"https:\/\/extendsclass.com\/robots-txt-generator.html\" target=\"_blank\" rel=\"noopener\">ExtendsClass Robots.txtGenerator<\/a><\/li>\n<li><a href=\"https:\/\/chrome.google.com\/webstore\/detail\/robotstxt-generator\/oefjnjjbkdbjdngfojgiceogjplckejc\" target=\"_blank\" rel=\"noopener\">Chrome AddOn<\/a> zu Generierung von robots.txt<\/li>\n<\/ul>\n<h3>Testen::<\/h3>\n<ul>\n<li><a href=\"https:\/\/support.google.com\/webmasters\/answer\/6062598?hl=de\" target=\"_blank\" rel=\"noopener\">Google Search Console<\/a> (alte Version)<\/li>\n<li>Bing Webmaster Tools (<a href=\"https:\/\/www.bing.com\/webmasters\/robotstxttester\" target=\"_blank\" rel=\"noopener\">Tools und Erweiterungen &gt; Robots.txt-Tester<\/a>)<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Die robots.txt ist eine simple Text-Datei und befindet sich im Stammverzeichnis der Website. Die robots.txt der Webmasters-Toolbox finden Sie beispielsweise hier: https:\/\/webmasters-toolbox.de\/robots.txt. Einer der hauptzwecke ist die Steuerung der Crawlability, bestimmt also wer (welcher Bot \/ Spider) die Website crawlen und indexieren darf. Diese Steuerung kann bis auf Unterverzeichnisse und Webseiten genau bestimmt werden. Richtig [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"menu_order":0,"template":"","meta":{"footnotes":""},"class_list":["post-4786","glossary","type-glossary","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/webmasters-toolbox.de\/en\/wp-json\/wp\/v2\/glossary\/4786","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/webmasters-toolbox.de\/en\/wp-json\/wp\/v2\/glossary"}],"about":[{"href":"https:\/\/webmasters-toolbox.de\/en\/wp-json\/wp\/v2\/types\/glossary"}],"author":[{"embeddable":true,"href":"https:\/\/webmasters-toolbox.de\/en\/wp-json\/wp\/v2\/users\/2"}],"version-history":[{"count":0,"href":"https:\/\/webmasters-toolbox.de\/en\/wp-json\/wp\/v2\/glossary\/4786\/revisions"}],"wp:attachment":[{"href":"https:\/\/webmasters-toolbox.de\/en\/wp-json\/wp\/v2\/media?parent=4786"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}