robots.txt
Eine robots.txt-Datei ist eine Textdatei, die dem Robots Exclusion Standard entspricht und zur Steuerung des Zugriffs von Webcrawlern auf Webseiten dient. Sie wird im Stammverzeichnis (Root) einer Website platziert und ist das erste Dokument, das ein Bot abruft, wenn er eine Webseite besucht.
Die Hauptfunktion der robots.txt besteht darin, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website sie durchsuchen dürfen und welche nicht. Dies hilft dabei, den Crawling-Traffic zu verwalten und die Serverlast zu reduzieren. Mit dieser Datei können einzelne Dateien, komplette Verzeichnisse, Unterverzeichnisse oder ganze Domains vom Crawling ausgeschlossen werden.
Der Aufbau einer robots.txt-Datei basiert auf zwei wesentlichen Elementen: dem User-Agent und den Zugriffsbefehlen. Der User-Agent gibt an, für welchen Bot die nachfolgenden Regeln gelten sollen. Die Befehle „Disallow“ oder „Allow“ definieren dann, welche Bereiche der Website für diesen Bot gesperrt oder zugänglich sein sollen.
Es ist wichtig zu verstehen, dass die robots.txt keine absolute Zugangssperre darstellt. Die großen Suchmaschinen wie Google und Bing halten sich zwar an die Vorgaben, aber es gibt keine Garantie, dass alle Bots die Anweisungen befolgen. Zudem schützt die robots.txt nicht vor dem Zugriff durch Menschen oder vor der Indexierung von Seiten, die stark von externen Websites verlinkt sind.
Die robots.txt-Datei kann mit einem einfachen Texteditor erstellt werden. Vor dem Hochladen sollte sie auf Korrektheit geprüft werden, da bereits kleine Syntaxfehler dazu führen können, dass Crawler die Vorgaben missachten. Für jede Domain und jedes Protokoll (HTTP, HTTPS) sowie jeden Port wird eine separate robots.txt-Datei benötigt.
Neben der Steuerung des Crawlings kann in der robots.txt auch ein Verweis auf die XML-Sitemap einer Website hinterlegt werden, um Suchmaschinen die URL-Struktur der Website mitzuteilen.
Eine korrekt konfigurierte robots.txt ist ein wichtiges Element für die Suchmaschinenoptimierung und trägt zur effizienten Verwaltung der Webpräsenz bei.
« Zurück zum Glossar Index