robots.txt - 10 Fehler, die Sie vermeiden sollten
Know How -
Webmasterwissen
Der Einsatz einer robots.txt ist sinnvoll. Mit Hilfe der robots.txt können Spidern und Crawlern das Durchsuchen von privaten Verzeichnissen und Dateien verboten werden. Doch beim Erstellen der robots.txt passieren häufig kleine Fehler, die dafür sorgen, dass am Ende nicht das gewünschte Ergebnis erzielt wird.
Dieser Artikel zeigt Ihnen die zehn häufigsten Fehler, die beim Erstellen der robots.txt gemacht werden und die Sie vermeiden sollten.
1. Die robots.txt nicht im Root-Verzeichnis abspeichern
Der Fehler, der am häufigsten gemacht wird ist, die robots.txt nicht im Root-Verzeichnis der Webseite abzulegen. Die Spiderbots und Crawler durchsuchen in der Regel nur das Root-Verzeichnis nach dem Vorhandensein einer robots.txt. Unterverzeichnisse werden dabei meist ignoriert. Daher sollten Sie darauf achten, die robots.txt stets im Root-Verzeichnis Ihrer Webseite abzulegen.
Die korrekte URL für Ihre robots.txt müsste also lauten: http://www.example.org/robots.txt
2. Benutzen einer falschen Syntax
Damit die Einträge in der robots.txt auch wirklich greifen, muss eine korrekte Syntax verwendet werden. So fangen zum Beispiel alle Einträge für Verzeichniss und Dateien stets mit einem führenden Slash an.
Beispiel:
User-agent: *
Disallow: /private.htm
Disallow: /private/
Die korrekte Syntax der robots.txt kann man auch mit einigen Tools online überprüfen lassen, so zum Beispiel mit dem
Robots.txt Checker.
3. Eine leere robots.txt
Eine robots.txt funktioniert natürlich nur dann, wenn diese auch mit entsprechenden Anweisungen für die Robots gefüllt wird. Eine leere robots.txt wird hingegen ignoriert, als ob sie gar nicht da wäre. Wenn Sie also eine robots.txt einsetzen möchten, sollten Sie diese auch immer mit Inhalt füllen. Ansonsten lassen Sie sie einfach weg.
4. Unterschiede zwischen Groß- und Kleinschreibung
Viele Webserver unterscheiden zwischen Groß- und Kleinschreibung. So ist die
Private.htm eine andere Datei als die
private.htm. Sollten Sie auf Ihrem Webserver Verzeichnisse und Dateien nicht durchgängig klein geschrieben haben (was Sie, um Fehler zu vermeiden, sowieso immer tun sollten), achten Sie auch auf die korrekte Schreibweise in der robots.txt
5. Kommentarzeilen nicht an den Anfang des Blocks stellen.
Wenn Sie in der robots.txt Kommentarzeilen verwenden, sollten diese immer am Anfang eines Blocks stehen. Außerdem muss jede Kommentarzeile mit einem führenden Rautenzeichen beginnen.
Beispiel:
# Private Dateien blockieren
User-agent: *
Disallow: /private/
6. Verzeichnisse blockieren, die indexiert werden sollen
Sie sollten immer darauf achten, Verzeichnisse, die indexiert werden sollen, nicht unter dem Punkt
Disallow: zu setzen. Auch wenn die Seitenstruktur sich mal ändern sollte, sollten Sie die robots.txt auf eventuelle Fehler hin überprüfen. Ansonsten kann es vorkommen, dass Sie ungewollt Verzeichnisse und Dateien sperren, die eigentlich doch in den Index der Suchmaschinen landen sollen.
7. Alle Verzeichnisse in eine Reihe stellen
Auch ein häufig gemachter Fehler ist, mehrere Verzeichnisse und Dateien unter einem einzigen
Disallow: zu stellen. Verwenden Sie für jedes Verzeichnis eine eigene Zeile mit einem eigenen
Disallow:
Gutes Beispiel:
User-agent: *
Disallow: /private/
Disallow: /private.htm
Disallow: /grafiken/
Schlechtes Beispiel:
User-agent: *
Disallow: /private/ /grafiken/ /private.htm
8. Falsch geschriebene Namen
Die Bots ignorieren alle Einträge, wenn deren Namen falsch geschrieben wurde. Wenn Sie also einzelne Bots Zugang zu bestimmten Verzeichnissen erlauben wollen bzw. nicht erlauben wollen, überprüfen Sie immer die richtige Schreibweise dieser Bots oder User-Agents.
Eine Hilfe kann hier bei die Webseite
UserAgentString.com sein, auf der Sie eine Liste für verschiedene User-Agents finden.
9. Fehlende Doppelpunkte
Tippfehler oder einfaches Übersehen können dazu führen, dass der Doppelpunkt nach einem User-Agent-Eintrag oder einem
Disallow: nicht gesetzt wird. Das führt dazu, dass diese Einträge ignoriert werden. Überprüfen Sie daher immer, ob nach jedem
Disallow: und nach jedem User-Agent-Eintrag ein Doppelpunkt steht.
Gutes Beispiel:
User-agent: *
Disallow: /private/
Schlechtes Beispiel:
User-agent: *
Disallow /private/
10. Verwenden von Allow:
In der robots.txt gibt es genau eine Anweisung:
Disallow: Wenn Sie also möchten, dass Ihre Seiten von den Bots besucht werden sollen, verwenden Sie keinesfalls das Kommando "Allow:" - denn dieses gibt es gar nichts. Im schlimmsten Fall führt die Verwendung dieses Kommandos zur nicht indexierung Ihrer Seiten bei den Such-Robots.