Webmasterwissen

robots.txt - 10 Fehler, die Sie vermeiden sollten


Der Einsatz einer robots.txt ist sinnvoll. Mit Hilfe der robots.txt können Spidern und Crawlern das Durchsuchen von privaten Verzeichnissen und Dateien verboten werden. Doch beim Erstellen der robots.txt passieren häufig kleine Fehler, die dafür sorgen, dass am Ende nicht das gewünschte Ergebnis erzielt wird.
Dieser Artikel zeigt Ihnen die zehn häufigsten Fehler, die beim Erstellen der robots.txt gemacht werden und die Sie vermeiden sollten.


1. Die robots.txt nicht im Root-Verzeichnis abspeichern

Der Fehler, der am häufigsten gemacht wird ist, die robots.txt nicht im Root-Verzeichnis der Webseite abzulegen. Die Spiderbots und Crawler durchsuchen in der Regel nur das Root-Verzeichnis nach dem Vorhandensein einer robots.txt. Unterverzeichnisse werden dabei meist ignoriert. Daher sollten Sie darauf achten, die robots.txt stets im Root-Verzeichnis Ihrer Webseite abzulegen.
Die korrekte URL für Ihre robots.txt müsste also lauten: http://www.example.org/robots.txt

2. Benutzen einer falschen Syntax

Damit die Einträge in der robots.txt auch wirklich greifen, muss eine korrekte Syntax verwendet werden. So fangen zum Beispiel alle Einträge für Verzeichniss und Dateien stets mit einem führenden Slash an.

Beispiel:

User-agent: *
Disallow: /private.htm
Disallow: /private/


Die korrekte Syntax der robots.txt kann man auch mit einigen Tools online überprüfen lassen, so zum Beispiel mit dem Robots.txt Checker.

3. Eine leere robots.txt

Eine robots.txt funktioniert natürlich nur dann, wenn diese auch mit entsprechenden Anweisungen für die Robots gefüllt wird. Eine leere robots.txt wird hingegen ignoriert, als ob sie gar nicht da wäre. Wenn Sie also eine robots.txt einsetzen möchten, sollten Sie diese auch immer mit Inhalt füllen. Ansonsten lassen Sie sie einfach weg.

4. Unterschiede zwischen Groß- und Kleinschreibung

Viele Webserver unterscheiden zwischen Groß- und Kleinschreibung. So ist die Private.htm eine andere Datei als die private.htm. Sollten Sie auf Ihrem Webserver Verzeichnisse und Dateien nicht durchgängig klein geschrieben haben (was Sie, um Fehler zu vermeiden, sowieso immer tun sollten), achten Sie auch auf die korrekte Schreibweise in der robots.txt

5. Kommentarzeilen nicht an den Anfang des Blocks stellen.

Wenn Sie in der robots.txt Kommentarzeilen verwenden, sollten diese immer am Anfang eines Blocks stehen. Außerdem muss jede Kommentarzeile mit einem führenden Rautenzeichen beginnen.

Beispiel:

# Private Dateien blockieren
User-agent: *
Disallow: /private/


6. Verzeichnisse blockieren, die indexiert werden sollen

Sie sollten immer darauf achten, Verzeichnisse, die indexiert werden sollen, nicht unter dem Punkt Disallow: zu setzen. Auch wenn die Seitenstruktur sich mal ändern sollte, sollten Sie die robots.txt auf eventuelle Fehler hin überprüfen. Ansonsten kann es vorkommen, dass Sie ungewollt Verzeichnisse und Dateien sperren, die eigentlich doch in den Index der Suchmaschinen landen sollen.

7. Alle Verzeichnisse in eine Reihe stellen

Auch ein häufig gemachter Fehler ist, mehrere Verzeichnisse und Dateien unter einem einzigen Disallow: zu stellen. Verwenden Sie für jedes Verzeichnis eine eigene Zeile mit einem eigenen Disallow:

Gutes Beispiel:

User-agent: *
Disallow: /private/
Disallow: /private.htm
Disallow: /grafiken/


Schlechtes Beispiel:

User-agent: *
Disallow: /private/ /grafiken/ /private.htm


8. Falsch geschriebene Namen

Die Bots ignorieren alle Einträge, wenn deren Namen falsch geschrieben wurde. Wenn Sie also einzelne Bots Zugang zu bestimmten Verzeichnissen erlauben wollen bzw. nicht erlauben wollen, überprüfen Sie immer die richtige Schreibweise dieser Bots oder User-Agents.
Eine Hilfe kann hier bei die Webseite UserAgentString.com sein, auf der Sie eine Liste für verschiedene User-Agents finden.

9. Fehlende Doppelpunkte

Tippfehler oder einfaches Übersehen können dazu führen, dass der Doppelpunkt nach einem User-Agent-Eintrag oder einem Disallow: nicht gesetzt wird. Das führt dazu, dass diese Einträge ignoriert werden. Überprüfen Sie daher immer, ob nach jedem Disallow: und nach jedem User-Agent-Eintrag ein Doppelpunkt steht.

Gutes Beispiel:

User-agent: *
Disallow: /private/


Schlechtes Beispiel:

User-agent: *
Disallow /private/


10. Verwenden von Allow:

In der robots.txt gibt es genau eine Anweisung: Disallow: Wenn Sie also möchten, dass Ihre Seiten von den Bots besucht werden sollen, verwenden Sie keinesfalls das Kommando "Allow:" - denn dieses gibt es gar nichts. Im schlimmsten Fall führt die Verwendung dieses Kommandos zur nicht indexierung Ihrer Seiten bei den Such-Robots.


Kommentar schreiben


Sicherheitscode
Aktualisieren