robots.txt – 10 Fehler, die du vermeiden solltest

Der Einsatz einer robots.txt ist sinnvoll. Mit Hilfe der robots.txt können Spidern und Crawlern das Durchsuchen von privaten Verzeichnissen und Dateien verboten werden. Doch beim Erstellen der robots.txt passieren häufig kleine Fehler. Diese sorgen dafür, dass du am Ende nicht das gewünschte Ergebnis erzielst.

In diesem Artikel zeige ich zehn häufige Fehler, die du beim Erstellen der robots.txt vermeiden solltest.

 

1. Die robots.txt nicht im Root-Verzeichnis abspeichern

Der häufigste Fehler ist, die robots.txt nicht im Root-Verzeichnis der Webseite abzulegen. Die Spiderbots und Crawler durchsuchen in der Regel nur das Root-Verzeichnis nach dem Vorhandensein einer robots.txt. Unterverzeichnisse ignorieren sie meist dabei. Daher solltest du immer darauf achten, die robots.txt stets im Root-Verzeichnis deiner Webseite abzulegen.

Die korrekte URL für die robots.txt müsste also lauten: https://www.example.org/robots.txt

 

2. Benutzen einer falschen Syntax

Damit die Einträge in der robots.txt auch wirklich greifen, musst du eine korrekte Syntax verwenden. So fangen zum Beispiel alle Einträge für Verzeichnis und Dateien stets mit einem führenden Slash an.

 

Beispiel:

User-agent: *
Disallow: /private.htm
Disallow: /private/

 

Die korrekte Syntax der robots.txt kann man auch mit einigen Tools online überprüfen lassen. Zum Beispiel mit dem Robots.txt Checker.

 

3. Eine leere robots.txt

Eine robots.txt funktioniert natürlich nur dann, wenn diese auch mit entsprechenden Anweisungen für die Robots gefüllt ist. Eine leere robots.txt ignorieren die Robots, so als ob sie gar nicht da wäre. Wenn du also eine robots.txt einsetzen möchtest, solltest du diese auch immer mit Inhalt befüllen. Ansonsten lass sie einfach weg.

 

4. Unterschiede zwischen Groß- und Kleinschreibung

Viele Webserver unterscheiden zwischen Groß- und Kleinschreibung. So ist die Private.htm eine andere Datei als die private.htm. Solltest du Verzeichnisse und Dateien nicht durchgängig klein geschrieben haben, achte auch auf die korrekte Schreibweise in der robots.txt. Der Einfachheit halber, und um Fehler zu vermeiden, solltest du immer alles klein schreiben.

 

5. Kommentarzeilen nicht an den Anfang des Blocks stellen

Wenn du in der robots.txt Kommentarzeilen verwendest, sollten diese immer am Anfang eines Blocks stehen. Außerdem muss jede Kommentarzeile mit einem führenden Rautenzeichen beginnen.

 

Beispiel:

# Private Dateien blockieren
User-agent: *
Disallow: /private/

 

6. Verzeichnisse ungewollt blockieren

Du solltest immer darauf achten, Verzeichnisse, die du indexieren lassen möchtest, nicht unter dem Punkt Disallow: zu setzen. Auch wenn die Seitenstruktur sich mal ändern sollte, solltest du die robots.txt auf eventuelle Fehler hin überprüfen. Ansonsten kann es vorkommen, dass du ungewollt Verzeichnisse und Dateien sperrst, die eigentlich doch im Index der Suchmaschinen landen sollen.

 

7. Alle Verzeichnisse in eine Reihe stellen

Auch ein häufig gemachter Fehler ist, mehrere Verzeichnisse und Dateien unter einem einzigen Disallow: zu stellen. Verwenden Sie für jedes Verzeichnis eine eigene Zeile mit einem eigenen Disallow:

 

Gutes Beispiel:

User-agent: *
Disallow: /private/
Disallow: /private.htm
Disallow: /grafiken/

 

Schlechtes Beispiel:

User-agent: *
Disallow: /private/ /grafiken/ /private.htm

 

8. Falsch geschriebene Namen

Die Bots ignorieren alle Einträge, deren Namen falsch geschrieben ist. Möchtest du einzelnen Bots Zugang zu bestimmten Verzeichnissen erlauben bzw. nicht erlauben, überprüfe immer die richtige Schreibweise dieser Bots.

Eine Hilfe kann hier bei die Webseite UserAgentString.com sein, auf der du eine Liste für verschiedene User-Agents findest.

 

9. Fehlende Doppelpunkte

Tippfehler oder einfaches Übersehen können dazu führen, dass der Doppelpunkt nach einem User-Agent-Eintrag oder einem Disallow: nicht gesetzt ist. Damit ignorieren Such-Robots diese Angaben. Überprüfe daher immer, ob nach jedem Disallow: und nach jedem User-agent: ein Doppelpunkt steht.

 

Gutes Beispiel:

User-agent: *
Disallow: /private/

 

Schlechtes Beispiel:

User-agent: *
Disallow /private/

 

10. Verwenden von Allow:

In der robots.txt gibt es genau eine Anweisung: Disallow: . Wenn du also möchtest, dass die Bots deine Webseite besuchen sollen, verwende keinesfalls das Kommando Allow: . Dieses gibt es gar nicht. Im schlimmsten Fall führt die Verwendung dieses Kommandos dazu, dass Such-Robots deine Webseite ignorieren.

 


Dir gefällt dieser Artikel?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.