robots.txt – 10 Fehler, die du vermeiden solltest

Der Einsatz einer robots.txt ist sinnvoll. Mit Hilfe dieser Datei können Spidern und Crawlern das Durchsuchen von bestimmten Verzeichnissen und Dateien verboten werden. Beim Erstellen der Datei passieren jedoch häufig kleine Fehler. Diese sorgen dafür, dass du am Ende nicht das gewünschte Ergebnis erzielst.

In diesem Artikel zeige ich zehn häufige Fehler, die du beim Erstellen der robots.txt vermeiden solltest.

 

1. Die robots.txt nicht im Root Verzeichnis abspeichern

Der häufigste Fehler ist, die robots.txt nicht im Root Verzeichnis der Website abzulegen. Die Bots und Crawler durchsuchen in der Regel nur das Root Verzeichnis nach dieser Datei ab. Unterverzeichnisse ignorieren sie dabei meist. Daher solltest du immer darauf achten, sie stets im Root Verzeichnis deiner Website abzulegen.

Die korrekte URL für die robots.txt müsste also lauten: https://www.example.org/robots.txt

 

2. Benutzen einer falschen Syntax

Damit die Einträge in der robots.txt auch wirklich greifen, musst du eine korrekte Syntax verwenden. So fangen zum Beispiel alle Einträge für Verzeichnis und Dateien stets mit einem führenden Slash an.

 

Beispiel:

User-agent: *
Disallow: /private.htm
Disallow: /private/

 

Die korrekte Syntax der robots.txt kann man jedoch mit einigen Tools online überprüfen lassen. Zum Beispiel mit dem Robots.txt Checker.

 

3. Eine leere robots.txt

Eine robots.txt funktioniert natürlich nur dann, wenn diese auch mit entsprechenden Anweisungen für die Robots gefüllt ist. Eine leere Datei ignorieren die Robots, so als ob sie gar nicht da wäre. Wenn du also eine robots.txt einsetzen möchtest, solltest du diese auch immer mit Inhalt befüllen. Ansonsten lass sie einfach weg.

 

4. Unterschiede zwischen Groß- und Kleinschreibung

Viele Webserver unterscheiden zwischen Groß- und Kleinschreibung. So ist die Klein.htm eine andere Datei als die klein.htm. Solltest du Verzeichnisse und Dateien nicht durchgängig klein geschrieben haben, achte auch auf die korrekte Schreibweise in der robots.txt. Der Einfachheit halber, und um Fehler zu vermeiden, solltest du immer alles klein schreiben.

 

5. Kommentare nicht an den Anfang des Blocks stellen

Wenn du in der robots.txt Kommentare verwendest, sollten diese immer am Anfang eines Blocks stehen. Außerdem muss jeder Kommentar mit einer führenden Raute beginnen. Das gilt dabei auch für jede einzelne Zeile der Kommentare. Erstreckt sich ein langer Kommentar über mehrere Zeilen, musst du daher vor jeder Zeile eine Raute setzen.

 

Beispiel:

# Private Dateien blockieren
User-agent: *
Disallow: /private/

 

6. Verzeichnisse ungewollt blockieren

Du solltest immer darauf achten, Bereiche deiner Website nicht ungewollt unter dem Punkt Disallow: zu setzen. Google und Co. ignorieren schließlich diese Bereiche deiner Website und listen sie dann nicht mehr im Index auf. Dies kann dann fatale Folgen für deine SEO haben.

Häufig passiert dies übrigens beim Ändern der Struktur deiner Website. Überprüfe die robots.txt also auf eventuelle Fehler hin, wenn du etwas an der Struktur änderst. Ansonsten kann es vorkommen, dass du ungewollt Verzeichnisse und Dateien sperrst.

 

7. Alle Verzeichnisse in eine Reihe stellen

Häufig wird ebenfalls der Fehler gemacht, mehrere Verzeichnisse und Dateien unter einem einzigen Disallow: zu stellen. Verwende daher für jedes Verzeichnis eine eigene Zeile mit einem eigenen Disallow:

 

Gutes Beispiel:

User-agent: *
Disallow: /private/
Disallow: /bilder/

 

Schlechtes Beispiel:

User-agent: *
Disallow: /private/ /bilder/

 

8. Falsch geschriebene Namen

Die Bots ignorieren alle Einträge, deren Namen falsch geschrieben ist. Möchtest du einzelnen Bots Zugang zu bestimmten Bereichen erlauben bzw. verbieten, überprüfe immer die richtige Schreibweise dieser Bots.

Eine Hilfe kann hier bei die Website UserAgentString.com sein, auf der du eine Liste für verschiedene User Agents findest.

 

9. Fehlende Doppelpunkte

Tippfehler oder Unachtsamkeit können dazu führen, dass der Doppelpunkt nach einem User Agent Eintrag oder einem Disallow: fehlt. Damit ignorieren Robots diese Angaben. Überprüfe daher immer, ob nach jedem Disallow: und nach jedem User-agent: ein Doppelpunkt steht.

 

Gutes Beispiel:

User-agent: *
Disallow: /private/

 

Schlechtes Beispiel:

User-agent: *
Disallow /private/

 

10. Verwenden von Allow:

Es gibt es genau eine Anweisung: Disallow: . Wenn du also möchtest, dass die Bots deine Website besuchen sollen, verwende nicht das Kommando Allow: . Denn das gibt es gar nicht. Im schlimmsten Fall führt die Verwendung dieses Kommandos dazu, dass Bots deine Website ignorieren.

 


Dir gefällt dieser Artikel?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.