robots.txt – so geht’s richtig

Mit Hilfe der robots.txt kann dem Spider einer Suchmaschine, oder anderen Cralwern – also allen Programmen, die deine Webseite indexieren wollen – verboten werden, gewisse Verzeichnisse oder Dateien zu besuchen. Viele Webseiten besitzen jedoch gar keine robots.txt.

Warum die robots.txt wichtig ist und wie du sie richtig anlegen kannst, zeige ich dir in den folgenden Abschnitten.

 

 

Welche Vorteile bietet die robots.txt?

Die Erstellung der kleinen Datei ist immer dann wichtig, wenn Suchmaschinen gewisse Bereiche deines Webservers nicht durchsuchen sollen, wie zum Beispiel:

  • Mitgliedsbereiche, die nicht in den Suchergebnissen erscheinen sollen.
  • Unfertige Inhalte, die durch Suchmaschinen noch nicht bewertet werden sollen.
  • Andere Inhalte, die nicht unbedingt in den Ergebnislisten der Suchmaschinen erscheinen sollen.

 

Wie du siehst, gibt es verschiedene Gründe, bestimmte Verzeichnisse für Suchmaschinen nicht freizugeben.

 

Robots.txt erstellen

Eine robots.txt zu erstellen ist kinderleicht. Dazu musst du einfach eine neue Textdatei anlegen. Diese speicherst du anschließend unter dem Namen „robots.txt“ ab (alles klein geschrieben). Diese Datei musst du nun im Hauptverzeichnis (root) deiner Webseite ablegen. Wenn deine Domain also „http://www.deine-seite.de/“ heißt, muss der Pfad zur robots.txt so aussehen: http://www.deine-seite.de/robots.txt

 

Aufbau der robots.txt

Die robots.txt ist relativ simpel aufgebaut. Man legt zuerst den Spider oder Crawler fest, den man den Zugriff auf ein bestimmtes Verzeichnis verweigern möchte. Dies ist der so genannte User-agent. Danach legt man die Aktion fest, die man diesem Robot zuweisen möchte, zum Schluss folgt das gewünschte Verzeichnis.

 

Beispiel:

User-agent: *
Disallow: /geheim/
Disallow: /privat/
Disallow: /konfiguration.php

User-agent: fiktiver-robot1
Disallow: /forum/

 

Erklärung:

Mit dem obigen Beispiel verbietest du allen Robots (definiert durch das Sternchen) den Zugriff auf die Verzeichnisse „geheim“ und „privat“. Genau so dürfen sie die „konfiguration.php“ nicht anrühren. Der fiktive „Robot1“ darf zusätzlich zu den vorhergenannten Verzeichnissen und Dateien auch das Forum nicht durchforsten.

Der Grundaufbau ist dabei immer der Gleiche. Du kannst sowohl allen Robots (*), als auch klar definierten Robots den Zugriff auf verschiedene Verzeichnisse oder einzelne Dateien verweigern.

 

Warnung:

Doch Achtung: Es halten sich zwar die meisten Robots an die Anweisungen in der robots.txt, doch alle tun dies nicht. Daher ist die Verwendung einer robots.txt als Schutzvorrichtung zu sehen. Es soll vielmehr ein Steuerungselement für Suchmaschinen darstellen. Private Daten sind also auch mit robots.txt nur mit einer starken Verschlüsselung zu speichern.

Webbrowser ignorieren die Angaben der robots.txt ebenfalls. Normaler Internet-Surfer können also nach wie vor die Verzeichnisse einsehen, wenn diese nicht separat vor einem Zugriff geschützt sind.

 


Dir gefällt dieser Artikel?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.