robots.txt - so geht's richtig Drucken E-Mail
Know How - Webmasterwissen

Mit Hilfe der robots.txt kann einem Spider einer Suchmaschine, oder anderen Cralwern - also allen Programmen, die Ihre Webseite indexieren wollen - verboten werden, gewisse Verzeichnisse oder Dateien zu besuchen. Viele Webseiten besitzen jedoch gar keine robots.txt. Dennoch ist die Erstellung dieser kleinen Datei relativ wichtig. Warum dies so ist, können Sie in der folgenden Liste nachlesen:
  • Sie haben einen Mitgliedsbereich auf Ihrer Webseite, der nicht in den Index der Suchmaschinen landen soll.
  • Sie haben noch nicht fertig gestellte Bereiche auf Ihrer Webseite. Diese sollten nach Möglichkeit nicht in den Index einer Suchmaschine landen.
  • Nicht alle Crawler und Spider stammen von Suchmaschinen. Manche suchen beispielsweise gezielt nach Mail-Adressen, die zu Spam-Zwecken gesammelt werden sollen.
  • Sie möchten bestimmte Verzeichnisse Ihrer Webseite vor "fremden Augen" schützen. Der Inhalt soll nicht in den Suchmaschinen erscheinen.
Wie Sie sehen, gibt es verschiedene Gründe, bestimmte Verzeichnisse für Suchmaschinen nicht freizugeben. Mal von den Spam-Spidern abgesehen, die ebenfalls das Internet nach verwertbaren Adressen durchforsten.

Eine robots.txt zu erstellen ist kinderleicht. Dazu müssen Sie einfach eine neue Textdatei anlegen. Diese speichern Sie anschließend unter dem Namen "robots.txt" ab (alles klein geschrieben). Diese Datei muss nun im Root-Verzeichnis Ihrer Webseite abgelegt werden. Wenn Ihre Seite also http://www.ihre-seite.de/ heißt, muss der Pfad zur robots.txt so aussehen: http://www.ihre-seite.de/robots.txt.

Die robots.txt ist relativ simpel aufgebaut. Man legt zuerst den Spider oder Crawler fest, den man den Zugriff auf ein bestimmtes Verzeichnis verweigern möchte. Dies ist der so genannte User-agent. Danach legt man die Aktion fest, die man diesem Robot zuweisen möchte, zum Schluss folgt das gewünschte Verzeichnis.

Beispiel:

User-agent: *
Disallow: /geheim/
Disallow: /privat/
Disallow: /konfiguration.php

User-agent: fiktiver-robot1
Disallow: /forum/


Erklärung:
Wenn Sie dieses Beispiel kopieren und in Ihre robots.txt einfügen würden, so würde sich folgendes Szenario ergeben. Allen Robots (definiert durch das Sternchen) wird der Zugriff auf die Verzeichnisse geheim und privat verboten. Genau so dürfen Sie die konfiguration.php nicht anrühren. Der fiktive Robot1 darf zusätzlich zu den vorhergenannten Verzeichnissen und Dateien auch Ihr Forum nicht durchforsten. Der Grundaufbau ist dabei immer der Gleiche. Sie können sowohl allen Robots (*), als auch klar definierten Robots den Zugriff auf verschiedene Verzeichniss oder einzelne Dateien verweigern.

Wenn Sie möchten, können Sie sich hier eine vorgefertigte robots.txt anschauen und für Ihre Seite verwenden. In dieser robots.txt sind bereits viele Spam-Bots eingetragen, die durch den Eintrag in der robots.txt keinen Zugriff mehr auf Ihre Seiten haben sollten.

Warnung:
Doch Achtung: Es halten sich zwar die meisten Robots an die Anweisungen in der robots.txt, doch alle tun dies nicht. Es besteht also keine Garantie, dass Ihre privaten Dateien nicht doch in irgendwelchen Suchmaschinen oder in fremde Hände gelangen. Um einen sicheren Schutz vor fremden Augen zu gewährleisten, sollten Sie bei sehr sensiblen Daten einen Passwortschutz einrichten. Beachten Sie auch, dass Webbrowser die Angaben der robots.txt ignorieren. Das heißt, normale Internetsurfer können nach wie vor all Ihre Verzeichniss einsehen, sofern die nicht per .htaccess Passwortgeschützt sind.


 


Weitere Artikel: