########################################### # # # Alle Spider sind ausgeschlossen # # # # Thomas Grell vom 13.12.2006 10:47 # ########################################### User-agent: * Disallow: /awdata/ Disallow: /calendar/ Disallow: /classes/ Disallow: /css/ Disallow: /CVS/ Disallow: /fileadmin/ Disallow: /img/ Disallow: /js/ Disallow: /media-org/ Disallow: /misc/ Disallow: /phpgroupware/ Disallow: /stats/ Disallow: /t3lib/ Disallow: /typo3/ Disallow: /typo3_src-4.0.2/ Disallow: /typo3conf/ Disallow: /typo3temp/ Disallow: /uploads/ Disallow: /phpinfo.php Disallow: /ACHTUNG.txt ########################################################################################################### # Wie muss nun eine robots.txt aufgebaut sein? # In einer robots.txt können mehrere Regeln hintereinander festgelegt werden. # Dabei bestehen diese Regeln immer aus zwei Teilen. Als # erstes muss angegeben werden, für wen diese Regel bestimmt ist. # Hierbei kann man einzelne Robots mit Namen ansprechen oder die # Regel für alle Robots gültig machen. Die Suchmaschinen geben # Ihren Robots verschiedene Namen, # diese sehen Sie dann auch in Ihren Logfiles. So heißt der Robot von AltaVista zum Beispiel Scooter, # Excite hat seinen Robot ArchitextSpider genannt. # Viele Suchmaschinen geben auf Ihren Seiten an, unter welchem Namen Ihre Robots durch das Web wandern, # einige haben wir auch in unserem robots.txt-Generator integriert. Pro Zeile kann man einen Robot angeben, # jede Zeile muss mit dem Wort ‚User-agent' und einem Doppelpunkt anfangen. Beispiel: # User-agent: Scooter # Wollen Sie eine Regel für alle Robots festlegen, müssen Sie statt einem Robot-Namen ein * angeben: # User-agent: * # Hinter der Angabe der Robots folgt nun eine Auflistung der Verzeichnisse und Dateien, # die nicht aufgenommen werden soll. Hier kann man auch explizit angeben, welche Dateien # oder Verzeichnisse aufgenommen werden dürfen. Dabei muss jedes Verzeichnis, jede Datei in # einer Zeile angegeben werden, angefangen mit Disallow oder Allow, dann folgt ein Doppelpunkt # und die Angabe der Datei, des Verzeichnisses. So kann das dann aussehen: # Disallow: /verzeichnis1/ # Disallow: /verzeichnis2/unterverzeichnis/ # Disallow: /datei.htm # Allow: /verzeichnis3/ # Dabei müssen Sie darauf achten, dass Sie den Pfad ohne Domain angeben und immer # mit einem Slash beginnen. Wenn man nun die # Robots-Angabe und die Dateien/Verzeichnisse zusammenpackt, erhält man folgendes: # User-agent: Scooter # Disallow: /verzeichnis1/ # Disallow: /datei.htm # Wenn Sie einen Robot für die komplette Domain sperren wollen, müssen Sie einfach nur einen Slash angeben. # Wollen Sie zum Beispiel den Robot von Inktomi/Hotbot aussperren, würde das so aussehen: # User-agent: Slurp # Disallow: / # Das ist zum Beispiel dann sinnvoll, wenn ein Robot ständig wiederkommt und Ihren Trafic # unverhältnismäßig hoch belastet. Im Gegenzug kann man auch alle Verzeichnisse freigeben, # dazu muß man einfach nichts angeben: # User-Agent: Slurp # Disallow: # Zusätzlich zu den Suchmaschinen-Spidern gibt es noch spezielle Spider, die nach # Email-Adressen suchen, um diese dann in eine Datenbank aufzunehmen. Wenn Sie verhindern # wollen, dass solche Adressen-Sammler Ihre Adressen ausspionieren oder zum Beispiel alle # Adressen aus Ihrem Gästebuch aufnehmen, # müssen Sie als Robot-Namen den EmailCollector angeben. # Die verschiedenen Regeln müssen Sie durch eine Leerzeile trennen, Beispiel: User-agent: EmailCollector Disallow: / # User-Agent: * # Disallow: /verzeichnis3/