Single Blog

robots.txt – Was ist das und wie erstelle ich diese?

Was ist eine robots.txt?

Die  robots.txt, ist eine reine Textdatei (nicht HTML), die vom Webmaster einer Domain/Webseite erstellt wird um den Bot einer Suchmaschine anzuweisen, auf welche Teile einer Webseite er Zugriff bekommt. Wann und wie man diese verwendet wird hier erklärt!

 

Wann verwende ich diese?

Man verwendet eine robots.txt, welche auf der Root-Ebene einer Domain (z.B. https://www.store-host.com/robots.txt) anlegt wird um …

  • dem Webcrawler zu verbieten, auf nicht öffentliche Verzeichnisse einer Webseite zu gelangen
  • eine Suchmaschine daran zu hindern, Indexskripte, Utilities oder andere Arten von Code zu erreichen
  • vorhandene doppelte Inhalte, z.B. Druckversionen von HTML-Dateien, nicht zu indexieren
  • dem Webcrawler zu helfen die XML-Sitemap zu finden

Crawler von Google

Es gibt zahlreiche Crawler (User-Agent) von Google, die man in dem Dokument verwenden kann. In der folgenden Liste sind die gängigen aufgelistet, um z.B. das Indexieren von Bildern oder Videos zu verbieten.

Crawler User-Agent
Googlebot
(Google Websuche)
Googlebot
Googlebot für Nachrichten Googlebot-News
Googlebot für Bilder Googlebot-Image
Googlebot für Videos Googlebot-Video
Google Mobile Adsence Mediapartners-Google
oder
Mediapartners
Google AdSense Mediapartners-Google
oder
Mediapartners
Google AdsBot AdsBot-Google

Einfache Aufbaubeispiele

Als erstes gibt man den Namen des Webcrawlers (User-Agent) an, der angesprochen werden soll. Anschließend den Befehl, also die Aktion, welche ausgeführt werden soll.

Die einfachste Version gilt als Regel für alle Webcrawler. Sie erlaubt das Crawlen der kompletten Seite

 

User-agent: *
Disallow:

 

Möchte man nur den Googlebot ansprechen, so fügt man den Webcrawler von Google hinzu:

User-agent: Googlebot

Disallow:

Disallow

Um eine bestimmte Seite oder gar ein Verzeichnis für den Googlebot auszuschließen, genügt das Hinzufügen in die Disallow-Zeile (Man kann so viele Disallow-Zeilen angeben wie möglich)

Ausschließen einer bestimmten Seite:

User-agent: Googlebot
Disallow: /unterseite.html

Ausschließen eines bestimmen Verzeichnis:

User-agent: Googlebot
Disallow: /verzeichnis/

Ich habe schon öfters erlebt, dass einige Webmaster nur bestimmten Crawlern das Indexieren bestimmter Teile einer Seite verbieten möchten. Hier ein Beispiel dafür:

User-Agent: Googlebot
Disallow:
User-Agent: msnbot
Disallow: /verzeichnis/
User-Agent: *
Disallow: /tmp/
Disallow: /logs

Mit der letzten Regel verbietet man allen Webcrawlern die tmp-Verzeichnisse und alle Verzeichnisse und Ordner, die mit /logs beginnen.

Fortgeschrittene Aufbaubeispiele

Crawl-Verzögerung

Diese Anweisung teilt dem Webcrawler einer Suchmaschine mit, wie viele Sekunden zwischen den Crawl-Vorgängen der einzelnen Seiten vergehen soll. Eine Methode um die Belastung des Servers zu verringern. Diese wird von Yahoo!, Bing und Ask unterstützt.

User-Agent: Bingbot
Crawl-Delay: 5

Pattern-Matching:

Google und Bing erlauben die Verwendung von zwei regulären Ausdrücken, die verwendet werden können, um Seiten oder Verzeichnisse von den Webcrawlern auszuschließen. Diese sind einmal ein Stern (*) und das Dollarzeichen ($).

Um bestimmte Unterverzeichnisse zu sperren, die mit /verzeichnis beginnen (/verzeichnis1/, /verzeichnis2/, nutzt man die Hilfe eines Wildcards (*).  Dies wird von Google, Yahoo! und Bing unterstützt.

User-Agent: Googlebot
Disallow: /verzeichnis*/

Um alle URLs zu sperren die beispielweise auf .asp enden, nimmt man das Dollarzeichen ($) zur Hilfe:

User-Agent: Googebot
Disallow: /*.asp$

Sitemap

Die letzte Zeile, die oft Verwendung in der robots.txt findet, ist die Ortsangabe der XML-Sitemap. Es gibt viele Gründe eine XML-Sitemap für eine Webseite zu nutzen.

Um die Sitemap in die robots.txt hinzuzufügen, reicht eine einfache Zeile aus:

User-Agent: *
Disallow:
Sitemap: http://www.domain.de/sitemap.xml

Das gleiche gilt natürlich auch für Video- oder Bilder-Sitemaps

User-Agent: *
Disallow:
Sitemap: http://www.domain.de/sitemap.xml
Sitemap: http://www.domain.de/video-sitemap.xml
Sitemap: http://www.domain.de/bilder-sitemap.xml

 

Webseite doch im Index trotzt Sperrung?

Es kommt schonmal vor, dass eine Webseite in den Suchergebnissen einer Suchmaschine erscheint, obwohl man diese durch die robots.txt gesperrt hat.

Das ist der Fall, wenn eine gesperrte Seite sehr viele eingehende Links mit gleichem Linktext erhält. Für die Suchmaschine ist diese Seite dann so relevant und interessant, dass diese Seite zum gesuchten Linktext erscheint, aber wichtig: nicht in den Index gelangt. Dies macht sich dann so bemerkbar, dass das dazugehörige Snippet fehlt.

Add a Comment