Ein Firefox Add-On zum Prüfen der robots.txt
(english version) roboxt! hier herunterladen
Das Firefox-Add-On "roboxt!" hilft beim Überprüfen der robots.txt, indem es anzeigt, welche Seiten durch einen Crawler besucht werden dürfen und welche Links auf gesperrte Seiten führen.
Funktionen
In der Statusbar zeigt roboxt! nach dem Laden einer Seite an, ob der Crawler, der in den Einstellungen genannt ist, die aktuelle Seite besuchen darf oder ob sie für ihn durch die robots.txt gesperrt ist. Wenn in den Einstellungen ausgewählt ist, dass blockierte Links markiert werden sollen, zeigt roboxt! in der Statusbar außerdem die Zahl der Links an, die auf blockierte Seiten führen:
Die blockierten Links werden gegebenenfalls auf der Seite rot hinterlegt und umrandet:
Kontext-Menü
Über das Kontext-Menü der roboxt!-Statusbar lassen sich die Einstellungen aufrufen. Der Menüpunkt "Zeige die robots.txt" öffnet die robots.txt der aktuellen Domain in einem neuen Tab / Fenster.
Einstellungen
In den Einstellungen lassen sich zwei Anpassungen des roboxt!-Add-Ons vornehmen:
- Kann der Name des Crawlers festgelegt werden, für den die robots.txt geprüft wird. Standardmäßig ist dies "Googlebot".
- Kann eingestellt werden, ob angezeigt wird, wie viele und welche Links für den genannten Crawler gesperrt sind.
Bei Problemen
Falls die Einstellungen geändert werden, sollte die aktuelle Seite noch einmal geladen werden, damit roboxt! sie mit den neuen Einstellungen noch einmal prüft. Ansonsten gilt immer, dass wenn das Ergebnis von roboxt! nicht den Erwartungen entspricht, die aktuelle Seite ebenfalls noch einmal geladen werden sollte, um eine fehlerhaft Interpretation durch roboxt! auszuschließen.
Zur Interpretation der Anweisungen in der robots.txt
Die meistens Regeln, nach denen Anweisungen in der robots.txt funktionieren, sind relativ eindeutig. Von roboxt! werden die Anweisungen im Zweifelsfall auf diese Weise interpretiert:
- Das roboxt!-Add-On prüft die robots.txt gemäß den erweiterten Regeln von Google. So interpretiert das Add-On beispielsweise auch Wildcards und "Allow"-Anweisungen. Der offizielle Standard für die robots.txt lässt etwas weniger Spielraum bei der Gestaltung der robots.txt.
- Bei der Angabe des Crawlers achtet roboxt! nicht auf Groß- oder Kleinschreibung. Die Pfadangaben werden aber case sensitiv interpretiert.
- Nur wenn für einen Crawler gar keine Anweisung definiert ist, wird auf die Anweisungen für alle Crawler - den Block mit dem User Agent "*" - zurückgegriffen.
- Bei konkurrierenden Anweisungen gelten folgende Regeln:
- Komplexere Anweisungen schlagen weniger komplexe Anweisungen. Als Komplexität wird die Länge des angegebenen Pfads gewertet.
- Spätere Regeln schlagen frühere Regeln
Versionsgeschichte
<dl> <dt>1.0.3</dt><dd>Erweiterte Kompatibilität mit Firefox 6.* und späteren Versionen</dd><dt>1.0.2</dt><dd>Fehlerhaften Link zu den Eigenschaften im Add-On-Menü von Firefox korrigiert</dd> <dt>1.0.1</dt><dd>Kompatibilität zu Firefox 5.*</dd> <dt>1.0.0</dt><dd>Die erste Version stellt die grundlegenden Funktionen zur Verfügung</dd> </dl>