Sönke Tesch: dynamische 'robots.txt' mit PHP

Beitrag lesen

User-agent: *
Allow: /index.php

Es gibt nur Disallow, kein Allow, und es können auch nur ganze Verzeichnisse ausgeschlossen werden.

Das ist beides falsch.

a) Allow gibt es durchaus, genauer seit Ende '96, das ist allerdings erst für die nächste Version vorgesehen und wird deshalb unter Umständen noch nicht von allen Suchmaschinen beachtet.

b) Die Musterpfade haben absolut nichts damit zu tun, ob da ein Verzeichnis hinter steckt oder eine Datei. Mal abgesehen davon, daß ein Client überhaupt keine verlässliche Möglichkeit hat, herauszufinden, was er da abfragt, geht es bei diesen Mustern nur darum, ob ein zu indizierender Pfad mit einem Muster beginnt oder nicht. Ein

Disallow /test/einszwei

passt also sowohl auf eine Datei "/test/einszwei.html" als auch auf ein Verzeichnis "/test/einszwei/drei/".

Btw, warum heißt diese Ressource auf ".php"? Wird PHP-Code ausgeliefert? Damit können Browser nichts anfangen. Wenn's HTML ist, nenn die Ressource doch einfach auf ".html".

Browser können mit PHP-Dateien nichts anfangen? Ähm. Tja. Einen Kommentar erspare ich mir doch lieber ;)

Tipp: http://www.suchfibel.de/

Besser gleich im Original: http://www.robotstxt.org/wc/exclusion.html.

Gruß,
  soenk.e