dynamische 'robots.txt' mit PHP von Andreas, 16.05.2002 08:40

dynamische 'robots.txt' mit PHP

Andreas 16.05.2002 08:40

sonstiges

Hi!

Das ist aber kein "Austragen" im eigentlichen Sinne, sondern einfach nur ein Aktualisieren des Indexes. Aber das erreichst Du auch, indem Du beim Abrufen einer nicht mehr existierenden Seite einen 404-Fehler zurückschickst (der für Leser durchaus wie normale Seite mit dem Text "Dieses Haus ist bereits verkauft" aussehen kann!).

Äh, OK, das stand ja auch da :-)

Unter "Austragen" verstehe ich mehr oder weniger eine echte Meldung von Dir an die Suchmaschine, sobald eine Seite aus dem Programm genommen wird (also bei Eintreten des "Ereignisses").

OK, das ist wirklich besser, das mache ich auch schon, aber halt mit 200er Meldung...

Der Vorgang den Du Dir vorstellst, fällt bei mir unter Suchmaschinen-Routine - alle paar Wochen vorbeischauen, eventuell robots.txt abholen und die Seiten durchwühlen.

Genau das hatte ich gedacht, beim drüber nachdenken wie ich einzelne Seiten anmelde, dachte ich, man könnte das doch einfach mit der robots.txt zentral erledigen, wäre wirklich sehr einfach, auch nicht so dumm wenn das funktionieren würde, finde ich!

Aber dann sag mir mal bitte, wozu es dann die Allow-Direktive gibt? Wo liegt der unterschied "Allow" anzugeben, und es ganz weg zulassen??? Mir wäre es sch... egal wenn sich 90 % der Suchmaschinen nicht darum kümmern, wenn es nur die 4-5 großen tun!
Das Problem ist, ich weiß immer noch nicht genau, wie ich die Eintragung automatisiert machen soll! Ich hatte da mal was probiert, mit google und fsockopen(), aber da ich das bei der Anlage eines neuen Datensatzes intergrieren möchte, ist das sehr umständlich, vor allem qenn ich das bei 5 oder noch mehr Suchmscheinen machen möchte, außerdem steigt dadurch die Gefahr, das irgendein Fehler auftritt!

2. Möglichkeit wäre einen Cronjob einmal die Nacht da durchlaufen zu lassen, und die neuen Seiten eintragen. Aber da habe ich dann die Befürchtung, das sich die Suchmaschinen wehren, wenn man direkt mehrere Seiten einträgt(vermeintlicher SPAM). Aber wie machen das genau die zahlreiche Suchmaschinen-eintrage-Software?

Finde keinen vernünftiegn Link zu allow, abr so wie ich das verstanden habe, werden die Seiten, die da drauf stehen automatisch indiziert, oder nicht?

Den Link hatte ich ja unten gepostet, schämt Euch das noch nichtmal Ihr Linksetzer... das nicht kennt :-)

Nein. Oder zumindest: Das ist wie bereits gesagt a) nicht Sinn und Zweck von Allow und b) entspricht auch nicht unbedingt der Arbeitsweise von Suchmaschinen und somit kann man sich auch nicht darauf verlassen..

Der Sinn ist ja auch gar nicht so wichtig! Es geht nur darum - funktionierts oder eben nicht? Wenn nicht verstehe ich wie gesagt die Existenzberechtigung von "Allow" nicht!

[..], weil der sinnvolle Weg der Benutzung dieser Datei "1. URL von irgendwo einlesen, 2. Prüfen, ob URL laut robots.txt verboten/erlaubt ist" lautet, nicht andersrum.

..und da steht's sogar noch :) Erst Adressen sammeln, dann gegen robots.txt abgleichen.

Im Prinzip richtig, aber auch bei Allow??? Warum bist Du Dir so sicher?

Mmh, Immobilienanzeigen. Also wenn ich malwieder ein Haus kaufe, dann frage ich Google immer nach "Haus Verkauf Kleinkleckersdorf", d.h. ich suche nach einem zu verkaufenden Haus in einer Region.

Genau das war meine Idee, aber wenn Du so suchst bekomme ich direkt wieder Panik, denn Du bist wahrlich kein "normaler" User, was meinst Du wie sucht der "kleine Mann von nebenan"?

Davon ausgehend würde ich sagen, daß Du Deine Hausadressen der Region entsprechend aufbaust, zum Beispiel "meinhausonline.de/schleswig-holstein/steinburg/kellinghusen/21/" und das dann in (jeweils bei Abruf aus der Datenbank generierte) Verzeichnisse einsetzt.

Ja, das ist eine gute Idee, langsame frage ich mich tatsächlich, ob ich nicht wirklich verzeichnisse erstelen soll, oder wieder ober mod_rewrite die ganze Welt an der Nase herumführen. Ein Nachteil von der mod_rewrite Version, ich kann nicht so wie bei Suchmaschinen gefordert Domains der Art http://www.meinhausonline.de/ID24/ umleiten, geht zwar im prinzip, aber der verar...te Browser gleubt auf einmal er sei in einem anderen Verzeichnis und dann stimmen die relativen Verknüpfungen nicht mehr, da muß ich wohl die absoluten verwenden, naja!

Damit hast Du alle Angebote direkt aus der Seitenstruktur heraus für Suchmaschinen erreichbar, Du hast die Regionen in den Adressen drin (könnte Pluspunkte bringen), Du hast die Regionen in einem immer erreichbaren (und damit indizierbaren) Verzeichnis drin und Du kannst den Lesern auch noch eine Alternative zur Suchfunktion anbieten.

Hm, Du meinst also tatsächlich echte Verzeichnisse, in denen zwarkeine Objekte stehen, aber immer eine Übersichsseite, die auf das nächste "Level" weiterleitet? Also erst, Bundesland, dann Stadt/Kreis und dann Dorf/Stadtteil oder so ähnlich? Aber bis dahin sieht man ja immer noch nichts von Immobilien, aber dafür was es alles so gibt, oder wie meintest Du das?

Ich finde es eine gute Idee, sich auf Zeitungen als Quelle zu konzentrieren, aber wenn der Interessent schonmal da ist (oder über eine Suchmaschine hereingestolpert kommt), sollte man ihm auch die Möglichkeit geben, ausgiebig zu stöbern.

Das ist richtig, da aber zur Zeit mit Zeitumngen über eine Zusammenarbeit diskutiert wird, wittern die Konkurrenz für die eigenen Seiten, aber die zeigen ja meist nur die Zeitungsanzeige an.
Denen hat dei Suchfunktion nicht geschmeckt, aber ich stimme Dir zu, ohen kann man gleich einpacken.

Ich persönlich bin mit Suchfunktionen nie so recht glücklich, weil man da immer irgendwie doch die passenden Stichworte oder Daten parat haben muß - solange man aber nicht weiß, was man exakt haben will und einem somit die exakten Daten fehlen, gehen einem auch grundsätzlich Sachen durch die Lappen.

Mein reden! Gerde bei den Immobilien Angeboten mußt Du teilweise 5 oder mehr Angaben machen, bis es erstmal weiter geht..., wobei ich sagen muß, die verwenden ja bei der Suche zwar keine Index-Seiten, so wie jetzt angedacht, sondern dynamische Listenfelder, oft noch mit Anzeige der Anzahl an Objekten in der Region! Ist auch nicht verkehrt, oder? Aber was ich auch sagen muß, wenn man so viele Angebote hat, MUSS man ja irgendwie filtern, man kann sich ja schlecht durch 10.000 Angebote klicken, wovon man 9900 sowiese ausschließen könnte, da in ganz falascher Preisregion, Lage....

Anders ausgedrückt: Man muß gewissermaßen vorher schon wissen, was man eigentlich erst durch die Suche rausfinden will.

Das ist ein generelles Problem von Suchmaschinen...
wobei man sich ja gerade bei Immobilien schon vorher ein Bild macht, zumindest Objektart, Preis und Lage einigermaßen feststehen, oder? Also sollte man das (evtl ohne Preis) auch vorher filtern, oder?

Über ein Verzeichnis findet man oft noch einige interessante Dinge mehr, weil man da über viele Kriterien hinweg gleichzeitig und deutlich "unschärfer" suchen kann als es eine Maschine je könnte (stöbern eben). Gerade bei Häusern könnte ich mir beispielsweise vorstellen, daß man mehr Wert legt auf das Aussehen als auf technische Daten. Aber woher soll die Suchfunktion wissen, was mir gefällt?

Ja was Dir gefällt, aber wenn ich sage meine neue Villa darf max. 3 Mio EUR kosten und soll höchstens 30 Minuten weg von meinem Job sein, dann hast Du doch 2 Kriterien, mit denen Suchmaschinen ne ganze menge filtern können, oder? Du wirst jetzt sagen und was wenn sie das Traumobjekt für 3,012 Mio nicht findet... OK, aber das könnte man auch mit einer Tolerenz von 20% mit einschließen, genau so mit einer Lage nur 2 minuten daneben, wer sagt denn das Du "von Hand" in der Region daneben gesucht hättest?

Oder könnte ich automatisch immer eine Seite eintragen, die alle Links enthält, und dann in der Seite <meta name="robots" content="noindex">?

Wäre eine andere Möglichkeit, halte ich aber für bei weitem nicht so sinnvoll wie das automatisches Verzeichnis, das ich eben beschrieben habe.

Das ist richtig.

Und die Austragungen dann halt mit Disallows in der robots.txt, oder?

Nein, unnötig, wie oben geschrieben. Schreib stattdessen eine nette Fehlerseite, die bei Aufruf der veralteten Adresse einen 410-Fehler zurückliefert (RFC 2616, Absatz 10.4.11, http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html#sec10.4.11) und für menschliche Existenzen noch einen netten Text à la "Dieses Objekt hat bereits einen neuen Besitzer glücklich gemacht" enthält :)

Wirklich gut!

Davon abgesehen würde ich mich bei den Seiten etwas mehr an Standards halten, lass mal http://validator.w3.org drüberlaufen.

Naja, da hatte ich ja was zu geschrieben, es wird doch überall angezeigt, aber ich schue es mir mal an!

Und die Angebotsseiten schreien zum Beispiel geradezu nach einer Umsetzung mit HTML 4 Strict. Tabellenlayout ist da wirklich absolut unnötig, der Dateiinhalt wird einfacher, strukturierter und logischer (=besser indizierbar), die Datenmenge kleiner und eine Suchmaschine muß sich nicht durch soviel Tralala wühlen. Dinge wie Überschriften (<h1> bis <h6>) sehen die im Gegensatz zu <td>-Wüsten besonders gern, hast Du aber leider überhaupt nicht benutzt.

Ist das auch heute noch so? Ich dachte sowas hätte stark an Bedeutung verloren! Mit den Tabellen, ob das so nötig ist - es sind alleine 3 Tabellen drum rum, um den Rand so kompatibel überall anzeigen zu können!

Aber vielen, vielen Dank für Deine sehr kostruktiven Postings, hast mir sehr geholfen!

Viele Grüße
Andreas

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Andreas: dynamische 'robots.txt' mit PHP

Beitrag lesen

dynamische 'robots.txt' mit PHP

dynamische 'robots.txt' mit PHP

nimm das......

...wer ist der Autor?

Validator???