Andreas: dynamische 'robots.txt' mit PHP

Hallo!
ich hatte mir überlegt ein Script zu schreiben, mit dem ich bestimmte Seiten eine Homepage in ein Suchmaschinen gezielt eintrage. Aber der Aufwand hierfür wäre viel zu groß, wenn das vernünftig und automatisch funktionieren soll. Die einfachere Lösung wäre da doch einfach eine 'dynamische' robots.txt zu generieren, oder?

Es sollen automatisch bestimmte Seiten(Verzeichnisse) entfernt und hinzugefügt werden können, einzeln!

Das soll dann am Ende so aussehen:
erstmal die dauerhaft statischen Seiten wie die Startseite erlauben, und andere wie agbs, login, Bilderverzeichnis... verbieten. Danach dann die Verzeichnisse, die aus den Suchmaschinen verschwinden sollen wieder verbieten, und dann die Verzeichnisse, die neu sind erlauben.

User-agent: *
Allow: /index.php
Disallow: /kontakt.php
Disallow: /AGBs.php
Disallow: /login.php
Disallow: /images/
Disallow: /Verzeichnis4/
Disallow: /Verzeichnis5/
Disallow: /Verzeichnis6/
Allow: /Verzeichnis1/
Allow: /Verzeichnis2/
Allow: /Verzeichnis3/
Allow: /Verzeichnis78/

Im Prinzip könnte ich ja mit fputs() einfach jedesmal eine neue Datei generieren, aber das Dumme an der Sache, Ich muß ja irgendwie prüfen, ob der Eintrag bereits enhalten ist. Ich dachte daran, per file() die Datei zeilenweise in einen Array zu laden, und diesen dann entsprechend zu überprüfen und entsprechend zu reagieren.

Aber irgendwie bin ich mit der Lösung nicht wirklich glücklich. oder vielleicht alle Allows in eine Datei und alls Disallows ien eine andere, und hinterher immer neu generieren?

Wie würdet Ihr das machen? Was kann man überhaupt dazu sagen, wie halten sich Suchmachinen an sowas?

Grüße
Andreas

  1. Hi,

    Die einfachere Lösung wäre da doch einfach eine 'dynamische' robots.txt zu generieren, oder?

    ist das einfacher, als gleich die User-Agents anzugeben?

    User-agent: *
    Allow: /index.php

    Es gibt nur Disallow, kein Allow, und es können auch nur ganze Verzeichnisse ausgeschlossen werden.

    Btw, warum heißt diese Ressource auf ".php"? Wird PHP-Code ausgeliefert? Damit können Browser nichts anfangen. Wenn's HTML ist, nenn die Ressource doch einfach auf ".html".

    Tipp: http://www.suchfibel.de/

    Cheatah

    1. User-agent: *
      Allow: /index.php

      Es gibt nur Disallow, kein Allow, und es können auch nur ganze Verzeichnisse ausgeschlossen werden.

      Das ist beides falsch.

      a) Allow gibt es durchaus, genauer seit Ende '96, das ist allerdings erst für die nächste Version vorgesehen und wird deshalb unter Umständen noch nicht von allen Suchmaschinen beachtet.

      b) Die Musterpfade haben absolut nichts damit zu tun, ob da ein Verzeichnis hinter steckt oder eine Datei. Mal abgesehen davon, daß ein Client überhaupt keine verlässliche Möglichkeit hat, herauszufinden, was er da abfragt, geht es bei diesen Mustern nur darum, ob ein zu indizierender Pfad mit einem Muster beginnt oder nicht. Ein

      Disallow /test/einszwei

      passt also sowohl auf eine Datei "/test/einszwei.html" als auch auf ein Verzeichnis "/test/einszwei/drei/".

      Btw, warum heißt diese Ressource auf ".php"? Wird PHP-Code ausgeliefert? Damit können Browser nichts anfangen. Wenn's HTML ist, nenn die Ressource doch einfach auf ".html".

      Browser können mit PHP-Dateien nichts anfangen? Ähm. Tja. Einen Kommentar erspare ich mir doch lieber ;)

      Tipp: http://www.suchfibel.de/

      Besser gleich im Original: http://www.robotstxt.org/wc/exclusion.html.

      Gruß,
        soenk.e

      1. hi,

        Browser können mit PHP-Dateien nichts anfangen? Ähm. Tja. Einen Kommentar erspare ich mir doch lieber ;)

        können sie auch nicht. sollte php aus irgendeinem grund auf dem server nicht funktionieren, würden sie einfach den php-quelltex anzeigen.

        mfg, jan

        1. Moin!

          können sie auch nicht. sollte php aus irgendeinem grund auf dem server nicht funktionieren, würden sie einfach den php-quelltex anzeigen.

          sollte der Server aus irgendeinem Grunde nicht funktionieren wird auch kein html ausgeliefert, sollte T-Online mal wieder peering-Probleme haben wird trotz laufender Server und PHP auch nix bei einem Großteil der user ankommen, solltest Du einen Stromausfalle zu Hause haben bleibt Dein Monitor ebenfalls schwarz...

          Andreas

          1. hab ich was von 'sollte der server nicht funktionieren' gesagt?
            es kann wohl durchaus vorkommen, daß die serverkonfiguration geändert wird, und der server läuft nur php halt nicht.
            deshalb legt man doch auch php-dateien in denen sensible informationon eingetragen sind auch 'unter' das verzeichnis, in dem die dateien liegen, die der server ausliefern kann, oder?

            jan

      2. Hi,

        Das ist beides falsch.

        danke für die Korrektur.

        a) Allow [...] wird deshalb unter Umständen noch nicht von allen Suchmaschinen beachtet.

        Eben drum :-)

        b) Die Musterpfade haben absolut nichts damit zu tun, ob da ein Verzeichnis hinter steckt oder eine Datei.

        Okay. Ich entsinne mich aber an Suchmaschinen (verlange bitte keine Namen von mir, ich habe mir nur die Quintessenz gemerkt), die nur auf Pfad-Basis arbeiten. Ich hoffe, dass solche nicht mehr vorkommen und streiche diesen Gedächtniseintrag.

        Browser können mit PHP-Dateien nichts anfangen? Ähm. Tja. Einen Kommentar erspare ich mir doch lieber ;)

        Kennst Du einen Browser der in der Lage ist, PHP-Code auszuführen? Ich jedenfalls nicht.

        Cheatah

        1. a) Allow [...] wird deshalb unter Umständen noch nicht von allen Suchmaschinen beachtet.

          Eben drum :-)

          Naja, Google machts IIRC, alles andere fällt unter "es war einmal.." ;)

          Browser können mit PHP-Dateien nichts anfangen? Ähm. Tja. Einen Kommentar erspare ich mir doch lieber ;)

          Kennst Du einen Browser der in der Lage ist, PHP-Code auszuführen? Ich jedenfalls nicht.

          Ich auch nicht, aber kennst Du einen Server, der PHP-Code an Clients ausliefert? Ich nicht. Ok, wenn sie kaputt sind, meinetwegen, aber das zählt wohl kaum.
          Insofern ist das doch völlig unwichtig, ob in der robots.txt eine PHP-Datei aufgelistet wird oder nicht - die Suchmaschine bekommt doch nur die Ausgabe des PHP-Skriptes zu sehen.

          Gruß,
            soenk.e

      3. Moin moin!

        a) Allow gibt es durchaus, genauer seit Ende '96, das ist allerdings erst für die nächste Version vorgesehen und wird deshalb unter Umständen noch nicht von allen Suchmaschinen beachtet.

        Alles was ich ueber Allow gefunden habe und nicht einer vom anderen abgeschrieben hat, ist http://www.robotstxt.org/wc/norobots-rfc.html. Das ist ein *Draft*, also noch nicht mal ein Proposal oder gar eine Recommendation, und hat daher keinerlei normativen Charakter. Wie Suchmaschinen auf Allow reagieren, steht damit voellig in den Sternen. Es waere sogar vorstellbar, dass sie dann wegen eines Syntaxfehlers einfach die Interpretation abbrechen (obwohl das immerhin auch in violation zum urspruenglichen Standard stehen wuerde).

        Formulieren wir also korrekt: Es gibt Bestrebungen, einen Standard zu erstellen, der ein Allow enthaelt, aber etwas definitives ist da noch lange nicht herausgekommen. Bis dahin sollte man Allow nicht verwenden.

        BTW frage ich mich schon, warum das Dokument ueber 5 Jahre da so rumgammelt, ohne dass sich jemand darum kuemmert.

        So long

        --
        Die Aggressivitaet kommt vom Heavy Metal!!! CounterStrike ist doch nur zum Runterkommen!!!!!

        1. Hi!

          Alles was ich ueber Allow gefunden habe und nicht einer vom anderen abgeschrieben hat, ist http://www.robotstxt.org/wc/norobots-rfc.html. Das ist ein *Draft*, also noch nicht mal ein Proposal oder gar eine Recommendation, und hat daher keinerlei normativen Charakter. Wie Suchmaschinen auf Allow reagieren, steht damit voellig in den Sternen. Es waere sogar vorstellbar, dass sie dann wegen eines Syntaxfehlers einfach die Interpretation abbrechen (obwohl das immerhin auch in violation zum urspruenglichen Standard stehen wuerde).

          Also das die Suchmaschinen das abbrechen wage ich zu bezweifeln. Könnte man das nicht einfach mal testen? Google wird wohl kaum so ne Frage beantworten fürchte ich! Ich habe auch nur das alles gefunden, aber das Draft selbst nicht. ich weiß jetzt nicht wer akademie.de genau ist, aber unter http://www.akademie.de/websiteaufbau/tipps_tricks/content_vermarktung/suchmaschinen/zutritt_verboten.html steht unten das es so ich wie ich es gerne hätte, aber das ist ja nur von irgendnem leser geschrieben worden, der es womöglich von einer der vielen oft kopierten Seiten hat, ich hab mal an den Autor geschrieben, vielleicht hat der ja andere Quellen? Oder gibt es das ganz definitiv nicht? Ich selbst finde bei den Standards sowieso nichts wenn ich nicht genau weiß wo es steht!

          Formulieren wir also korrekt: Es gibt Bestrebungen, einen Standard zu erstellen, der ein Allow enthaelt, aber etwas definitives ist da noch lange nicht herausgekommen. Bis dahin sollte man Allow nicht verwenden.

          BTW frage ich mich schon, warum das Dokument ueber 5 Jahre da so rumgammelt, ohne dass sich jemand darum kuemmert.

          Vieleicht hat sich ja jemand drum gekümmert und Du weißt nichts davon ;-))))  Aber ich vertraue Dir mal leber als dem ominösen Leser der diese Behauptung aufgestellt hat :-)

          Grüßé
          Andreas

          1. Re there!

            Ich habe auch nur das alles gefunden, aber das Draft selbst nicht.

            Ich hab einfach auf http://www.robotstxt.org/wc/robots.html rumgeklickt und gelesen, was da steht. ;-) Demnach ist uebrigens auch die jetzige Form kein Standard in dem Sinne, dass er von einer Org wie der IETF oder dem W3C als Recommendation verabschiedet wurde. Es ist eine Uebereinkunft von allen, die sich seinerzeit an der Diskussion beteiligt haben (so steht es in http://www.robotstxt.org/wc/norobots.html), und da es nichts offizielleres gibt (sonst wuerde man das ganz sicher auf der Domain finden), ist nun eben das gueltig.

            ich weiß jetzt nicht wer akademie.de genau ist, aber unter http://www.akademie.de/websiteaufbau/tipps_tricks/content_vermarktung/suchmaschinen/zutritt_verboten.html steht unten das es so ich wie ich es gerne hätte, aber das ist ja nur von irgendnem leser geschrieben worden, der es womöglich von einer der vielen oft kopierten Seiten hat, ich hab mal an den Autor geschrieben, vielleicht hat der ja andere Quellen?

            Schau Dir die Seite doch an. Ein Wald- und Wiesen-Magazin, das Workshops und Tips&Tricks fuer Webworker anbietet. Es gibt gewoehnlich kaum uninformiertere oder dilletantischere Kreise als solche Magazine. Naja, Ausnahmen bestaetigen bestimmt wieder die Regel.

            BTW frage ich mich schon, warum das Dokument ueber 5 Jahre da so rumgammelt, ohne dass sich jemand darum kuemmert.
            Vieleicht hat sich ja jemand drum gekümmert und Du weißt nichts davon ;-))))  Aber ich vertraue Dir mal leber als dem ominösen Leser der diese Behauptung aufgestellt hat :-)

            Naja, so ein Draft will ja gewoehnlich mal irgendwann eine RFC werden. Aber auf http://www.ietf.org/iesg/1rfc_index.txt (493KB) kann ich nichts ueber Robots finden.

            So long

            --
            Die Aggressivitaet kommt vom Heavy Metal!!! CounterStrike ist doch nur zum Runterkommen!!!!!

    2. Hi!

      ist das einfacher, als gleich die User-Agents anzugeben?

      Das Problem ist, das auf diese Verzeichnisse keine direkten Links existieren, also werden diese auch niemals in eine Suchmaschine eingetragen. Die Daten hierfür kommen aus deine Datenbank, es handelt sich jeweils um 5 php-Seiten in einem Verzeichnis, die ca. 3-6 Monate existieren.
      Damit in der Suchmaschine nicht ohne Ende Leichen liegen, hatte ich mir das so gedacht!

      User-agent: *
      Allow: /index.php

      Es gibt nur Disallow, kein Allow, und es können auch nur ganze Verzeichnisse ausgeschlossen werden.

      Btw, warum heißt diese Ressource auf ".php"? Wird PHP-Code ausgeliefert? Damit können Browser nichts anfangen. Wenn's HTML ist, nenn die Ressource doch einfach auf ".html".

      Wie meinen? ich habe vereinfacht gesagt eigene Templates für Kopf, Fuß und Navigation der Seite, die eigentliche Seite index.php besteht im Prinzip nur aus einer Tabelle, das drumherum wird aus den 3 genannten Files eingebunden. So ist das bei allen Seiten, ist schön einfach zu ändern, und der Apache ist so kunfiguriert, das er die index.php auch als "Startseite" ansieht, wenn keine index.html existiert!

      Tipp: http://www.suchfibel.de/

      mein Tipp: http://www.robotstxt.org/wc/norobots.html#examples

      Warum schreiben die dann gerade bei so ner Seite so nen Quatsch???

      Grüße
      Andreas

      1. Hi,

        Das Problem ist, das auf diese Verzeichnisse keine direkten Links existieren, also werden diese auch niemals in eine Suchmaschine eingetragen.

        dann setze Links, oder melde die entsprechenden Unterverzeichnisse bei der Suchmaschine an.

        Die Daten hierfür kommen aus deine Datenbank,

        Das sieht die Suchmaschine nicht.

        Damit in der Suchmaschine nicht ohne Ende Leichen liegen, hatte ich mir das so gedacht!

        Lobenswert, aber leider funktioniert es so nicht.

        Btw, warum heißt diese Ressource auf ".php"? Wird PHP-Code ausgeliefert? Damit können Browser nichts anfangen. Wenn's HTML ist, nenn die Ressource doch einfach auf ".html".

        Wie meinen?

        Ich meine, dass Du mit einem PHP-Script HTML erzeugst. Da es für niemanden auf der Welt, von Dir abgesehen, interessant ist, ob jemals PHP im Spiel war, existiert kein Grund, nicht "index.html" statt "index.php" zu nehmen.

        und der Apache ist so kunfiguriert, das er die index.php auch als "Startseite" ansieht, wenn keine index.html existiert!

        Es gibt keinen Grund, eine index.php zu verwenden. Benenne die Datei um, konfiguriere Apache richtig.

        mein Tipp: http://www.robotstxt.org/wc/norobots.html#examples

        Auch nicht schlecht.

        Warum schreiben die dann gerade bei so ner Seite so nen Quatsch???

        Wo schreiben die was von "Allow:"? Falls Du Dich auf die Sache mit Dateien statt Verzeichnissen beziehst: Kann sein, dass mein Kenntnisstand der Definition falsch ist; er basiert eher auf dem, was meiner Erfahrung nach von Suchmaschinen akzeptiert wird.

        Cheatah

        1. Hallo!

          dann setze Links, oder melde die entsprechenden Unterverzeichnisse bei der Suchmaschine an.

          Ja, aber wenn die Verzeichnisse sich teilweise täglich ändern und immer mehr werden wird es langsam schwierig! Das sollte außerdem automatisch gehen, ich könnte es zur Not mit Google, aber das ist IMHO sehr viel komplizierter als die Robots.txt, vor alle, funktioniert das bei mehr Spidern als Du wahrscheinlich glaubst!

          Die Daten hierfür kommen aus deine Datenbank,

          Das sieht die Suchmaschine nicht.

          Da haben Suchmaschinen auch was dagegen, daher sind es gar kein richtigen Verzeichnisse sondern mit mod_rewrite wird dem Client nur vorgegaukelt das es sich um Verzeichnisse handelt, aber als Dynamische php-Datei mit Daten in der URL würde das wohl kein Spider akzeptieren denke ich!

          Damit in der Suchmaschine nicht ohne Ende Leichen liegen, hatte ich mir das so gedacht!

          Lobenswert, aber leider funktioniert es so nicht.

          mir reichts wenn es bei google geht(aber ich glaube bei den anderen wird das nicht so viel anders sein!): http://www.google.de/intl/de/remove.html

          Ich meine, dass Du mit einem PHP-Script HTML erzeugst. Da es für niemanden auf der Welt, von Dir abgesehen, interessant ist, ob jemals PHP im Spiel war, existiert kein Grund, nicht "index.html" statt "index.php" zu nehmen.

          Aber warum soll ich mir die Arbeit machen wenn es keinen stört??? Den Suchmaschinen ist das inzwischen egal, Hauptsache keine Daten in der URL!

          und der Apache ist so kunfiguriert, das er die index.php auch als "Startseite" ansieht, wenn keine index.html existiert!

          Es gibt keinen Grund, eine index.php zu verwenden. Benenne die Datei um, konfiguriere Apache richtig.

          Hääää? Findest Du es richtiger alle html-Dateien zu parsen? Das wäre doch totaler Quatsch! Ich habe es wohl schonmal gemacht, das ich die html-Ausgabe der Scripte als .html.gz gespeichert habe und den Server angewiesen wenn vorhanden und aktuell diese auszuliefern, und sonst alst neu zu pasen und eine neue .html.gz zu erstellen, aber wegen den paar Seiten mache ich mir bestimmt nicht die Arbeit!
          ich weiß nicht ob Du es gerade mitbekommen hast, ich bracuhe php um die Seiten aus mehrern Dateien per unclude() 'zusammenzubauen'!

          mein Tipp: http://www.robotstxt.org/wc/norobots.html#examples

          Auch nicht schlecht.

          :-)

          Wo schreiben die was von "Allow:"? Falls Du Dich auf die Sache mit Dateien statt Verzeichnissen beziehst: Kann sein, dass mein Kenntnisstand der Definition falsch ist; er basiert eher auf dem, was meiner Erfahrung nach von Suchmaschinen akzeptiert wird.

          Das habe ich woanders her, steht da nirgens, aber Soenke bestätigt es ja auch! Habe dafür aber kein äquivalente Quelle gefunden!

          Grüße
          Andreas

          1. dann setze Links, oder melde die entsprechenden Unterverzeichnisse bei der Suchmaschine an.
            Ja, aber wenn die Verzeichnisse sich teilweise täglich ändern und immer mehr werden wird es langsam schwierig! Das sollte außerdem automatisch gehen, ich könnte es zur Not mit Google, aber das ist IMHO sehr viel komplizierter als die Robots.txt, vor alle, funktioniert das bei mehr Spidern als Du wahrscheinlich glaubst!

            Die ändern sich täglich? Also irgendwo hast Du da ein grundsätzliches (Verständnis-) Problem. Keine Suchmaschine der Welt wird sich darum kümmern, sich täglich ändernde Einträge im Index andauernd auszutauschen.

            Du solltest Deine Seiten schon so organisieren, daß sagen wir mal ein Thema auch immer in einem "Verzeichnis" auftaucht, damit da wenigstens etwas Konstanz drin ist.
            Wenn Du alle Nase lang Deine Seiten durcheinanderwürfelst, wird das mit der Indiziererei nie was vernünftiges.

            Was mir auch etwas schleierhaft ist: Warum willst Du unbedingt Adressen eintragen, die Du nichtmal selber in Deinen eigenen Seiten für so wertvoll hälst, um da einen Verweis drauf zu setzen?
            Meiner Meinung nach sollten noch lange bevor jemand externes einen Verweis auf Seite X setzt, innerhalb des eigenen Angebotes Verweise auf Seite X stehen.

            Was sind denn das für merkwürdige Seiten? Kann man sich die irgendwo anschauen?

            Gruß,
              soenk.e

            1. Hi!

              Die ändern sich täglich? Also irgendwo hast Du da ein grundsätzliches (Verständnis-) Problem. Keine Suchmaschine der Welt wird sich darum kümmern, sich täglich ändernde Einträge im Index andauernd auszutauschen.

              ja, etwas dumm fomuliert, ich wollte damit nur ausdrücjken, dass es mehrere 100 und irgendwann sicher über 1000 Seiten sein werden, die jeweis nur ca. 3-6 Monate online sein werden(Immobilien-Präsentationen). Und wenn man mal zusammenrechnet kommt man bei z.B. 300 Seiten und 3 Monaten Laufzeit auf 3 Änderungen pro Tag, ich weiß das das nicht annährend so funktioniert, aber wenn von den 3-6 Monaten jeweils im Schnitt 2 bzw. 4-5 Monate ein Eintrag in Suchmmascheinen stünde wäre ich ja zufrieden. Ich weiß das das nicht so optimal für Suchmaschinen ist, aber da es sich um recht differenzierte Amngebote handelt(Immobilenart, Lage...) da kann man in Suchmaschinen bei entsprechenden Suchbegriffen schonmal gute Erfolge feiern, oder? Forenbeiträge, News... von anderen Seiten werden doch auch indiziert, obwohl nicht immer so lang verügbar!

              Und bevor Du verzweifelst was ich für komische Seiten habe, das habe ich in obigem Posting beantwortet:
              http://forum.de.selfhtml.org/?m=67213&t=12120

              Und angucken kannst Du Dir so ne Seiten z.B. unter

              http://www.meinhausonline.de/ID24

              Grüße
              Andreas

          2. Hi Andreas,

            Es gibt keinen Grund, eine index.php zu verwenden.
            Benenne die Datei um, konfiguriere Apache richtig.
            Hääää? Findest Du es richtiger alle html-Dateien zu parsen?

            nein. Das wäre noch viel falscher.

            Aber Du kannst den Apache sehr viel detaillierter konfigurieren, als
            Dir bewußt zu sein scheint. Endungen von Dateinamen an Handler zu
            binden ist bei weitem nicht alles, was der kann.

            Viele Grüße
                  Michael
            (der das selbst auch nicht tut, aber als "Übersetzer" für Cheatah fungiert)

          1. http://selfhtml.teamone.de/diverses/robots.htm

            wenn da nix steht gehe ich davon aus es ist Stefan Münz, oder? Wäre interessant zu erfahren, woher er(der sonst ja immer so für die Standards plädiert) hier seine Informationen bezogen hat!
            Grüße
            Andreas

  2. ich hatte mir überlegt ein Script zu schreiben, mit dem ich bestimmte Seiten eine Homepage in ein Suchmaschinen gezielt eintrage. Aber der Aufwand hierfür wäre viel zu groß, wenn das vernünftig und automatisch funktionieren soll. Die einfachere Lösung wäre da doch einfach eine 'dynamische' robots.txt zu generieren, oder?

    robots.txt ist nicht dafür gedacht, Seiten ein- oder auszutragen, sondern dafür, Seiten nicht eintragen zu lassen.

    Die Chance, daß eine Suchmaschine gezielt in der robots.txt-Liste nach unbekannten URLs sucht, ist IMHO eher gering bis nicht existent, weil der sinnvolle Weg der Benutzung dieser Datei "1. URL von irgendwo einlesen, 2. Prüfen, ob URL laut robots.txt verboten/erlaubt ist" lautet, nicht andersrum.
    Dazu kommt, daß die Muster in der robots.txt garnichtmal echte URLs darstellen müssen, sondern nur Teile davon.

    Schau mal hier nach: http://forum.de.selfhtml.org/archiv/2002/5/11433/#m63393.

    Davon abgesehen ist das Eintragen sämtlicher Seiten in eine Suchmaschine eh überflüssig. Es gibt doch sicherlich zwischen Deinen Seiten Verweise, also kann sich eine Suchmaschine doch auch dort langhangeln. Ob sie nun die Adressen aus Deinen Seiten holt, aus einer "Neue Seite eintragen"-Liste oder meinetwegen auch aus der robots.txt ist doch vollkommen wurscht.
    Oder gibt es in keiner einzigen Seite einen Verweis? Das wäre etwas arm..

    Gruß,
      soenk.e

    1. Hallo!

      robots.txt ist nicht dafür gedacht, Seiten ein- oder auszutragen, sondern dafür, Seiten nicht eintragen zu lassen.

      http://www.google.de/intl/de/remove.html da steht das google und ein paar andere Spider das zumindest mit dem disallow so machen!
      Finde keinen vernünftiegn Link zu allow, abr so wie ich das verstanden habe, werden die Seiten, die da drauf stehen automatisch indiziert, oder nicht?

      Die Chance, daß eine Suchmaschine gezielt in der robots.txt-Liste nach unbekannten URLs sucht, ist IMHO eher gering bis nicht existent, weil der sinnvolle Weg der Benutzung dieser Datei "1. URL von irgendwo einlesen, 2. Prüfen, ob URL laut robots.txt verboten/erlaubt ist" lautet, nicht andersrum.
      Dazu kommt, daß die Muster in der robots.txt garnichtmal echte URLs darstellen müssen, sondern nur Teile davon.

      Hm, das wäre sehr dumm! Das blöde an der Sache, die Seiten sind leider nur über eine "Suche" zu finden, und befürchte das das ein Spider (noch) nicht wirklich kann ;-)

      Schau mal hier nach: http://forum.de.selfhtml.org/archiv/2002/5/11433/#m63393.

      Davon abgesehen ist das Eintragen sämtlicher Seiten in eine Suchmaschine eh überflüssig. Es gibt doch sicherlich zwischen Deinen Seiten Verweise, also kann sich eine Suchmaschine doch auch dort langhangeln. Ob sie nun die Adressen aus Deinen Seiten holt, aus einer "Neue Seite eintragen"-Liste oder meinetwegen auch aus der robots.txt ist doch vollkommen wurscht.
      Oder gibt es in keiner einzigen Seite einen Verweis? Das wäre etwas arm..

      Wie oben geschrieben, normalerweise mache ich sowas auch nicht, aber ich kann definitiv keine feste frei zugängliche Liste mit allen Links machen! Außerdem wäre die viel zu Lang. Nur nochmal zur erklärung, es handelt sich hier um mein eines Projekt(http://www.meinhausonline.de), jede da eingetragene Immobilie bekommt ein eigenes "Verzeichnis"(mit mod_rewrite vorgegaukelt :-), hat dann "darin" 5 Seiten, halt Übersicht, Bilder, Kontakt, Druckversion...(wird gerade noch alles erweitert), zur Zeit da noch rel. wenige Objekte drin sind habe ich noch keine Suchfunktion, die wird aber folgen, aber eigentlich ist die für diesen speziellen Zweck nicht erforderlich, da die Idee dahinter vorsieht, den Link in einer Zeitungsanzeige einzufügen und so nur lokale Interessenten ansprechen, und das sehr viel ansprechender als nur mit den paar Zeilen Zeitungsanzeige, aber darum geht es ja jetzt nicht :-) jedenfalls habe ich deshalb keine direkten Links auf der Seite, würde die Objekte aber trotzdem gerne immer automatisch in Suchmaschinen ein- und genauso austragen.

      Oder könnte ich automatisch immer eine Seite eintragen, die alle Links enthält, und dann in der Seite <meta name="robots" content="noindex">?

      Was meinst Du?

      Und die Austragungen dann halt mit Disallows in der robots.txt, oder?

      Grüße
      Andreas

      1. robots.txt ist nicht dafür gedacht, Seiten ein- oder auszutragen, sondern dafür, Seiten nicht eintragen zu lassen.

        http://www.google.de/intl/de/remove.html da steht das google und ein paar andere Spider das zumindest mit dem disallow so machen!

        Äh, ja, sicher, das ist ja auch klar :) Wenn eine Adresse in deren Index drin ist, wird sie natürlich beim nächsten Durchlauf gegen die robots.txt-Liste geprüft und dann bei Disallow rausgeschmissen.

        Das ist aber kein "Austragen" im eigentlichen Sinne, sondern einfach nur ein Aktualisieren des Indexes. Aber das erreichst Du auch, indem Du beim Abrufen einer nicht mehr existierenden Seite einen 404-Fehler zurückschickst (der für Leser durchaus wie normale Seite mit dem Text "Dieses Haus ist bereits verkauft" aussehen kann!).
        Insofern ist der Weg über die robots.txt unnötig, dort würde ich mich auf die Grundstruktur beschränken.

        Unter "Austragen" verstehe ich mehr oder weniger eine echte Meldung von Dir an die Suchmaschine, sobald eine Seite aus dem Programm genommen wird (also bei Eintreten des "Ereignisses").
        Der Vorgang den Du Dir vorstellst, fällt bei mir unter Suchmaschinen-Routine - alle paar Wochen vorbeischauen, eventuell robots.txt abholen und die Seiten durchwühlen.

        Finde keinen vernünftiegn Link zu allow, abr so wie ich das verstanden habe, werden die Seiten, die da drauf stehen automatisch indiziert, oder nicht?

        Nein. Oder zumindest: Das ist wie bereits gesagt a) nicht Sinn und Zweck von Allow und b) entspricht auch nicht unbedingt der Arbeitsweise von Suchmaschinen und somit kann man sich auch nicht darauf verlassen..

        [..], weil der sinnvolle Weg der Benutzung dieser Datei "1. URL von irgendwo einlesen, 2. Prüfen, ob URL laut robots.txt verboten/erlaubt ist" lautet, nicht andersrum.

        ..und da steht's sogar noch :) Erst Adressen sammeln, dann gegen robots.txt abgleichen.

        Wie oben geschrieben, normalerweise mache ich sowas auch nicht, aber ich kann definitiv keine feste frei zugängliche Liste mit allen Links machen! Außerdem wäre die viel zu Lang. Nur nochmal zur erklärung, es handelt sich hier um mein eines Projekt(http://www.meinhausonline.de), jede da eingetragene Immobilie bekommt ein eigenes "Verzeichnis"(mit mod_rewrite vorgegaukelt :-), hat dann "darin" 5 Seiten, halt Übersicht, Bilder, Kontakt, Druckversion...(wird gerade noch alles erweitert),

        Mmh, Immobilienanzeigen. Also wenn ich malwieder ein Haus kaufe, dann frage ich Google immer nach "Haus Verkauf Kleinkleckersdorf", d.h. ich suche nach einem zu verkaufenden Haus in einer Region.

        Davon ausgehend würde ich sagen, daß Du Deine Hausadressen der Region entsprechend aufbaust, zum Beispiel "meinhausonline.de/schleswig-holstein/steinburg/kellinghusen/21/" und das dann in (jeweils bei Abruf aus der Datenbank generierte) Verzeichnisse einsetzt.

        Damit hast Du alle Angebote direkt aus der Seitenstruktur heraus für Suchmaschinen erreichbar, Du hast die Regionen in den Adressen drin (könnte Pluspunkte bringen), Du hast die Regionen in einem immer erreichbaren (und damit indizierbaren) Verzeichnis drin und Du kannst den Lesern auch noch eine Alternative zur Suchfunktion anbieten.
        Ich finde es eine gute Idee, sich auf Zeitungen als Quelle zu konzentrieren, aber wenn der Interessent schonmal da ist (oder über eine Suchmaschine hereingestolpert kommt), sollte man ihm auch die Möglichkeit geben, ausgiebig zu stöbern.

        Ich persönlich bin mit Suchfunktionen nie so recht glücklich, weil man da immer irgendwie doch die passenden Stichworte oder Daten parat haben muß - solange man aber nicht weiß, was man exakt haben will und einem somit die exakten Daten fehlen, gehen einem auch grundsätzlich Sachen durch die Lappen.
        Anders ausgedrückt: Man muß gewissermaßen vorher schon wissen, was man eigentlich erst durch die Suche rausfinden will.

        Über ein Verzeichnis findet man oft noch einige interessante Dinge mehr, weil man da über viele Kriterien hinweg gleichzeitig und deutlich "unschärfer" suchen kann als es eine Maschine je könnte (stöbern eben). Gerade bei Häusern könnte ich mir beispielsweise vorstellen, daß man mehr Wert legt auf das Aussehen als auf technische Daten. Aber woher soll die Suchfunktion wissen, was mir gefällt?

        Oder könnte ich automatisch immer eine Seite eintragen, die alle Links enthält, und dann in der Seite <meta name="robots" content="noindex">?

        Wäre eine andere Möglichkeit, halte ich aber für bei weitem nicht so sinnvoll wie das automatisches Verzeichnis, das ich eben beschrieben habe.

        Und die Austragungen dann halt mit Disallows in der robots.txt, oder?

        Nein, unnötig, wie oben geschrieben. Schreib stattdessen eine nette Fehlerseite, die bei Aufruf der veralteten Adresse einen 410-Fehler zurückliefert (RFC 2616, Absatz 10.4.11, http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html#sec10.4.11) und für menschliche Existenzen noch einen netten Text à la "Dieses Objekt hat bereits einen neuen Besitzer glücklich gemacht" enthält :)

        In PHP wäre das etwas in der Richtung

        <?php
          header("HTTP/1.0 410 Gone");
          ?>
          <html><body>
          Dieses Objekt..

        Davon abgesehen würde ich mich bei den Seiten etwas mehr an Standards halten, lass mal http://validator.w3.org drüberlaufen.
        Und die Angebotsseiten schreien zum Beispiel geradezu nach einer Umsetzung mit HTML 4 Strict. Tabellenlayout ist da wirklich absolut unnötig, der Dateiinhalt wird einfacher, strukturierter und logischer (=besser indizierbar), die Datenmenge kleiner und eine Suchmaschine muß sich nicht durch soviel Tralala wühlen. Dinge wie Überschriften (<h1> bis <h6>) sehen die im Gegensatz zu <td>-Wüsten besonders gern, hast Du aber leider überhaupt nicht benutzt.

        Gruß,
          soenk.e

        1. Hi!

          Das ist aber kein "Austragen" im eigentlichen Sinne, sondern einfach nur ein Aktualisieren des Indexes. Aber das erreichst Du auch, indem Du beim Abrufen einer nicht mehr existierenden Seite einen 404-Fehler zurückschickst (der für Leser durchaus wie normale Seite mit dem Text "Dieses Haus ist bereits verkauft" aussehen kann!).

          Äh, OK, das stand ja auch da :-)

          Unter "Austragen" verstehe ich mehr oder weniger eine echte Meldung von Dir an die Suchmaschine, sobald eine Seite aus dem Programm genommen wird (also bei Eintreten des "Ereignisses").

          OK, das ist wirklich besser, das mache ich auch schon, aber halt mit 200er Meldung...

          Der Vorgang den Du Dir vorstellst, fällt bei mir unter Suchmaschinen-Routine - alle paar Wochen vorbeischauen, eventuell robots.txt abholen und die Seiten durchwühlen.

          Genau das hatte ich gedacht, beim drüber nachdenken wie ich einzelne Seiten anmelde, dachte ich, man könnte das doch einfach mit der robots.txt zentral erledigen, wäre wirklich sehr einfach, auch nicht so dumm wenn das funktionieren würde, finde ich!

          Aber dann sag mir mal bitte, wozu es dann die Allow-Direktive gibt? Wo liegt der unterschied "Allow" anzugeben, und es ganz weg zulassen??? Mir wäre es sch... egal wenn sich 90 % der Suchmaschinen nicht darum kümmern, wenn es nur die 4-5 großen tun!
          Das Problem ist, ich weiß immer noch nicht genau, wie ich die Eintragung automatisiert machen soll! Ich hatte da mal was probiert, mit google und fsockopen(), aber da ich das bei der Anlage eines neuen Datensatzes intergrieren möchte, ist das sehr umständlich, vor allem qenn ich das bei 5 oder noch mehr Suchmscheinen machen möchte, außerdem steigt dadurch die Gefahr, das irgendein Fehler auftritt!

          2. Möglichkeit wäre einen Cronjob einmal die Nacht da durchlaufen zu lassen, und die neuen Seiten eintragen. Aber da habe ich dann die Befürchtung, das sich die Suchmaschinen wehren, wenn man direkt mehrere Seiten einträgt(vermeintlicher SPAM). Aber wie machen das genau die zahlreiche Suchmaschinen-eintrage-Software?

          Finde keinen vernünftiegn Link zu allow, abr so wie ich das verstanden habe, werden die Seiten, die da drauf stehen automatisch indiziert, oder nicht?

          Den Link hatte ich ja unten gepostet, schämt Euch das noch nichtmal Ihr Linksetzer... das nicht kennt :-)

          Nein. Oder zumindest: Das ist wie bereits gesagt a) nicht Sinn und Zweck von Allow und b) entspricht auch nicht unbedingt der Arbeitsweise von Suchmaschinen und somit kann man sich auch nicht darauf verlassen..

          Der Sinn ist ja auch gar nicht so wichtig! Es geht nur darum - funktionierts oder eben nicht? Wenn nicht verstehe ich wie gesagt die Existenzberechtigung von "Allow" nicht!

          [..], weil der sinnvolle Weg der Benutzung dieser Datei "1. URL von irgendwo einlesen, 2. Prüfen, ob URL laut robots.txt verboten/erlaubt ist" lautet, nicht andersrum.

          ..und da steht's sogar noch :) Erst Adressen sammeln, dann gegen robots.txt abgleichen.

          Im Prinzip richtig, aber auch bei Allow??? Warum bist Du Dir so sicher?

          Mmh, Immobilienanzeigen. Also wenn ich malwieder ein Haus kaufe, dann frage ich Google immer nach "Haus Verkauf Kleinkleckersdorf", d.h. ich suche nach einem zu verkaufenden Haus in einer Region.

          Genau das war meine Idee, aber wenn Du so suchst bekomme ich direkt wieder Panik, denn Du bist wahrlich kein "normaler" User, was meinst Du wie sucht der "kleine Mann von nebenan"?

          Davon ausgehend würde ich sagen, daß Du Deine Hausadressen der Region entsprechend aufbaust, zum Beispiel "meinhausonline.de/schleswig-holstein/steinburg/kellinghusen/21/" und das dann in (jeweils bei Abruf aus der Datenbank generierte) Verzeichnisse einsetzt.

          Ja, das ist eine gute Idee, langsame frage ich mich tatsächlich, ob ich nicht wirklich verzeichnisse erstelen soll, oder wieder ober mod_rewrite die ganze Welt an der Nase herumführen. Ein Nachteil von der mod_rewrite Version, ich kann nicht so wie bei Suchmaschinen gefordert Domains der Art http://www.meinhausonline.de/ID24/ umleiten, geht zwar im prinzip, aber der verar...te Browser gleubt auf einmal er sei in einem anderen Verzeichnis und dann stimmen die relativen Verknüpfungen nicht mehr, da muß ich wohl die absoluten verwenden, naja!

          Damit hast Du alle Angebote direkt aus der Seitenstruktur heraus für Suchmaschinen erreichbar, Du hast die Regionen in den Adressen drin (könnte Pluspunkte bringen), Du hast die Regionen in einem immer erreichbaren (und damit indizierbaren) Verzeichnis drin und Du kannst den Lesern auch noch eine Alternative zur Suchfunktion anbieten.

          Hm, Du meinst also tatsächlich echte Verzeichnisse, in denen zwarkeine Objekte stehen, aber immer eine Übersichsseite, die auf das nächste "Level" weiterleitet? Also erst, Bundesland, dann Stadt/Kreis und dann Dorf/Stadtteil oder so ähnlich? Aber bis dahin sieht man ja immer noch nichts von Immobilien, aber dafür was es alles so gibt, oder wie meintest Du das?

          Ich finde es eine gute Idee, sich auf Zeitungen als Quelle zu konzentrieren, aber wenn der Interessent schonmal da ist (oder über eine Suchmaschine hereingestolpert kommt), sollte man ihm auch die Möglichkeit geben, ausgiebig zu stöbern.

          Das ist richtig, da aber zur Zeit mit Zeitumngen über eine Zusammenarbeit diskutiert wird, wittern die Konkurrenz für die eigenen Seiten, aber die zeigen ja meist nur die Zeitungsanzeige an.
          Denen hat dei Suchfunktion nicht geschmeckt, aber ich stimme Dir zu, ohen kann man gleich einpacken.

          Ich persönlich bin mit Suchfunktionen nie so recht glücklich, weil man da immer irgendwie doch die passenden Stichworte oder Daten parat haben muß - solange man aber nicht weiß, was man exakt haben will und einem somit die exakten Daten fehlen, gehen einem auch grundsätzlich Sachen durch die Lappen.

          Mein reden! Gerde bei den Immobilien Angeboten mußt Du teilweise 5 oder mehr Angaben machen, bis es erstmal weiter geht..., wobei ich sagen muß, die verwenden ja bei der Suche zwar keine Index-Seiten, so wie jetzt angedacht, sondern dynamische Listenfelder, oft noch mit Anzeige der Anzahl an Objekten in der Region! Ist auch nicht verkehrt, oder? Aber was ich auch sagen muß, wenn man so viele Angebote hat, MUSS man ja irgendwie filtern, man kann sich ja schlecht durch 10.000 Angebote klicken, wovon man 9900 sowiese ausschließen könnte, da in ganz falascher Preisregion, Lage....

          Anders ausgedrückt: Man muß gewissermaßen vorher schon wissen, was man eigentlich erst durch die Suche rausfinden will.

          Das ist ein generelles Problem von Suchmaschinen...
          wobei man sich ja gerade bei Immobilien schon vorher ein Bild macht, zumindest Objektart, Preis und Lage einigermaßen feststehen, oder? Also sollte man das (evtl ohne Preis) auch vorher filtern, oder?

          Über ein Verzeichnis findet man oft noch einige interessante Dinge mehr, weil man da über viele Kriterien hinweg gleichzeitig und deutlich "unschärfer" suchen kann als es eine Maschine je könnte (stöbern eben). Gerade bei Häusern könnte ich mir beispielsweise vorstellen, daß man mehr Wert legt auf das Aussehen als auf technische Daten. Aber woher soll die Suchfunktion wissen, was mir gefällt?

          Ja was Dir gefällt, aber wenn ich sage meine neue Villa darf max. 3 Mio EUR kosten und soll höchstens 30 Minuten weg von meinem Job sein, dann hast Du doch 2 Kriterien, mit denen Suchmaschinen ne ganze menge filtern können, oder? Du wirst jetzt sagen und was wenn sie das Traumobjekt für 3,012 Mio nicht findet... OK, aber das könnte man auch mit einer Tolerenz von 20% mit einschließen, genau so mit einer Lage nur 2 minuten daneben, wer sagt denn das Du "von Hand" in der Region daneben gesucht hättest?

          Oder könnte ich automatisch immer eine Seite eintragen, die alle Links enthält, und dann in der Seite <meta name="robots" content="noindex">?

          Wäre eine andere Möglichkeit, halte ich aber für bei weitem nicht so sinnvoll wie das automatisches Verzeichnis, das ich eben beschrieben habe.

          Das ist richtig.

          Und die Austragungen dann halt mit Disallows in der robots.txt, oder?

          Nein, unnötig, wie oben geschrieben. Schreib stattdessen eine nette Fehlerseite, die bei Aufruf der veralteten Adresse einen 410-Fehler zurückliefert (RFC 2616, Absatz 10.4.11, http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html#sec10.4.11) und für menschliche Existenzen noch einen netten Text à la "Dieses Objekt hat bereits einen neuen Besitzer glücklich gemacht" enthält :)

          Wirklich gut!

          Davon abgesehen würde ich mich bei den Seiten etwas mehr an Standards halten, lass mal http://validator.w3.org drüberlaufen.

          Naja, da hatte ich ja was zu geschrieben, es wird doch überall angezeigt, aber ich schue es mir mal an!

          Und die Angebotsseiten schreien zum Beispiel geradezu nach einer Umsetzung mit HTML 4 Strict. Tabellenlayout ist da wirklich absolut unnötig, der Dateiinhalt wird einfacher, strukturierter und logischer (=besser indizierbar), die Datenmenge kleiner und eine Suchmaschine muß sich nicht durch soviel Tralala wühlen. Dinge wie Überschriften (<h1> bis <h6>) sehen die im Gegensatz zu <td>-Wüsten besonders gern, hast Du aber leider überhaupt nicht benutzt.

          Ist das auch heute noch so? Ich dachte sowas hätte stark an Bedeutung verloren! Mit den Tabellen, ob das so nötig ist - es sind alleine 3 Tabellen drum rum, um den Rand so kompatibel überall anzeigen zu können!

          Aber vielen, vielen Dank für Deine sehr kostruktiven Postings, hast mir sehr geholfen!

          Viele Grüße
          Andreas

          1. Unter "Austragen" verstehe ich mehr oder weniger eine echte Meldung von Dir an die Suchmaschine, sobald eine Seite aus dem Programm genommen wird (also bei Eintreten des "Ereignisses").
            OK, das ist wirklich besser, das mache ich auch schon, aber halt mit 200er Meldung...

            Ähm, mit einer 200er Antwort sagst Du den Suchmaschinen aber nicht, daß die Seite bzw. das Angebot nicht mehr existiert. Deswegen: 410 (oder 404, 410 passt aber besser).

            Aber dann sag mir mal bitte, wozu es dann die Allow-Direktive gibt? Wo liegt der unterschied "Allow" anzugeben, und es ganz weg zulassen???

            Also vorsichtshalber vornweg: Ich weiß nicht, ob nicht vielleicht doch die eine oder andere Suchmaschine in der robots.txt nach Allow-Adressen sucht und versucht, diese zu indizieren - ich kann es mir nur nicht vorstellen.
            Denn welchen Sinn macht es, eine Seite zu indizieren, auf die lediglich an einer Stelle verwiesen wird, an der kein normaler Mensch jemals vorbeikommt? Irgendwas kann da ja nicht stimmen, denn normalerweise sind Seiten immer vernetzt, und solche, die es nicht sind, sollen wohl am ehesten einfach nicht von außen zugänglich sein.
            Von daher halte ich es im Sinne der Qualität des Indexes für eher unwahrscheinlich, daß eine Suchmaschine so vorgeht.

            Der Sinn von Allow? Vielleicht am einfachsten ein Beispiel:
            Ich habe auf meinen Seiten (http:kino-fahrplan.de) Kinoprogramme liegen, und zwar einmal mit dem Programm je Kino, einmal mit Filmlisten je Tag.
            Die Kinoseiten haben das Kino im Namen ("ufa", "uci", etc), die Tageslisten mit allen Filmen allesamt das Datum als achtstellige Zahl ("16052002", "17052002", etc).
            Da es keinen Sinn macht, die Tageslisten zu indizieren, stehen in der robots.txt folgende Zeilen (vereinfacht, ohne Pfad):

            Disallow 0
            Disallow 1
            Disallow 2
            Disallow 3

            Damit fällt alles, war mit einer Zahl zwischen 0 und 3 beginnt, also vom 01. bis zum 31., raus.

            Nun gibt es aber ein Kino namens 3001, dessen Programmseite entsprechend 3001 heißt und wegen "Disallow 3" nicht indiziert werden würde.

            In solchen Fällen kommt Allow in's Spiel:

            Allow 3001
            Disallow 0
            Disallow 1
            Disallow 2
            Disallow 3

            Der Witz an der Sache ist jetzt, daß die robots.txt von oben nach unten durchlaufen wird und der _erste_ _passende_ Eintrag zählt.

            Die Suchmaschine beginnt also oben in der Liste und der erste Eintrag, der auf 3001 passt, lautet jetzt "Allow 3001" -> wir können indizieren.
            Wird dagegen eine Tagesliste für den 30.05.2002 geprüft ("30052002"), muß bis zum "Disallow 3" durchgewandert werden -> nicht indizieren.

            Mit Allow kann man also einige Definitionen abkürzen. Ohne Allow hätte ich zwei Dutzend Disallows für die 30. und 31. der Monate einfügen müssen. Mit Allow reicht ein "Allow 3001" und ein "Disallow 3". Das ist das ganze Geheimnis hinter Allow.

            Und der Vollständigkeit halber:

            Disallow 30012
            Allow 3001
            Disallow 0
            Disallow 1
            Disallow 2
            Disallow 3

            Mit dem "Disallow 30012" erwische ich die Tagesliste für den 30.01. Zweitausendirgendwas und habe somit in nur sechs Zeilen alle Tage des Jahres ausgeklammert und das 3001-Kino trotzdem mit drin im Suchmaschinen-Index.

            Das Problem ist, ich weiß immer noch nicht genau, wie ich die Eintragung automatisiert machen soll! Ich hatte da mal was probiert,

            Ganz ehrlich: Garnicht.

            Wenn Du eine Seite bei einer Suchmaschine anmeldest, dann wird die Adresse erstmal "auf Halde" gelegt und erst bei Gelegenheit geprüft. Nach der Prüfung dauert es dann noch wieder eine Weile, bis diese Seite im Index auftaucht.

            Ich kann bei Google beispielsweise immer wieder feststellen, daß es durchaus mehrere Wochen (!) dauern kann, bis nach dem Besuch vom Googlebot eine Änderung an meinen Seiten auch im Google'schen Ergebnis auftaucht.

            Insofern halte ich es für übertrieben, jede Änderung an seinen Seiten täglich an eine Suchmaschine zu melden. Es kann Tage dauern, bis die Seite tatsächlich indiziert wird; eventuell wartet die Maschine sogar, bis der Rest Deiner Seiten wieder dran ist und prüft erst dann auch die irgendwann mal neu eingetragenen Adressen (bei mir wäre das alle vier Wochen).

            Kurz: Der Aufwand, den Du betreiben möchtest, rechtfertigt aus meiner Sicht das Ergebnis in keinster Weise. Deshalb würde ich mich eher auf das angesprochene Verzeichnis stürzen, mit dem man wesentlich mehr "ruhende Anker" bekommt, d.h. Seiten, die auch dauerhaft indiziert werden können.

            Mmh, Immobilienanzeigen. Also wenn ich malwieder ein Haus kaufe, dann frage ich Google immer nach "Haus Verkauf Kleinkleckersdorf", d.h. ich suche nach einem zu verkaufenden Haus in einer Region.
            Genau das war meine Idee, aber wenn Du so suchst bekomme ich direkt wieder Panik, denn Du bist wahrlich kein "normaler" User, was meinst Du wie sucht der "kleine Mann von nebenan"?

            Also daß ich nicht normal bin, habe ich überhört :) Oder vielleicht doch nicht ;)

            Ernsthaft, auch als Otto Normaluser würde ich so mit meiner Suche anfangen. Oder zumindest irgendwann nach hundert Fehlschlägen dort ankommen, denn das Wort "Haus" und die Region ist doch wirklich der kleinste gemeinsame Nenner.

            Davon ausgehend würde ich sagen, daß Du Deine Hausadressen der Region entsprechend aufbaust, zum Beispiel "meinhausonline.de/schleswig-holstein/steinburg/kellinghusen/21/" und das dann in (jeweils bei Abruf aus der Datenbank generierte) Verzeichnisse einsetzt.
            Ja, das ist eine gute Idee, langsame frage ich mich tatsächlich, ob ich nicht wirklich verzeichnisse erstelen soll, oder wieder ober mod_rewrite die ganze Welt an der Nase herumführen.

            Das schließt sich ja nicht aus. Ich sagte ja, daß die Verzeichnisse auch erst beim Abruf generiert werden könnten. Und da wäre es durchaus sinnvoll, nur eine Seite zu schreiben, die dann mit mod_rewrite versteckt wird ("/hessen/frankfurt/" -> "region.php?land=hessen;region=frankfurt").

            Ein Nachteil von der mod_rewrite Version, ich kann nicht so wie bei Suchmaschinen gefordert Domains der Art http://www.meinhausonline.de/ID24/ umleiten, geht zwar im prinzip, aber der verar...te Browser gleubt auf einmal er sei in einem anderen Verzeichnis und dann stimmen die relativen Verknüpfungen nicht mehr, da muß ich wohl die absoluten verwenden, naja!

            Wenn Du eh alles aus der Datenbank fütterst, sollte das nur ein kleines Mosaiksteinchen in deinem mod_rewrite-Gebilde sein.

            Damit hast Du alle Angebote direkt aus der Seitenstruktur heraus für Suchmaschinen erreichbar, Du hast die Regionen in den Adressen drin (könnte Pluspunkte bringen), Du hast die Regionen in einem immer erreichbaren (und damit indizierbaren) Verzeichnis drin und Du kannst den Lesern auch noch eine Alternative zur Suchfunktion anbieten.
            Hm, Du meinst also tatsächlich echte Verzeichnisse, in denen zwarkeine Objekte stehen, aber immer eine Übersichsseite, die auf das nächste "Level" weiterleitet? Also erst, Bundesland, dann Stadt/Kreis und dann Dorf/Stadtteil oder so ähnlich? Aber bis dahin sieht man ja immer noch nichts von Immobilien, aber dafür was es alles so gibt, oder wie meintest Du das?

            Das stimmt schon durchaus so. Aber nicht vergessen, daß das Hauptziel dieses Verzeichnisses nicht die manuelle Stöberei war, sondern den Suchmaschinen Seiten vor die Füße zu schmeißen, die sich leicht und vor allen Dingen dauerhaft indizieren lassen.

            Deine Immobilienseiten ändern sich ja ständig, und wenn Du gerade kein Haus im Odenwald im Angebot hast, wenn eine Suchmaschine vorbeikommt, wirst Du auch keine Treffer auf die Odenwaldsuche erzeugen.
            Hast Du hingegen immer zumindest ein Regionsinhaltsverzeichnis "Odenwald", tauchst Du auch in einer Suche nach "Odenwald" auf. Und diese Regions- oder Ortssuche schätze ich als recht häufig vorkommend ein.

            Das war meine Überlegung. Daß man als Leser in so einem Verzeichnis auch prima stöbern kann, ist da eher nur ein sehr netter Nebeneffekt.

            Das ist richtig, da aber zur Zeit mit Zeitumngen über eine Zusammenarbeit diskutiert wird, wittern die Konkurrenz für die eigenen Seiten, aber die zeigen ja meist nur die Zeitungsanzeige an.
            Denen hat dei Suchfunktion nicht geschmeckt, aber ich stimme Dir zu, ohen kann man gleich einpacken.

            Tipp hinter vorgehaltener Hand: Mach zwei Server draus, einen für die Zeitungen zum Beruhigen und einen mit Suchfunktion ;)

            <phantasier>
            Du kannst den Zeitungen natürlich auch (teilweises) Outsourcing des Immobilienteils Ihrer eigenen Webangebote anbieten.. Du stellst die Technik, die Zeitungen das Layout und die Kundschaft. Oder so. </phantasier>

            Anders ausgedrückt: Man muß gewissermaßen vorher schon wissen, was man eigentlich erst durch die Suche rausfinden will.
            Das ist ein generelles Problem von Suchmaschinen...
            wobei man sich ja gerade bei Immobilien schon vorher ein Bild macht, zumindest Objektart, Preis und Lage einigermaßen feststehen, oder? Also sollte man das (evtl ohne Preis) auch vorher filtern, oder?

            Da hast Du natürlich schon recht, nichtsdestotrotz ist es auch immer ganz nett, einen großen Überblick zu bekommen :) Eine Filterfunktion kann man in so ein Verzeichnis ja auch nachträglich einbauen.

            Ich würde mir da erstmal keine allzu großen Gedanken drüber machen, Dein Hauptziel ist ja die Zeitungsgeschichte. Behalte das im Auge.

            [..] eine Suchmaschine muß sich nicht durch soviel Tralala wühlen. Dinge wie Überschriften (<h1> bis <h6>) sehen die im Gegensatz zu <td>-Wüsten besonders gern, hast Du aber leider überhaupt nicht benutzt.
            Ist das auch heute noch so? Ich dachte sowas hätte stark an Bedeutung verloren!

            Ich denke nicht. Was gibt es aussagekräftigeres als eine schöne Überschrift? Ist natürlich kein Totschlagargument, ich kann auch nicht behaupten, deutliche Verbesserungen in der Positionierung erlebt zu haben, seit ich <big> durch ein CSS-formatiertes <h1> ersetzt habe (stand eh schon ganz oben:), aber es spielt sicher eine Rolle, ob ein gesuchtes Wort irgendwo zwischen 1000 anderen versteckt ist oder herausragenderweise in der Überschrift steht.

            Und da es kaum ein anderer macht, wärst Du klar im Vorteil ;)

            Mit den Tabellen, ob das so nötig ist - es sind alleine 3 Tabellen drum rum, um den Rand so kompatibel überall anzeigen zu können!

            Rand? Ich sag nur margin, border, padding, das universelle Dreigestirn ;)

            Gruß,
              soenk.e

            1. Hi!

              Ähm, mit einer 200er Antwort sagst Du den Suchmaschinen aber nicht, daß die Seite bzw. das Angebot nicht mehr existiert. Deswegen: 410 (oder 404, 410 passt aber besser).

              Hatt ich nicht drüber nachgedacht, und automatisch kommt ja bekanntlich diese!

              Das Problem ist, ich weiß immer noch nicht genau, wie ich die Eintragung automatisiert machen soll! Ich hatte da mal was probiert,

              Insofern halte ich es für übertrieben, jede Änderung an seinen Seiten täglich an eine Suchmaschine zu melden. Es kann Tage dauern, bis die Seite tatsächlich indiziert wird; eventuell wartet die Maschine sogar, bis der Rest Deiner Seiten wieder dran ist und prüft erst dann auch die irgendwann mal neu eingetragenen Adressen (bei mir wäre das alle vier Wochen).

              Das verstehst Du glaub ich falsch, es geht nur darum dass seiten die 6 Monate online sein werden dann halt automatisch in die Suchmaschine kommen, nix mit aktualisieren oder so. und wenn das halt so viewle Seitgen werden, täglich neue... dann wäre das halt von Hand zu viel Arbeit, kapito?

              Das schließt sich ja nicht aus. Ich sagte ja, daß die Verzeichnisse auch erst beim Abruf generiert werden könnten. Und da wäre es durchaus sinnvoll, nur eine Seite zu schreiben, die dann mit mod_rewrite versteckt wird ("/hessen/frankfurt/" -> "region.php?land=hessen;region=frankfurt").

              Ja, das denke ich auch, mal sehen!

              Ein Nachteil von der mod_rewrite Version, ich kann nicht so wie bei Suchmaschinen gefordert Domains der Art http://www.meinhausonline.de/ID24/ umleiten, geht zwar im prinzip, aber der verar...te Browser gleubt auf einmal er sei in einem anderen Verzeichnis und dann stimmen die relativen Verknüpfungen nicht mehr, da muß ich wohl die absoluten verwenden, naja!

              Wenn Du eh alles aus der Datenbank fütterst, sollte das nur ein kleines Mosaiksteinchen in deinem mod_rewrite-Gebilde sein.

              meinst Du jetzt die absoluten links? Oder gibt es eine andere Möglichkeit?

              Deine Immobilienseiten ändern sich ja ständig, und wenn Du gerade kein Haus im Odenwald im Angebot hast, wenn eine Suchmaschine vorbeikommt, wirst Du auch keine Treffer auf die Odenwaldsuche erzeugen.
              Hast Du hingegen immer zumindest ein Regionsinhaltsverzeichnis "Odenwald", tauchst Du auch in einer Suche nach "Odenwald" auf. Und diese Regions- oder Ortssuche schätze ich als recht häufig vorkommend ein.
              Das war meine Überlegung. Daß man als Leser in so einem Verzeichnis auch prima stöbern kann, ist da eher nur ein sehr netter Nebeneffekt.

              OK, vielleicht mache ich einfach beides, einmal mit Verzeichnis und die die lieber direkt suchen halt eine Eingabemaske.

              Das ist richtig, da aber zur Zeit mit Zeitumngen über eine Zusammenarbeit diskutiert wird, wittern die Konkurrenz für die eigenen Seiten, aber die zeigen ja meist nur die Zeitungsanzeige an.
              Denen hat dei Suchfunktion nicht geschmeckt, aber ich stimme Dir zu, ohen kann man gleich einpacken.

              Tipp hinter vorgehaltener Hand: Mach zwei Server draus, einen für die Zeitungen zum Beruhigen und einen mit Suchfunktion ;)

              Das dumme ist nur, ich kann schlecht mit einer Adresse werben, die nicht in der Zeitung steht! Da hatt ichz mir auch schon viel überlegt, sogar daran gedacht die IP(wenn fest:-) vom Verlag zu ermitteln und diese umleiten... :-))) Naja, lieber nicht!

              <phantasier>
              Du kannst den Zeitungen natürlich auch (teilweises) Outsourcing des Immobilienteils Ihrer eigenen Webangebote anbieten.. Du stellst die Technik, die Zeitungen das Layout und die Kundschaft. Oder so. </phantasier>

              jajajajajajaja, was meinst Du was ich mir in der Richtung schon für Gedanken gemacht habe, das dumme ist mal wieder, ich bin 1-2 Jahre zu spät. Aber das war noch zu meiner Frontpage-Zeit *schäm*. Heute sind zumindest bei uns sehr viele zeitungen zusammengeschlossen und haben ein eigenes Portal, oder die haben schon ordentlich Kohle für was eigenes hingeblättert.... und der Rest hat es eh nicht so mit dem Internet und denkt "INTERNET IST BÖSE UND WIRD UNS RUINIEREN, ABER NICHT MIT UNS....".

              [..] eine Suchmaschine muß sich nicht durch soviel Tralala wühlen. Dinge wie Überschriften (<h1> bis <h6>) sehen die im Gegensatz zu <td>-Wüsten besonders gern, hast Du aber leider überhaupt nicht benutzt.
              Ist das auch heute noch so? Ich dachte sowas hätte stark an Bedeutung verloren!

              Ich denke nicht. Was gibt es aussagekräftigeres als eine schöne Überschrift? Ist natürlich kein Totschlagargument, ich kann auch nicht behaupten, deutliche Verbesserungen in der Positionierung erlebt zu haben, seit ich <big> durch ein CSS-formatiertes <h1> ersetzt habe (stand eh schon ganz oben:), aber es spielt sicher eine Rolle, ob ein gesuchtes Wort irgendwo zwischen 1000 anderen versteckt ist oder herausragenderweise in der Überschrift steht.

              Und da es kaum ein anderer macht, wärst Du klar im Vorteil ;)

              OK, da werde ich irgendwann mal was ändern :-)))
              Erstmal gibt es wichtigeres, aber Recht hast du wohl, vor allem da es für mich kein Unterschied ist!

              Mit den Tabellen, ob das so nötig ist - es sind alleine 3 Tabellen drum rum, um den Rand so kompatibel überall anzeigen zu können!

              Rand? Ich sag nur margin, border, padding, das universelle Dreigestirn ;)

              ohohohoh, ich mache asowas lieber mit Tabellen, aber mal wieder Recht hast Du :-)

              Grüße
              Andreas

              1. Das Problem ist, ich weiß immer noch nicht genau, wie ich die Eintragung automatisiert machen soll! Ich hatte da mal was probiert,

                Insofern halte ich es für übertrieben, jede Änderung an seinen Seiten täglich an eine Suchmaschine zu melden. Es kann Tage dauern,

                Das verstehst Du glaub ich falsch, es geht nur darum dass seiten die 6 Monate online sein werden dann halt automatisch in die Suchmaschine kommen, nix mit aktualisieren oder so. und wenn das halt so viewle Seitgen werden, täglich neue... dann wäre das halt von Hand zu viel Arbeit, kapito?

                Naja, dann belass es doch beim Verzeichnis, das würde dann ja automatisch durchsucht werden und funktioniert in diesem Sinne bestimmt besser als die robots.txt-Allow-Sache.

                Ein Nachteil von der mod_rewrite Version, ich kann nicht so wie bei Suchmaschinen gefordert Domains der Art http://www.meinhausonline.de/ID24/ umleiten, geht zwar im prinzip, aber der verar...te Browser gleubt auf einmal er sei in einem anderen Verzeichnis und dann stimmen die relativen Verknüpfungen nicht mehr, da muß ich wohl die absoluten verwenden, naja!

                Wenn Du eh alles aus der Datenbank fütterst, sollte das nur ein kleines Mosaiksteinchen in deinem mod_rewrite-Gebilde sein.
                meinst Du jetzt die absoluten links? Oder gibt es eine andere Möglichkeit?

                Mmh, also letztenendes ist es ja wurscht, davon kriegt der Kunde ja nichts mit. Gegen ein absolutes <img src="/bilder.php?id=12345;art=frontansicht"> ist IMHO deshalb nichts einzuwenden.

                Mit den Tabellen, ob das so nötig ist - es sind alleine 3 Tabellen drum rum, um den Rand so kompatibel überall anzeigen zu können!

                Rand? Ich sag nur margin, border, padding, das universelle Dreigestirn ;)
                ohohohoh, ich mache asowas lieber mit Tabellen, aber mal wieder Recht hast Du :-)

                Jawohl! ;)

                Viel Glück noch!
                  soenk.e

  3. Was hat das denn mit dem Validator zu tun(direkt 3 mal probiert worden?!?!?))? Mir ist wichtig das die Seite so aussieht wie sie aussehen soll und das in den Browsern die ich für wichtig erachte. Ob das dem Vaklidator gefällt oder nicht, ob es mit validem Code Code auf alle Fälle überall funktioniert - mag sein, aber das beschneidet mich in meinen Möglichkeiten, und das will ich nicht!

    Außerdem geht es hier um ein ganz anderes Thema!

    Grüße
    Andreas

    1. aber das beschneidet mich in meinen Möglichkeiten, und das will ich nicht!

      quatsch. Es sorgt nur dafür, dass du weniger Fehler drin läßt. Erst informieren, dann reden.

      Grüße aus Bleckede

      Kai