Meike: Unterschied zwischen noindex und noarchive

Ich möchte einige Seiten aus den Suchmaschinen löschen.
Doch welches davon ist der richtige Befehl dafür:

<meta name=”robots” content=”noindex”>

oder

<meta name=”robots” content=”noarchive”>

oder beides?

Meike

  1. Hallo,

    <meta name=”robots” content=”noindex”>

    = Seite wird nicht in den Index der Suchmaschine aufgenommen. Seite wird von der Suchmaschine ignoriert, als gäbe es sie nicht. Sie taucht nie in den Resultaten auf.

    <meta name=”robots” content=”noarchive”>

    = Die Seite taucht in den Resultaten auf. Die Suchmaschine fertigt aber keine (öffentlich zugängliche) Kopie der Seite an. Der Nutzer hat nicht die Möglichkeit, eine von der Suchmaschine archivierte Version der Seite zu betrachten. Bei Google ginge das so: auf den kleinen Pfeil ▾ klicken, im Menü »Im Cache« wählen.

    Wenn du noindex setzt, impliziert das noarchive. Mittels noindex entfernst du die Seite bereits.

    Grüße
    Mathias

  2. Hallo

    Ich möchte einige Seiten aus den Suchmaschinen löschen.
    Doch welches davon ist der richtige Befehl dafür:

    <meta name=”robots” content=”noindex”>

    oder

    <meta name=”robots” content=”noarchive”>

    oder beides?

    Letzteres, also „und“, da die Seite offensichtlich weder indiziert, noch archiviert werden soll. Allerdings stellt das nicht sicher, dass die Seite aus allen Suchmaschinen gelöscht wird. Einerseits sind diese Angaben kein MUSS, andererseits gibt es zusätzliche Techniken und Vorgehensweisen, um die Erfüllung dieses Wunsches sicher zu stellen.

    Da wäre die robots.txt (Folgeleistung ebenfalls optional), außerdem kannst du bei manchen Suchmaschinenbetreibern angeben, dass die Seite nicht durchsucht und als Suchergebnis bereitgehalten werden soll.

    Tschö, Auge

    --
    Verschiedene Glocken läuteten in der Stadt, und jede von ihnen vertrat eine ganz persönliche Meinung darüber, wann es Mitternacht war.
    Terry Pratchett, "Wachen! Wachen!"
    ie:{ fl:| br:> va:) ls:[ fo:) rl:( ss:| de:> js:| zu:}
    Veranstaltungsdatenbank Vdb 0.3
    1. Letzteres, also „und“, da die Seite offensichtlich weder indiziert, noch archiviert werden soll. Allerdings stellt das nicht sicher, dass die Seite aus allen Suchmaschinen gelöscht wird. Einerseits sind diese Angaben kein MUSS, andererseits gibt es zusätzliche Techniken und Vorgehensweisen, um die Erfüllung dieses Wunsches sicher zu stellen.

      Da wäre die robots.txt (Folgeleistung ebenfalls optional),

      Da muss man wohl vorsichtig sein: Ich habe mal gelesen, dass es da merkwürdige Seiteneffekte geben kann.

      So soll angeblich eine Aufnahme einer Seite in die robots.txt nicht verhindern, dass eine bereits im Index vorhandene Seite auch daraus verschwindet. Im Gegenteil: Ein in den Header der Seite eingefügtes <meta name="robots" content="noindex"> wird von der Suchmaschine ebenfalls nicht berücksichtigt, weil sie sich an die Angabe in der robots.txt hält und die Seite nicht mehr abruft. Als Konsequenz bleibt die Seite im Index (und ggf. im Cache), aber in alter Version.

    2. Auch rechtlich ist die robots.txt kein gutes Argument (ich widerspreche dem BGH).

      Die robots.txt bezieht sich auf das Lesen der Ressourcen. Das Lesen einer öffentlich zugänglichen Ressource kann man nicht verbieten, also ist die robtots.txt auch nicht verbindlich.

      index/noindex und archiv/noarchiv stellt dagegen eine Willenserklärung über eine Nutzungsform dar. Wenn es sich um Inhalte handelt, bei der die Nutzung von der Erlaubnis des Rechteinhabers abhängig ist, dann kann man wohl sagen, daß die Willenserklärung beachtet werden muß. Da keine Suchmaschine den Inhalt charakterisieren kann, muß sie jedes html-Dokument so behandeln als wäre die Nutzung von der Erlaubnis abhängig. Das gilt für das Urheberrecht, Persönlichkeitsrecht und jedes andere mögliche Gesetz. (Die Durchsetzbarkeit steht natürlich auf einem anderen Blatt.)

      1. Hallo

        Auch rechtlich ist die robots.txt kein gutes Argument (ich widerspreche dem BGH).

        Die robots.txt bezieht sich auf das Lesen der Ressourcen. Das Lesen einer öffentlich zugänglichen Ressource kann man nicht verbieten, also ist die robtots.txt auch nicht verbindlich.

        Habe ich das irgendwo behauptet? Ist an „die robots.txt (Folgeleistung ebenfalls optional)“, insbesondere an „optional“ irgendwas missverständlich?

        index/noindex und archiv/noarchiv stellt dagegen eine Willenserklärung über eine Nutzungsform dar. Wenn es sich um Inhalte handelt, bei der die Nutzung von der Erlaubnis des Rechteinhabers abhängig ist, dann kann man wohl sagen, daß die Willenserklärung beachtet werden muß. Da keine Suchmaschine den Inhalt charakterisieren kann, muß sie jedes html-Dokument so behandeln als wäre die Nutzung von der Erlaubnis abhängig. Das gilt für das Urheberrecht, Persönlichkeitsrecht und jedes andere mögliche Gesetz. (Die Durchsetzbarkeit steht natürlich auf einem anderen Blatt.)

        Die Befolgung von noindex und noarchive ist mMn genauso optional wie die Befolgung der Anweisungen in der robots.txt. Wo ist reglementiert, dass das „von der Erlaubnis abhängig“ entspricht? Wie willst du sie erzwingen, wo du es bei der robots.txt nicht kannst?

        Tschö, Auge

        --
        Verschiedene Glocken läuteten in der Stadt, und jede von ihnen vertrat eine ganz persönliche Meinung darüber, wann es Mitternacht war.
        Terry Pratchett, "Wachen! Wachen!"
        ie:{ fl:| br:> va:) ls:[ fo:) rl:( ss:| de:> js:| zu:}
        Veranstaltungsdatenbank Vdb 0.3
        1. Der Breitag sollte eigentlich unter den von TSO. Aber so völlig entstellt ist er durch den Fehler auch nicht, denke ich.

          Die robots.txt bezieht sich auf das Lesen der Ressourcen. Das Lesen einer öffentlich zugänglichen Ressource kann man nicht verbieten, also ist die robtots.txt auch nicht verbindlich.

          Habe ich das irgendwo behauptet?

          In gewisser Weise ja (hast Du doch oder?) und ich habe es untermauert. Ist doch OK oder?

          Ist an „die robots.txt (Folgeleistung ebenfalls optional)“, insbesondere an „optional“ irgendwas missverständlich?

          Nein aber das Wort "ebenfalls" ist nun mal enthalten. Nachdem ich auf die robots.txt eingegangen bin, habe ich die Unterschiede zu noindx dargelegt.

          Die Befolgung von noindex und noarchive ist mMn genauso optional wie die Befolgung der Anweisungen in der robots.txt. Wo ist reglementiert, dass das „von der Erlaubnis abhängig“ entspricht? Wie willst du sie erzwingen, wo du es bei der robots.txt nicht kannst?

          Das habe ich doch gerade erklärt. Wer die robots.txt mißachtet ist dafür rechtlich nicht ohne weiteres angreifbar, weil das Lesen keine extra zustimmungsbedürftige Handlung ist, bzw. die Zustimmung schon damit gegeben wird, daß es öffentlich erreichbar gemacht wird.

          Weitere Handlungen sind damit aber nicht abgedeckt, sie bedürfen ggf. der (weiteren) Zustimmung. Diese Zustimmungsbedürftigkeit ergibt sich ggf. aus mehreren möglichen Gesetzen.  Die Zustimmung kann aber über eine objektive Willenserklärung erfolgen.

          Die Macher von HTML habe sich Gedanken gemacht und die Art von Dokumente sollten typischerweise indexiert werden können/dürfen sollen. Oder liege ich da falsch? Es sollte aber auch die Ausnahme möglich sein. Wer also Inhalte als html-Dokument verbreitet, erteilt damit, daß er diesen dafür erfundenen Dokumenttyp verwendet, objektiv die Zustimmung zur Indexierung, es sein denn er macht nicht diese, sondern eine anderslautende Willenserklärung.

          Selbst wenn wenn man diese Argumentation weitgehend ablehnen sollte, hat der BGH für Bilder auf die robots.txt verwiesen*. Wenn die robots.txt eine Willenserklärung für Bilder ist, dann ist noindex erst recht eine Willenserklärung für das Dokument in dem sie steht.

          * Der BGH hat dort lamentiert von wegen ... Internet ... wird der Urheber schon wollen ... hat sich so eingebürgert ... aber mit der Verwendung der robots.txt kann man der Indexierung von Bildern widersprechen. Es hat sich aber nicht einfach so eingebürgert, es ist bei der breiten Masse nur der Eindruck entstanden, weil über lange Zeit immer mehr html-Dokumente ohne noindex indexiert wurden. Dokumente mit noindx wurden nicht über Suchmaschinen gefunden und wenn der Nutzer doch auf eine kam, hat er nichts vom noindx erfahren/gemerkt. Was sich eingebürgert hat, sind html-Dokumente und das was darus folgt.

          Die robots.txt kann diese Aufgabe nicht erfüllen, weil sie allgemein (objektiv) sagt "bitte lies diese Datei nicht, obwohl ich sie frei zugänglich mache und Du sie damit ohne Genehmigung lesen darfst".

          Ich bin daher der Meinung, auch beim Fehlen einer robots.txt dürfen keine weitergehende Handlungen an Bildern oder anderen Dokumenten vorgenommen werden. Ein Konstrukt wie das von index/noindx gibt es, so weit ich weiß, für keinen anderem Dokumenttyp. Es müßte geschaffen werden, wenn solche Inhalte indexiert werden können/dürfen sollen. Zu den Zeiten als sich html entwickelt hat, hat sich kaum jemand darüber Gedanken gemacht, daß Bilder in Suchmaschinen aufgenommen werden könnten und es gibt Bilder im Internet, die da schon länger liegen als es Bildersuchmaschinen gibt (die Genehmigung für weitere Handlungen als das Lesen kann vom hochladenden also gar nicht konkludent erteilt worden sein).

          1. Hallo

            Der Breitag sollte eigentlich unter den von TSO. Aber so völlig entstellt ist er durch den Fehler auch nicht, denke ich.

            Die robots.txt bezieht sich auf das Lesen der Ressourcen. Das Lesen einer öffentlich zugänglichen Ressource kann man nicht verbieten, also ist die robtots.txt auch nicht verbindlich.

            Habe ich das irgendwo behauptet?

            In gewisser Weise ja (hast Du doch oder?) …

            Nö, nie und nimmer nicht!

            Ist an „die robots.txt (Folgeleistung ebenfalls optional)“, insbesondere an „optional“ irgendwas missverständlich?

            Nein aber das Wort "ebenfalls" ist nun mal enthalten.

            Es ist enthalten und bezieht sich auf den vorausgehenden Absatz. Der dortige Satz „Allerdings stellt [noindex/noarchive] nicht sicher, dass die Seite aus allen Suchmaschinen gelöscht wird“ spiegelt meine (der deinen widersprechende) Ansicht wider, dass die Verwendung der Metatags nicht seine Befolgung sicherstellt, somit die Befolgung gewissermaßen optional ist.

            Das Eine funktioniert soundso (nicht sicher), das Andere ebenfalls.

            Nachdem ich auf die robots.txt eingegangen bin, habe ich die Unterschiede zu noindx dargelegt.

            Die Befolgung von noindex und noarchive ist mMn genauso optional wie die Befolgung der Anweisungen in der robots.txt. Wo ist reglementiert, dass das „von der Erlaubnis abhängig“ entspricht? Wie willst du sie erzwingen, wo du es bei der robots.txt nicht kannst?

            Das habe ich doch gerade erklärt.

            Naja, du hast *deine Ansicht*, dass die Metatags befolgt werden müss(t?)en, erklärt. Dass das juristisch so ist, bezweifle ich, technisch (und damit praktisch) verneine ich deine Ansicht erst recht.

            Tschö, Auge

            --
            Verschiedene Glocken läuteten in der Stadt, und jede von ihnen vertrat eine ganz persönliche Meinung darüber, wann es Mitternacht war.
            Terry Pratchett, "Wachen! Wachen!"
            ie:{ fl:| br:> va:) ls:[ fo:) rl:( ss:| de:> js:| zu:}
            Veranstaltungsdatenbank Vdb 0.3
            1. Nö, nie und nimmer nicht!

              Welcher Ansicht zur robotstxt bist Du dann? (Oder hast Du deine Ansicht nie irgendwo behauptet?)

              Es ist enthalten und bezieht sich auf den vorausgehenden Absatz.

              Vielleicht ist es doch erheblicher, daß mein Beitrag eigentlich eine Ergänzung zu TOS Beitrag war und nicht eine Antwort auf deinen darstellen sollte.

              Dennoch: "Folgeleistung ebenfalls optional" Die Folgeleistung ist bei noindex im Gegensatz zur robots.txt eben nicht optional, zumindest meiner Meinung nach.

              Der dortige Satz „Allerdings stellt [noindex/noarchive] nicht sicher, dass die Seite aus allen Suchmaschinen gelöscht wird“ spiegelt meine (der deinen widersprechende) Ansicht wider, dass die Verwendung der Metatags nicht seine Befolgung sicherstellt,

              Bei nachträglichen Änderungen von index zu noindex und archiv zu noarchiv, wird es rechtlich schwierig (Zurückziehen von Nutzungsrechten ist schwierig), weswegen ich dazu nicht auch noch was sagen und mich gar nicht so direkt auf deinen Beitrag beziehen wollte.

              somit die Befolgung gewissermaßen optional ist.

              Das Eine funktioniert soundso (nicht sicher), das Andere ebenfalls.

              Du bezeichnest es als optional, weil es nicht sicher befolgt wird? Selbst, wenn es (unterstellt) befogt werden müßte? Dann fände ich die Formulierung irreführend. Und zur Schwierigkeit der Durchsetzung habe ich auch schon eine Kleinigkeit geschrieben.

              Naja, du hast *deine Ansicht*, dass die Metatags befolgt werden müss(t?)en, erklärt. Dass das juristisch so ist, bezweifle ich,

              Nun, der BGH hat noch gewagter argumentiert. Und Du müßtest jetzt erklären (oder wenigstens eine Meinung dazu haben), warum das Urheberrecht und andere Gesetze für Suchmaschinen nicht gelten oder aufgrund welcher Schranke(n) eine Suchmaschine entsprechende Inhalte in den Index aufnehmen und archivieren darf.

              technisch (und damit praktisch) verneine ich deine Ansicht erst recht.

              Wenn Du so nett wärst, das zu erklären. Außer es geht nur darum, daß es optional in dem Sinne ist, daß es in der Praxis nicht sicher umgesetzt wird, die Diskussion können wir uns schenken, falls wir dahingehend überhaupt verschiedener Ansicht sind.

              1. Hallo

                Nö, nie und nimmer nicht!

                Welcher Ansicht zur robotstxt bist Du dann? (Oder hast Du deine Ansicht nie irgendwo behauptet?)

                Doch, auch hier im Archiv <rumsuch /> da issa, der und folgende.

                Es ist enthalten und bezieht sich auf den vorausgehenden Absatz.

                Vielleicht ist es doch erheblicher, daß mein Beitrag eigentlich eine Ergänzung zu TOS Beitrag war und nicht eine Antwort auf deinen darstellen sollte.

                Kann wohl sein. :-)

                Dennoch: "Folgeleistung ebenfalls optional" Die Folgeleistung ist bei noindex im Gegensatz zur robots.txt eben nicht optional, zumindest meiner Meinung nach.

                Siehste, da trennen sich unsere Meinungen.

                Bei nachträglichen Änderungen von index zu noindex und archiv zu noarchiv, wird es rechtlich schwierig (Zurückziehen von Nutzungsrechten ist schwierig), weswegen ich dazu nicht auch noch was sagen und mich gar nicht so direkt auf deinen Beitrag beziehen wollte.

                Von einem die Metatags beachtenden Dienst ausgehend, vermute ich, dass der den Inhalt aus dem Index und aus dem Archiv nimmt, wenn die Seite es ansagt. Ich halte es aber für naiv, davon auszugehen, dass sich alle Dienste an die Metatags halten.

                somit die Befolgung gewissermaßen optional ist.

                Du bezeichnest es als optional, weil es nicht sicher befolgt wird? Selbst, wenn es (unterstellt) befogt werden müßte? Dann fände ich die Formulierung irreführend.

                Ja und mag sein.

                Naja, du hast *deine Ansicht*, dass die Metatags befolgt werden müss(t?)en, erklärt. Dass das juristisch so ist, bezweifle ich,

                Nun, der BGH hat noch gewagter argumentiert. Und Du müßtest jetzt erklären (oder wenigstens eine Meinung dazu haben), warum das Urheberrecht und andere Gesetze für Suchmaschinen nicht gelten oder aufgrund welcher Schranke(n) eine Suchmaschine entsprechende Inhalte in den Index aufnehmen und archivieren darf.

                1. Ich bin kein Jurist.
                2. Ich gutiere Urheberrecht, auch wenn ich die konkrete Ausgestaltung an vielen Stellen für falsch erachte.
                3. Dienstanbieter haben sich natürlich an Gesetze zu halten. Inwieweit jeweils unterschiedliche nationale Gesetze für einen international angebotenen Dienst umsetzbar sind, sei hier dahingestellt.
                4. Google und andere (mehr oder minder bekannte) Suchmaschinen halten sich offensichtlich an die Metatagangaben. Ich vermute, dass sie das nicht unbedingt wegen irgendwelcher Gesetze oder Urteile tun.
                5a. Das in 4. postulierte stellt keineswegs sicher, dass das alle anderen Dienste ebenfalls tun.
                5b. Das in 4. postulierte beweist ebenfalls nicht, dass die fraglichen Metaangaben (juristisch) verbindlicheren Charakter haben als die robots.txt.

                Übrigens, um klarzustellen, um welches BGH-Urteil es geht. Ist es jeses, um das es in diesem Zeit-Beitrag geht? Es ist zumindest das, an das ich bei unserem Hin-und-her immer denke.

                *btw* Aus heutiger Sicht sind die letzten zwei Absätze interessant. :-)

                technisch (und damit praktisch) verneine ich deine Ansicht erst recht.

                Wenn Du so nett wärst, das zu erklären.

                Was ich über die Umsetzbarkeit der Erzwingung der Befolgung halte, sollte aus meinen vorherigen Beiträgen und auch obigen Aussagen hervorgegangen sein.

                Außer es geht nur darum, daß es ptional in dem Sinne ist, daß es in der Praxis nicht sicher umgesetzt wird, die Diskussion können wir uns schenken, falls wir dahingehend überhaupt verschiedener Ansicht sind.

                Ich vermute, da besteht keine Diskrepanz in unseren Ansichten, womit wir aber wieder zwei Absätze weiter oben sind (5a).

                Tschö, Auge

                --
                Verschiedene Glocken läuteten in der Stadt, und jede von ihnen vertrat eine ganz persönliche Meinung darüber, wann es Mitternacht war.
                Terry Pratchett, "Wachen! Wachen!"
                ie:{ fl:| br:> va:) ls:[ fo:) rl:( ss:| de:> js:| zu:}
                Veranstaltungsdatenbank Vdb 0.3
                1. Übrigens, um klarzustellen, um welches BGH-Urteil es geht. Ist es jeses, um das es in diesem Zeit-Beitrag geht? Es ist zumindest das, an das ich bei unserem Hin-und-her immer denke.

                  Das Google-Bildersuche-Urteil, stimmt, sorry. Das hätte ich klarstellen können/sollen. Mir ist zwar kein anderes Urteil bekannt, welches ich gemeint haben könnte aber nicht jeder der hier eventuell mitliest ist entsprechend informiert.

                  *btw* Aus heutiger Sicht sind die letzten zwei Absätze interessant. :-)

                  Das kann ich nur bedingt nachvollziehen. ... gelöscht ...

                  Nachdem ich noch etwas weiter gelesen habe, erscheint es mir sinnlos, sich mit dem Inhalt des Artikels zu befassen. Der Eindruck daß der Autor ein Schlendrian ist, überdeckt alle  Interpretationen des Inhalts.

          2. Ein Konstrukt wie das von index/noindx gibt es, so weit ich weiß, für keinen anderem Dokumenttyp. Es müßte geschaffen werden, wenn solche Inhalte indexiert werden können/dürfen sollen.

            Naja, der Server kann – unabhängig vom Dateityp – in den HTTP-Headern das X-Robots-Tag ausliefern.
            Aber wie das X bereits andeutet ist es kein offizielles Tag und ob außer der Suchmaschine mit dem großen G irgendjemand das beachtet ist auch hier wieder fraglich.

            1. Naja, der Server kann – unabhängig vom Dateityp – in den HTTP-Headern das X-Robots-Tag ausliefern.
              Aber wie das X bereits andeutet ist es kein offizielles Tag und ob außer der Suchmaschine mit dem großen G irgendjemand das beachtet ist auch hier wieder fraglich.

              Die Angabe sollte auch besser in der Datei / im Dokument verankert sein, denn wenn die erst mal gespeichert ist, wo ist dann der ausliefernde header.

              Auch Angaben in einbindenden Dokumenten sind nicht sinnvoll, falls auch hier noch jemand auf die Idee kommt, denn ein Bild kann in mehreren aber auch in keinem Dokument eingebunden sein.

  3. @@Meike:

    nuqneH

    Doch welches davon ist der richtige Befehl dafür:

    321...

    <meta name=”robots” content=”noindex”>
    oder
    <meta name=”robots” content=”noarchive”>
    oder beides?

    Keines. Die Anführungszeichen sind falsch. In HTML muss " oder ' stehen. (Keine Anführungszeichen ginge in dem Fall auch, würde ich aber nicht empfehlen.)

    Qapla'

    --
    „Talente finden Lösungen, Genies entdecken Probleme.“ (Hans Krailsheimer)