Forum Doku Wiki Blog

Forumsarchiv 2009, Februar
robots.txt

archivierte Beiträge lesen

  1. (SONSTIGES) robots.txt von Gast, 14. 02. 2009, 17:08

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 17:08 Uhr von Gast veröffentlicht.

Guten Tag,
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e   meine Unterverzeichnisse verhindern?

Disallow: /*/

Kann ich die Verhaltensweise der Bots selbst testen/feststellen?

Danke für Ihre Hilfe!

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 17:24 Uhr von Beat veröffentlicht.

> kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
> a l l e   meine Unterverzeichnisse verhindern?
>
> Disallow: /*/

Nein
Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle

nimm .htaccess

> Kann ich die Verhaltensweise der Bots selbst testen/feststellen?
Jeder Bot verhält sich bezüglich robots.txt anders.

mfg Beat
--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:00 Uhr von Gast veröffentlicht.

Hallo,
> Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
>
woher kommt diese Information?
Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt

> nimm .htaccess
>
Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?

Gruß

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:03 Uhr von Cheatah veröffentlicht.

Hi,

> »» Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
> woher kommt diese Information?

aus der Realität. Ein Bot unterscheidet sich von einem Browser nur in unwesentlichen Details - und hast Du jemals einen Browser mittels robots.txt daran hindern können, eine Seite aufzurufen?

> Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt

Ja, _ordentliche_ _Suchmaschinen_ tun das. Bots sind weder beschränkt auf Suchmaschinen, noch auf ordentliche.

> »» nimm .htaccess

Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.

> Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?

Natürlich. Browser sind schließlich nutzergesteuerte Bots mit (zumeist) graphischer Ausgabe.

Cheatah

--
X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
X-Will-Answer-Email: No
X-Please-Search-Archive-First: Absolutely Yes

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:10 Uhr von Gast veröffentlicht.

Hallo,
>
> »» »» nimm .htaccess
>
> Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.
>
Das verstehe ich leider nicht, denn das verbinde ich mit User/password-Anforderung, was ich natürlich nicht möchte.

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:14 Uhr von Gast veröffentlicht.

... und gerade lese ich in SELFHTML:

"In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."

Ich darf demnach etwas festlegen, was aber für die Katz ist?

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:23 Uhr von Auge veröffentlicht.

Hallo

> "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
>
> Ich darf demnach etwas festlegen, was aber für die Katz ist?

Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:29 Uhr von Gast veröffentlicht.

Hallo
>
>
> Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
>
Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:38 Uhr von zaphod1984 veröffentlicht.

> Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.

im internet fliegen fürchterlich viele dinge herum die nicht nützlich sind.
es ist auch nicht nützlich dass sich mircrosoft mit dem IE nicht an standards hält, sie tun es trotzdem.



--
for your security, this text has been encrypted by ROT13 twice.

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 19:24 Uhr von Auge veröffentlicht.

Hallo

> »» Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
> »»
> Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.

Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 11:52 Uhr von Gast veröffentlicht.


>
> Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
>
Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 12:21 Uhr von Peter veröffentlicht.

Hi,

> Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
> Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

Du kannst nicht alle Forumsteilnehmer über einen Kamm scheren. vielleicht ist das mal lesenswert für dich:

http://forum.de.selfhtml.org/archiv/2009/1/t181871/#m1203170

oder das:

http://forum.de.selfhtml.org/archiv/2008/4/t170202/#m1113307


So können Meinungen halt verschieden sein.

Peter

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 13:26 Uhr von Auge veröffentlicht.

Hallo

> »» Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
> »»
> Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!

Nein, da (SELFHTML: robots.txt - Robots kontrollieren) steht nämlich nicht nur das von dir in diesem Posting zitierte, sondern (schon vorher) auch folgendes:

<zitat>In einer Datei dieses Namens können Betreiber von Web-Projekten angeben, welcher Such-Robot welche Projektverzeichnisse auslesen darf und welcher was nicht lesen darf. Die Datei enthält also Anweisungen für Robots von Suchmaschinen. Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>

Was schlössest du insbesondere aus dem letzten Satz (), wenn dich das Thema nicht so anföchte? Mir käme da zuerst in den Sinn, dass es eine "Kann-Ergänzung" ist. Es hilft mir, denen Vorgaben zu geben, die sich daran halten aber ich kann mich schlussendlich auf nichts verlassen.

Dies auch, da im vorletzten Absatz der Seite folgendes zu lesen ist:

<zitat>Web-Browser ignorieren die robots.txt. Es ist also nicht möglich, damit Daten vor Anwendern zu schützen.</zitat>

Wenn wir nun davon ausgehen, dass jeder Zugriff von außen von einem (beliebigen; *kann* ein Browser sein, aber eben z.B. auch ein Robot) Client stammt, sollte klar sein, dass die robots.txt ganz allgemein nicht zu dem von dir angestrebten Zweck taugt. Dass sich ein Browser und ein Robot im Kontext des kontaktierten Servers nicht unterscheiden, hat Cheatah ja schon hier angesprochen.

> Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

Ich sehe dort keine Differenzen.

Nimm einfach hin, dass du für deinen Zweck eine andere Technik als robots.txt brauchst. Eventuell solltest du auch an eine Überarbeitung deines Konzepts denken. *Wir*, als die dir hier antwortenden, wissen ja nicht mehr, als dass du Robots den Zugriff auf alle Unterverzeichnisse verbieten, für Browser aber offensichtlich offenhalten willst.

Frage: Was darf der Browser dort finden, was keinen Robot etwas angeht?

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 15:19 Uhr von Gast veröffentlicht.

Hallo,
danke für die umfangreiche Erklärung.
>
>
> <zitat>.... Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>
>
Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
Diese Frage war:
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e   meine Unterverzeichnisse verhindern?

Disallow: /*/


Also nicht "Kann ich     a l l e     Robots daran hindern", sondern ich wollte nicht für jedes Unterverzeichnis ein Disallow angeben.

Gefunden hatte ich nur, dass Wild-cards im Dateinamen zulässig sind, nicht aber ob auch in Verzeichnisnamen.
Gruß

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 16:41 Uhr von Peter veröffentlicht.

Hi,

> Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.

Das bringt dir auch nichts. Du brauchst nur irgendwo deine Links mit ein wenig Bezugstext auf anderen Seiten zu haben, dann erscheint, sofern diese fremde Seite bei den Suchmaschinenergebnissen auftaucht eben auch der Bezug zu deinen (nicht gewollten indexierten) Seiten.

Solange man fremden Seiten(unter dem Deckmantel Suchmaschine) nicht verbieten kann Inhalte zu indexieren, landen sie über den Umweg auch zu den Grossen.


Peter

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 17:40 Uhr von Gast veröffentlicht.

Hallo,
>
> Das bringt dir auch nichts.

mit andern Worten "robots.txt gar nicht verwenden"?

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 17:46 Uhr von Beat veröffentlicht.

> > Das bringt dir auch nichts.
> mit andern Worten "robots.txt gar nicht verwenden"?

Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.

mfg Beat
--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 20:16 Uhr von Youngster veröffentlicht.

Hi,

> »» > Das bringt dir auch nichts.
> »» mit andern Worten "robots.txt gar nicht verwenden"?
>
> Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.

da ich gerade mit Google-Webmaster kämpfe, bin ich zum Glück (oder Unglück?)
auf diesen thread gestoßen.
Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
Also alles umsonst?

Viele Grüße
Youngster

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 20:23 Uhr von Beat veröffentlicht.

> > Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.

> Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
> Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
> Also alles umsonst?

Nein, nicht umsonst. Wie ich sage. Robots txt ist gut für die Server-Performance.
Aber es ist keine Sicherheitsvorrichtung.

mfg Beat
--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 21:54 Uhr von Auge veröffentlicht.

Hallo

> Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
> Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
> Also alles umsonst?

bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus". Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.

Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben. An der Stelle hilft die robots.txt den direkten Zugriff für jene Clients/Robots zu sperren, die sich nach den in der robots.txt hinterlegten Anweisungen richten. Die, die sich nicht danach richten, haben, wie jeder Browser, der Bilder lädt, weiterhin Zugriff.

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

Nachtrag

Der folgende Beitrag wurde am 15. 02. 2009, 21:56 Uhr von Auge veröffentlicht.

Hallo

> »» Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..

> Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben.

Das gilt natürlich auch für andere Ressourcen, die vom Browser geladen werden sollen, also auch für JavaScript-Bibliotheken.

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 12:20 Uhr von Youngster veröffentlicht.

Hallo
>
>
> bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus".
Das möchte ich auch nicht, sondern es genügt mir, wenn Google und andere "anständige" Suchmaschinen nicht -zig Informationen lesen/speichern, die uninteressant sind.
> Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
>
Das was Du schreibst ist also für mich das passende.
Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
(ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).
Danke
Youngster

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 12:44 Uhr von Auge veröffentlicht.

Hallo

> »» Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
> »»
> Das was Du schreibst ist also für mich das passende.
> Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
> (ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).

Tststs, dabei haben wir doch zwei Artikel, die sich mit dem Thema beschäftigen. Die sind zwar beide älteren Datums, aber dennoch sind die Informationen grundsätzlich auch heute noch gültig. Speziell beim ersten verlinkten Artikel ist noch zu sagen, dass dort von crypt zum Verschlüsseln die Rede ist und auch das unten auf der Seite befindliche Formular einen eingegebenen String mit crypt verschlüsselt.

Es kann aber (und dürfte) sein, dass dein Hoster andere Verschlüsselungsmethoden anbietet. Meist ist es heutzutage auch so, dass die Hoster in der Serververwaltung (z.B. Parallels Confixx) den Service anbieten, dass man selbst Verzeichnisse schützen kann. Dann bräuchtest du nur in der Oberfläche das entsprechende Verzeichnis auswählen und einen Benutzernamen und ein Passwort eintragen. Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.

.htaccess Zugriffskontrolle
.htaccess-FAQ

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 14:32 Uhr von Youngster veröffentlicht.

Hallo,
>

> Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
>
Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?
Gruß
Youngster

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 15:29 Uhr von Auge veröffentlicht.

Hallo

> »» Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
>
> Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
> Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
> Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?

Ja, denn .htaccess gilt im HTTP-Kontext, nicht in dem des Dateisystems. Will jemand via HTTP auf eine Ressource im geschützten Verzeichnis zugreifen (jemand mit Browser, (Ro)bot, fremder Server, ...), braucht er Benutzername und Passwort, hat er die nicht (wovon erstmal auszugehen ist), wird er zurückgewiesen (403, access denied). Wenn SSI auf Dateien zugreift, um weiteren Code oder HTML-Schnipsel einzubinden, wird dies über das Dateisystem erledigt, wo, wie gesagt, .htaccess nicht greift.

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 15:40 Uhr von Youngster veröffentlicht.

Danke für die Auskünfte!

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 21:26 Uhr von Youngster veröffentlicht.

Hallo,

> Diese Frage war:
> kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
> a l l e   meine Unterverzeichnisse verhindern?
>
> Disallow: /*/
>
>
Ich meine, das geht. Und ich glaube im Google-Webmaster-Paket gelesen zu haben, dass man die Wirkung von robots.txt testen kann!?

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 12:31 Uhr von Struppi veröffentlicht.

> Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
> Diese Frage war:
> kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
> a l l e   meine Unterverzeichnisse verhindern?
>
> Disallow: /*/

Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html

Wenn dir wirklich nur um den Zugriff geht, dann ist die robots.txt der richtige Weg. Aber dir muss klar sein, dass du damit nicht verhindern kannst, dass die Seiten im Ergebnis von Suchmaschinen landen.

Struppi.

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 15:35 Uhr von Youngster veröffentlicht.

Hallo,
>
> Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
>
Siehe aber
Yahoo

+++ WARNUNG +++

Der folgende Beitrag wurde am 16. 02. 2009, 17:07 Uhr von Peter veröffentlicht.

Hi,


++++ WARUNUNG ++++

> Siehe aber
> Yahoo

Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!

Peter

+++ WARNUNG +++

Der folgende Beitrag wurde am 16. 02. 2009, 17:12 Uhr von Youngster veröffentlicht.

Was hast du für einen Browser?
Meine 5 im Einsatz befindlichen packen es!

Yahoo
> Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!


Youngster

+++ WARNUNG +++

Der folgende Beitrag wurde am 16. 02. 2009, 17:14 Uhr von Peter veröffentlicht.

> Was hast du für einen Browser?
> Meine 5 im Einsatz befindlichen packen es!
>

Wie gesagt IE6, und das reproduzierbar. Ärgerlich, weil ich auch andere Seiten offen hatte.

Peter

robots.txt

Der folgende Beitrag wurde am 16. 02. 2009, 12:50 Uhr von Auge veröffentlicht.

Hallo

> danke für die umfangreiche Erklärung.

Dann gleich noch ein wenig Lesefutter, das auch gleich deine Frage nach der richtigen Syntax beantwortet. Dass sie so, wie unten geschrieben, falsch ist, hat Struppi ja schon angemerkt. :-)

Zugriffskontrolle für Suchmaschinen mit robots.txt

> Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
> Diese Frage war:
> kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
> a l l e   meine Unterverzeichnisse verhindern?
>
> Disallow: /*/

Tschö, Auge

--
Die deutschen Interessen werden am Liechtenstein verteidigt.

Veranstaltungsdatenbank Vdb 0.2

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 13:49 Uhr von Beat veröffentlicht.

> Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

Glaube ist im Internet ein höchst unzuverlässiges Protokoll.
Diskussion gestorben.

mfg Beat
--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:27 Uhr von ChrisB veröffentlicht.

Hi,

> "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
>
> Ich darf demnach etwas festlegen, was aber für die Katz ist?

Was ist denn daran so schwer zu verstehen?

Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?

MfG ChrisB


--
„This is the author's opinion, not necessarily that of Starbucks.“

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:31 Uhr von Gast veröffentlicht.

>
> Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?
>
Meine Frage war aber "wie kann man verhindern, dass ......"
und nicht "wie kann ich höflichst bitten, dass ..."

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:38 Uhr von ChrisB veröffentlicht.

Hi,

> Meine Frage war aber "wie kann man verhindern, dass ......"
> und nicht "wie kann ich höflichst bitten, dass ..."

Dazu wurden dir Moeglichkeiten genannt.
Wenn diese auch nicht das sind, was du wirklich willst - dann musst du erst mal genauer definieren, was du wirklich willst.

MfG ChrisB


--
„This is the author's opinion, not necessarily that of Starbucks.“

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 11:33 Uhr von dedlfix veröffentlicht.

echo $begrüßung;

> Meine Frage war aber "wie kann man verhindern, dass ......"
> und nicht "wie kann ich höflichst bitten, dass ..."

Dann musst du eine Zugriffsbeschränkung und keine -empfehlung verwenden. Mit mod_rewrite kann man solche fallweise implementieren.

  RewriteRule requestmuster - [F]

Das schreibt alle Requests, die requestmuster entsprechen in nichts um und gibt einen 403er (forbidden) an den Client. Diese Regel kannst du mit einer oder mehreren Bedingung ausstatten (die vor die jeweilige RewriteRule zu schreiben ist).

  RewriteCond %{HTTP_USER_AGENT} agentmuster

Da gibt es nur noch ein Problem. Wie alles was vom Client kommt, ist auch die Angabe zum Useragent beliebig manipulierbar und wie du sicher weißt, kann sich jeder Wolf als Geißlein ausgeben.


P.S. http://httpd.apache.org/docs antwortet grad nicht, so dass ich beide oben angegebenen Direktiven nicht verlinken kann.


echo "$verabschiedung $name";

robots.txt

Der folgende Beitrag wurde am 14. 02. 2009, 18:15 Uhr von Beat veröffentlicht.

> Hallo,
> > Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
> >
> woher kommt diese Information?
> Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
> Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt

Nein, gewiss nicht, wenn du den Zugriff verbieten willst.

Zitat
> kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
> a l l e   meine Unterverzeichnisse verhindern?

Robots txt steuert, ob Seiten öffentlich indexiert werden. Daran mag sich ein teil der Bots, die sich als Index Bots ausgeben, halten.

Dummerweise ist der robots.txt Standard dermassen lausig, das es nicht einmal eine ordentliche Syntax gibt die verschiedenen Bots mit Sicherheit anzusprechen.

Zu robots text gibt es auch die Möglichkeit mit dem <meta> Element Seitenweise eine Empfehlung auszugeben.
http://de.selfhtml.org/html/kopfdaten/meta.htm#robots

> > nimm .htaccess
> Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?

Es gilt für jene Agents, welche du in einer besonderen Weise erkennst.

Du kannst mit htaccess kontrollieren, dass Google nicht nur ein ordentlicher Browser ist, sondern unter seinem Deckmantel als Google Bot auch nicht in der Lage ist, Bilder zu indexieren.

Separiere was du brauchst.
Robots Text als Empfehlung. .htaccess aber als zwingende Regel, und im Sinne eines absoluten Verzeichnisschutzes wie Cheatah sagt, mittels HTTP Authentification (die nicht zwingend an ein .htaccess File gebunden ist).

mfg Beat
--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o

robots.txt

Der folgende Beitrag wurde am 15. 02. 2009, 13:25 Uhr von JürgenB veröffentlicht.

Hallo Gast,

wenn ich diese Diskussion so lese, habe ich das Gefühl, du hast irgendwie eine falsche Vorstellung davon, wie das Internet so läuft. Alles was du ins Internet stellst, kann von jedem eingesehen werden. Es wurde dir schon gesagt, wie du Suchmaschinen "höflichst" darum bitten kannst, deine Seiten zu ignorieren. Ob sie sich daran halten, wer weiß? Die Großen und Bekannten tun es meines Wissens nach.

Wenn du einzelne Besucher, z.B. Bots, ausgrenzen möchtest, kannst du das über die Vergabe von Passwörtern tun. Es kann aber immer sein, dass jemand das Passwort (unfreiwillig) verrät. Du kannst auch Besucher über deren IP oder über ganze IP-Bereiche aussperren, dann musst du aber ständig prüfen, ob deine Ausschlussliste noch ausreicht.

Am sichersten sind deine Seiten, wenn du sie auf deiner Festplatte, oder besser noch auf CD/DVD im Schrank lässt.

Vielleicht verrätst du uns mal, was du erreichen willst und warum du die Bots aussperren willst und wie sicher der Schutz sein soll.


Gruß, Jürgen

© 1998-2013 SELFHTMLImpressumSoftware: Classic Forum 3.4