robots.txt von Gast, 14.02.2009 17:08

robots.txt

Gast 14.02.2009 17:08

sonstiges

Guten Tag,
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?

Disallow: /*/

Kann ich die Verhaltensweise der Bots selbst testen/feststellen?

Danke für Ihre Hilfe!

Beitrag melden

– Informationen zu den Bewertungsregeln

robots.txt
Beat Homepage des Autors 14.02.2009 17:24

sonstiges
– Informationen zu den Bewertungsregeln
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e   meine Unterverzeichnisse verhindern?

Disallow: /*/

Nein
Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle

nimm .htaccess

Kann ich die Verhaltensweise der Bots selbst testen/feststellen?

Jeder Bot verhält sich bezüglich robots.txt anders.

mfg Beat

--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots.txt
  
  Gast 14.02.2009 18:00
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Hallo,
  
  Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
  
  woher kommt diese Information?
  Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
  Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt
  
  nimm .htaccess
  
  Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?
  
  Gruß
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robots.txt
    
    Cheatah 14.02.2009 18:03
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Hi,
    
    »» Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
    woher kommt diese Information?
    
    aus der Realität. Ein Bot unterscheidet sich von einem Browser nur in unwesentlichen Details - und hast Du jemals einen Browser mittels robots.txt daran hindern können, eine Seite aufzurufen?
    
    Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt
    
    Ja, _ordentliche_ _Suchmaschinen_ tun das. Bots sind weder beschränkt auf Suchmaschinen, noch auf ordentliche.
    
    »» nimm .htaccess
    
    Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.
    
    Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?
    
    Natürlich. Browser sind schließlich nutzergesteuerte Bots mit (zumeist) graphischer Ausgabe.
    
    Cheatah
    
    --
    X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robots.txt
      
      Gast 14.02.2009 18:10
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Hallo,
      
      »» »» nimm .htaccess
      
      Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.
      
      Das verstehe ich leider nicht, denn das verbinde ich mit User/password-Anforderung, was ich natürlich nicht möchte.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. robots.txt
        
        Gast 14.02.2009 18:14
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        ... und gerade lese ich in SELFHTML:
        
        "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
        
        Ich darf demnach etwas festlegen, was aber für die Katz ist?
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Auge 14.02.2009 18:23
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
        
        Ich darf demnach etwas festlegen, was aber für die Katz ist?
        
        Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Gast 14.02.2009 18:29
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
        
        Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        zaphod1984 14.02.2009 18:38
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.
        
        im internet fliegen fürchterlich viele dinge herum die nicht nützlich sind.
        es ist auch nicht nützlich dass sich mircrosoft mit dem IE nicht an standards hält, sie tun es trotzdem.
        
        --
        for your security, this text has been encrypted by ROT13 twice.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Auge 14.02.2009 19:24
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        »» Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
        »»
        Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.
        
        Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Gast 15.02.2009 11:52
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
        
        Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
        Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Peter 15.02.2009 12:21
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
        Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
        
        Du kannst nicht alle Forumsteilnehmer über einen Kamm scheren. vielleicht ist das mal lesenswert für dich:
        
        http://forum.de.selfhtml.org/archiv/2009/1/t181871/#m1203170
        
        oder das:
        
        http://forum.de.selfhtml.org/archiv/2008/4/t170202/#m1113307
        
        So können Meinungen halt verschieden sein.
        
        Peter
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Auge 15.02.2009 13:26
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        »» Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
        »»
        Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
        
        Nein, da (<http://de.selfhtml.org/diverses/robots.htm@title=SELFHTML: robots.txt - Robots kontrollieren>) steht nämlich nicht nur das von dir in diesem Posting zitierte, sondern (schon vorher) auch folgendes:
        
        <zitat>In einer Datei dieses Namens können Betreiber von Web-Projekten angeben, welcher Such-Robot welche Projektverzeichnisse auslesen darf und welcher was nicht lesen darf. Die Datei enthält also Anweisungen für Robots von Suchmaschinen. Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>
        
        Was schlössest du insbesondere aus dem letzten Satz (), wenn dich das Thema nicht so anföchte? Mir käme da zuerst in den Sinn, dass es eine "Kann-Ergänzung" ist. Es hilft mir, denen Vorgaben zu geben, die sich daran halten aber ich kann mich schlussendlich auf nichts verlassen.
        
        Dies auch, da im vorletzten Absatz der Seite folgendes zu lesen ist:
        
        <zitat>Web-Browser ignorieren die robots.txt. Es ist also nicht möglich, damit Daten vor Anwendern zu schützen.</zitat>
        
        Wenn wir nun davon ausgehen, dass jeder Zugriff von außen von einem (beliebigen; *kann* ein Browser sein, aber eben z.B. auch ein Robot) Client stammt, sollte klar sein, dass die robots.txt ganz allgemein nicht zu dem von dir angestrebten Zweck taugt. Dass sich ein Browser und ein Robot im Kontext des kontaktierten Servers nicht unterscheiden, hat Cheatah ja schon hier angesprochen.
        
        Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
        
        Ich sehe dort keine Differenzen.
        
        Nimm einfach hin, dass du für deinen Zweck eine andere Technik als robots.txt brauchst. Eventuell solltest du auch an eine Überarbeitung deines Konzepts denken. *Wir*, als die dir hier antwortenden, wissen ja nicht mehr, als dass du Robots den Zugriff auf alle Unterverzeichnisse verbieten, für Browser aber offensichtlich offenhalten willst.
        
        Frage: Was darf der Browser dort finden, was keinen Robot etwas angeht?
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Gast 15.02.2009 15:19
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo,
        danke für die umfangreiche Erklärung.
        
        <zitat>.... Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>
        
        Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
        Diese Frage war:
        kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
        a l l e   meine Unterverzeichnisse verhindern?
        
        Disallow: /*/
        
        Also nicht "Kann ich     a l l e     Robots daran hindern", sondern ich wollte nicht für jedes Unterverzeichnis ein Disallow angeben.
        
        Gefunden hatte ich nur, dass Wild-cards im Dateinamen zulässig sind, nicht aber ob auch in Verzeichnisnamen.
        Gruß
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Peter 15.02.2009 16:41
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
        
        Das bringt dir auch nichts. Du brauchst nur irgendwo deine Links mit ein wenig Bezugstext auf anderen Seiten zu haben, dann erscheint, sofern diese fremde Seite bei den Suchmaschinenergebnissen auftaucht eben auch der Bezug zu deinen (nicht gewollten indexierten) Seiten.
        
        Solange man fremden Seiten(unter dem Deckmantel Suchmaschine) nicht verbieten kann Inhalte zu indexieren, landen sie über den Umweg auch zu den Grossen.
        
        Peter
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Gast 15.02.2009 17:40
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo,
        
        Das bringt dir auch nichts.
        
        mit andern Worten "robots.txt gar nicht verwenden"?
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Beat Homepage des Autors 15.02.2009 17:46
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Das bringt dir auch nichts.
        mit andern Worten "robots.txt gar nicht verwenden"?
        
        Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.
        
        mfg Beat
        
        --
        ><o(((°>           ><o(((°>
           <°)))o><                     ><o(((°>o
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Youngster 15.02.2009 20:16
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        »» > Das bringt dir auch nichts.
        »» mit andern Worten "robots.txt gar nicht verwenden"?
        
        Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.
        
        da ich gerade mit Google-Webmaster kämpfe, bin ich zum Glück (oder Unglück?)
        auf diesen thread gestoßen.
        Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
        Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
        Also alles umsonst?
        
        Viele Grüße
        Youngster
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Beat Homepage des Autors 15.02.2009 20:23
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.
        
        Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
        Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
        Also alles umsonst?
        
        Nein, nicht umsonst. Wie ich sage. Robots txt ist gut für die Server-Performance.
        Aber es ist keine Sicherheitsvorrichtung.
        
        mfg Beat
        
        --
        ><o(((°>           ><o(((°>
           <°)))o><                     ><o(((°>o
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Auge 15.02.2009 21:54
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
        Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
        Also alles umsonst?
        
        bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus". Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
        
        Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben. An der Stelle hilft die robots.txt den direkten Zugriff für jene Clients/Robots zu sperren, die sich nach den in der robots.txt hinterlegten Anweisungen richten. Die, die sich nicht danach richten, haben, wie jeder Browser, der Bilder lädt, weiterhin Zugriff.
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Nachtrag
        
        Auge 15.02.2009 21:56
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        »» Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
        
        Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben.
        
        Das gilt natürlich auch für andere Ressourcen, die vom Browser geladen werden sollen, also auch für JavaScript-Bibliotheken.
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Youngster 16.02.2009 12:20
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus".
        
        Das möchte ich auch nicht, sondern es genügt mir, wenn Google und andere "anständige" Suchmaschinen nicht -zig Informationen lesen/speichern, die uninteressant sind.
        
        Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
        
        Das was Du schreibst ist also für mich das passende.
        Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
        (ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).
        Danke
        Youngster
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Auge 16.02.2009 12:44
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        »» Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
        »»
        Das was Du schreibst ist also für mich das passende.
        Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
        (ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).
        
        Tststs, dabei haben wir doch zwei Artikel, die sich mit dem Thema beschäftigen. Die sind zwar beide älteren Datums, aber dennoch sind die Informationen grundsätzlich auch heute noch gültig. Speziell beim ersten verlinkten Artikel ist noch zu sagen, dass dort von crypt zum Verschlüsseln die Rede ist und auch das unten auf der Seite befindliche Formular einen eingegebenen String mit crypt verschlüsselt.
        
        Es kann aber (und dürfte) sein, dass dein Hoster andere Verschlüsselungsmethoden anbietet. Meist ist es heutzutage auch so, dass die Hoster in der Serververwaltung (z.B. Parallels Confixx) den Service anbieten, dass man selbst Verzeichnisse schützen kann. Dann bräuchtest du nur in der Oberfläche das entsprechende Verzeichnis auswählen und einen Benutzernamen und ein Passwort eintragen. Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
        
        .htaccess Zugriffskontrolle
        .htaccess-FAQ
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Youngster 16.02.2009 14:32
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo,
        
        Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
        
        Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
        Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
        Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?
        Gruß
        Youngster
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Auge 16.02.2009 15:29
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        »» Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
        
        Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
        Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
        Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?
        
        Ja, denn .htaccess gilt im HTTP-Kontext, nicht in dem des Dateisystems. Will jemand via HTTP auf eine Ressource im geschützten Verzeichnis zugreifen (jemand mit Browser, (Ro)bot, fremder Server, ...), braucht er Benutzername und Passwort, hat er die nicht (wovon erstmal auszugehen ist), wird er zurückgewiesen (403, access denied). Wenn SSI auf Dateien zugreift, um weiteren Code oder HTML-Schnipsel einzubinden, wird dies über das Dateisystem erledigt, wo, wie gesagt, .htaccess nicht greift.
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Youngster 16.02.2009 15:40
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Danke für die Auskünfte!
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Youngster 15.02.2009 21:26
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo,
        
        Diese Frage war:
        kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
        a l l e   meine Unterverzeichnisse verhindern?
        
        Disallow: /*/
        
        Ich meine, das geht. Und ich glaube im Google-Webmaster-Paket gelesen zu haben, dass man die Wirkung von robots.txt testen kann!?
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Struppi Homepage des Autors 16.02.2009 12:31
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
        Diese Frage war:
        kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
        a l l e   meine Unterverzeichnisse verhindern?
        
        Disallow: /*/
        
        Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
        
        Wenn dir wirklich nur um den Zugriff geht, dann ist die robots.txt der richtige Weg. Aber dir muss klar sein, dass du damit nicht verhindern kannst, dass die Seiten im Ergebnis von Suchmaschinen landen.
        
        Struppi.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Youngster 16.02.2009 15:35
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo,
        
        Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
        
        Siehe aber
        Yahoo
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        +++ WARNUNG +++
        
        Peter 16.02.2009 17:07
        
        browser
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        ++++ WARUNUNG ++++
        
        Siehe aber
        Yahoo
        
        Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!
        
        Peter
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        +++ WARNUNG +++
        
        Youngster 16.02.2009 17:12
        
        browser
        
        – Informationen zu den Bewertungsregeln
        
        Was hast du für einen Browser?
        Meine 5 im Einsatz befindlichen packen es!
        
        Yahoo
        
        Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!
        
        Youngster
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        +++ WARNUNG +++
        
        Peter 16.02.2009 17:14
        
        browser
        
        – Informationen zu den Bewertungsregeln
        
        Was hast du für einen Browser?
        Meine 5 im Einsatz befindlichen packen es!
        
        Wie gesagt IE6, und das reproduzierbar. Ärgerlich, weil ich auch andere Seiten offen hatte.
        
        Peter
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Auge 16.02.2009 12:50
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo
        
        danke für die umfangreiche Erklärung.
        
        Dann gleich noch ein wenig Lesefutter, das auch gleich deine Frage nach der richtigen Syntax beantwortet. Dass sie so, wie unten geschrieben, falsch ist, hat Struppi ja schon angemerkt. :-)
        
        Zugriffskontrolle für Suchmaschinen mit robots.txt
        
        Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
        Diese Frage war:
        kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
        a l l e   meine Unterverzeichnisse verhindern?
        
        Disallow: /*/
        
        Tschö, Auge
        
        --
        Die deutschen Interessen werden am Liechtenstein verteidigt.
        Veranstaltungsdatenbank Vdb 0.2
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Beat Homepage des Autors 15.02.2009 13:49
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
        
        Glaube ist im Internet ein höchst unzuverlässiges Protokoll.
        Diskussion gestorben.
        
        mfg Beat
        
        --
        ><o(((°>           ><o(((°>
           <°)))o><                     ><o(((°>o
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        ChrisB 14.02.2009 18:27
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
        
        Ich darf demnach etwas festlegen, was aber für die Katz ist?
        
        Was ist denn daran so schwer zu verstehen?
        
        Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?
        
        MfG ChrisB
        
        --
        „This is the author's opinion, not necessarily that of Starbucks.“
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        Gast 14.02.2009 18:31
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?
        
        Meine Frage war aber "wie kann man verhindern, dass ......"
        und nicht "wie kann ich höflichst bitten, dass ..."
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        ChrisB 14.02.2009 18:38
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Meine Frage war aber "wie kann man verhindern, dass ......"
        und nicht "wie kann ich höflichst bitten, dass ..."
        
        Dazu wurden dir Moeglichkeiten genannt.
        Wenn diese auch nicht das sind, was du wirklich willst - dann musst du erst mal genauer definieren, was du wirklich willst.
        
        MfG ChrisB
        
        --
        „This is the author's opinion, not necessarily that of Starbucks.“
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt
        
        dedlfix 15.02.2009 11:33
        
        sonstiges
        
        +4 Informationen zu den Bewertungsregeln
        
        echo $begrüßung;
        
        Meine Frage war aber "wie kann man verhindern, dass ......"
        und nicht "wie kann ich höflichst bitten, dass ..."
        
        Dann musst du eine Zugriffsbeschränkung und keine -empfehlung verwenden. Mit mod_rewrite kann man solche fallweise implementieren.
        
        RewriteRule requestmuster - [F]
        
        Das schreibt alle Requests, die requestmuster entsprechen in nichts um und gibt einen 403er (forbidden) an den Client. Diese Regel kannst du mit einer oder mehreren Bedingung ausstatten (die vor die jeweilige RewriteRule zu schreiben ist).
        
        RewriteCond %{HTTP_USER_AGENT} agentmuster
        
        Da gibt es nur noch ein Problem. Wie alles was vom Client kommt, ist auch die Angabe zum Useragent beliebig manipulierbar und wie du sicher weißt, kann sich jeder Wolf als Geißlein ausgeben.
        
        P.S. http://httpd.apache.org/docs antwortet grad nicht, so dass ich beide oben angegebenen Direktiven nicht verlinken kann.
        
        echo "$verabschiedung $name";
        
        Beitrag melden
        
        +4
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
  2. robots.txt
    
    Beat Homepage des Autors 14.02.2009 18:15
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Hallo,
    
    Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
    
    woher kommt diese Information?
    Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
    Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt
    
    Nein, gewiss nicht, wenn du den Zugriff verbieten willst.
    
    Zitat
    
    kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
    a l l e   meine Unterverzeichnisse verhindern?
    
    Robots txt steuert, ob Seiten öffentlich indexiert werden. Daran mag sich ein teil der Bots, die sich als Index Bots ausgeben, halten.
    
    Dummerweise ist der robots.txt Standard dermassen lausig, das es nicht einmal eine ordentliche Syntax gibt die verschiedenen Bots mit Sicherheit anzusprechen.
    
    Zu robots text gibt es auch die Möglichkeit mit dem <meta> Element Seitenweise eine Empfehlung auszugeben.
    http://de.selfhtml.org/html/kopfdaten/meta.htm#robots
    
    nimm .htaccess
    Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?
    
    Es gilt für jene Agents, welche du in einer besonderen Weise erkennst.
    
    Du kannst mit htaccess kontrollieren, dass Google nicht nur ein ordentlicher Browser ist, sondern unter seinem Deckmantel als Google Bot auch nicht in der Lage ist, Bilder zu indexieren.
    
    Separiere was du brauchst.
    Robots Text als Empfehlung. .htaccess aber als zwingende Regel, und im Sinne eines absoluten Verzeichnisschutzes wie Cheatah sagt, mittels HTTP Authentification (die nicht zwingend an ein .htaccess File gebunden ist).
    
    mfg Beat
    
    --
    ><o(((°>           ><o(((°>
       <°)))o><                     ><o(((°>o
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
robots.txt
JürgenB Homepage des Autors 15.02.2009 13:25

sonstiges
– Informationen zu den Bewertungsregeln
Hallo Gast,

wenn ich diese Diskussion so lese, habe ich das Gefühl, du hast irgendwie eine falsche Vorstellung davon, wie das Internet so läuft. Alles was du ins Internet stellst, kann von jedem eingesehen werden. Es wurde dir schon gesagt, wie du Suchmaschinen "höflichst" darum bitten kannst, deine Seiten zu ignorieren. Ob sie sich daran halten, wer weiß? Die Großen und Bekannten tun es meines Wissens nach.

Wenn du einzelne Besucher, z.B. Bots, ausgrenzen möchtest, kannst du das über die Vergabe von Passwörtern tun. Es kann aber immer sein, dass jemand das Passwort (unfreiwillig) verrät. Du kannst auch Besucher über deren IP oder über ganze IP-Bereiche aussperren, dann musst du aber ständig prüfen, ob deine Ausschlussliste noch ausreicht.

Am sichersten sind deine Seiten, wenn du sie auf deiner Festplatte, oder besser noch auf CD/DVD im Schrank lässt.

Vielleicht verrätst du uns mal, was du erreichen willst und warum du die Bots aussperren willst und wie sicher der Schutz sein soll.

Gruß, Jürgen
Beitrag melden

–
Informationen zu den Bewertungsregeln

Gast: robots.txt