Phil: Spider auf Platz3, was soll ich tun?

Hi!
Bei der Durchsicht meiner Statistik bemerkte ich, dass ein Spider (also so ein Ding, was meine ganze webseite runterlädt) auf Platz3 der meisten Anwenderprogramme ist.

Ich wollt mal fragen, wie man sich dagegen wehren kann, ich hab da mal was mit htaccess gelesen und dass man da was einfügen muss und dann sind die meisten irgendwie geblockt..
CU
http://www.yubb.de

  1. Hallo,

    Ich wollt mal fragen, wie man sich dagegen wehren kann, ich hab da mal was mit htaccess gelesen und dass man da was einfügen muss und dann sind die meisten irgendwie geblockt..

    Man kann sich gar nicht dagegen wehren. Man kann nur die Anfänger abwehren (die den UserAgent-String nicht fälschen):

    ---------------------------------------------
    SetEnvIf User-Agent ^UserAgent1 is_spider
    SetEnvIf User-Agent ^UserAgent2 is_spider

    Order Deny,Allow
    Deny from env=is_spider
    Allow from all
    ---------------------------------------------

    Grüße,

    Christian

    1. Hi Christian,

      SetEnvIf User-Agent ^UserAgent1 is_spider
      SetEnvIf User-Agent ^UserAgent2 is_spider
      Order Deny,Allow
      Deny from env=is_spider
      Allow from all

      das wird allerdings die Browser-Statistik in keinster Weise verändern. Was sich ändert, das sind lediglich die dabei entstehenden HTTP-Statuscodes (und das ausgelieferter Datenvolumen).

      Im Extremfall führt diese Konfiguration dazu, daß das Error-Log mit tausenden von abgewehrten Zugriffen zugemüllt wird - nämlich dann, wenn der Besucher die Stuktur der Site bereits kennt und lediglich die Aktualität der Inhalte überprüfen will.

      Viele Grüße
            Michael

  2. Hi!
    Bei der Durchsicht meiner Statistik bemerkte ich, dass ein Spider (also so ein Ding, was meine ganze webseite runterlädt) auf Platz3 der meisten Anwenderprogramme ist.

    Ich wollt mal fragen, wie man sich dagegen wehren kann, ich hab da mal was mit htaccess gelesen und dass man da was einfügen muss und dann sind die meisten irgendwie geblockt..
    CU
    http://www.yubb.de

    für sowas gibt es die Robots.txt

  3. Bei der Durchsicht meiner Statistik bemerkte ich, dass ein Spider (also so ein Ding, was meine ganze webseite runterlädt) auf Platz3 der meisten Anwenderprogramme ist.

    Ich wollt mal fragen, wie man sich dagegen wehren kann [...]

    Wogegen wehren? Welches Problem habe ich übersehen?

    1. Hi Björn,

      Wogegen wehren? Welches Problem habe ich übersehen?

      Ich hatte auch schon mal ein Problem mit einem fehlprogrammierten Spider, der pro Besuch bis zu einem Gigabyte Traffic erzeugte. Das Ding ließ sich allerdings per robots.txt ausgrenzen, war also nicht bösartig, sondern dumm programmiert.

      Viele Grüße
      Mathias Bigge

      1. Hi Mathias,

        Ich hatte auch schon mal ein Problem mit einem
        fehlprogrammierten Spider, der pro Besuch bis
        zu einem Gigabyte Traffic erzeugte.

        davon war aber in der ursprünglichen Fragestellung nichts erwähnt.
        Dort ging es nur darum, daß ein einzelner Client ungewöhnlich oft auftritt. Und das kann einfach bedeuten, daß die Erwartungshaltung des Fragestellers überprüft werden sollte. Beispielsweise kommt es darauf an, was unter "ein Useragent" verstanden werden soll: Der M$IE insgesamt? Eine bestimmte Version? Eine bestimmte Sub-Version? Eine Sub-Version einer bestimmten Plattform? Also "Netscape 4" oder "Netscape 4.61 für OS/2 Warp 3"?

        Auf meiner Homepage habe ich beispielsweise mehrere verschiedene Bereiche mit unterschiedlichen Inhalten und unterschiedlicher Besucher-Struktur.

        Meine mod_gzip-Seiten sind relativ wenig an Masse (etwa 20 HTML-Dateien), haben aber ordentlich viele Besucher. Dort sehe ich knapp 50% M$IE, etwa 25% Mozilla, knapp 10% Opera, etwa 5% Netscape4 und 10-15% "Maschinen" (Robots, W3C-Validator etc.). Das erscheint mir für eine vielbesuchte Technologie-Seite diese kleinen Umfangs auch durchaus normal.

        Mein Archiv an pbm-Seiten ist allerdings um ein Vielfaches größer (weit über 1000 HTML-Seiten) und hat dabei nur etwas das Doppelte an Traffic, weil nur ein kleiner Teil dieser Seiten aktuell ist. Diese Seiten werden von "Abonnenten" regelmäßig besucht, der Rest ist eher Suchmaschinen-Futter.
        Konsequenterweise sind diese "Maschinen" der Hauptbenutzer dieser Seiten mit zusammen etwa 50% "Marktanteil" - dort bekommen sie nämlich einiges geboten. Dahinter folgt mit 45% der M$IE, und alle übrigen Browser zusammen machen die restlichen 5% aus.
        Die Besucher dieser Seiten sind eher weniger technisch interessiert und haben folglich fast alle Windows und dessen Standard-Browser im Einsatz.

        Und beides sind Seiten derselben Domain!
        Allerdings trenne ich mein access_log mit Hilfe eines Perl-Skripts in die verschiedenen thematischen Bereiche und werte die Zugriffe separat aus. Den unterschiedlichen "Marktanteil" von M$IE und Mozilla in beiden fällen zu beobachten, war mir den einen Abend für das Filter-Skript wert ...

        Fazit: Glaube nur der Statistik, deren Berechnungskriterien Du zumindest verstanden zu haben glaubst. ;-)

        Viele Grüße
              Michael

  4. Hi,

    hier findest du mehr Infos zu robots.txt
    http://www.searchcode.de/artikel/robotstxt.php

    Gruß, Alex