Hans: Wikipedia Einschränkungen?

Hi,

ich bin allerdings nicht sicher ob es an mir liegt oder doch an Restriktionen von Seiten Wikipedia, wie auch immer: Wikipedia leistet tolle Arbeit mit Ihren nicht mal 30 Leuten und die gerade aktuellen Millionenspenden gönne ich denen somit von Herzen, wenngleich die Argumente wie Traffic und Serverlast natürlich ein wenig, na ja sagen wir, fantasievoll eingebracht wurden, wenn man bedenkt das die das gesponsort bekommen von google, amazon und anderen.

Warum erzähle ich das jetzt eigentlich, Neid? Nein, wirklich nicht, aber... Ich dachte Wikipedia ist ein echtes "Geben und Nehmen Produkt", mit Vorteile für alle Beteiligten, die damit Geld verdienen, die sich durch Artikel profelieren wollen oder auch die Contentgeilen, welcher ich dann wohl bin.

Nun hatte ich vor Wikipediartikel in eine private Anwendung von mir einzubringen, das würde mir Recherchearbeit erleichtern. Das geht auch solange ich den Inhalt von den normalen Seiten abgreife, wie zb:
http://de.wikipedia.org/wiki/Lex_Barker

Da hier das Parsen aber komplexer ist, als zb. die Printversion oder die XML-Version, wollte ich diese natürlich abgreifen, doch dann kommt, zumindest per file_get_contents, usw..., "Warning: file_get_contents(http://de.wikipedia.org/wiki/Spezial:Exportieren/Lex_Barker) [function.file-get-contents]: failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden in /...."

Na gut, so bleiben mir mehrere Möglichkeiten, das ganze per socket/curl zu lösen, Browserzugriffe zu simulieren, wie es offensichtlich andere auch tun, was mir aber widerstrebt denn ich will ja nicht ungesetzliches warum also tricksen müssen, oder aber das ganze Wikipedia saugen, was aber auch den nachteil hat, das ich viel mehr bekomme als ich will und was nie aktuell ist.

Jetzt frage ich mich aber, liegt das Problem witrklich an Wikipedia oder mache ich etwas falsch, bzw, wenn Wiki das erzwingt, warum machen die das, warum versuchen die einen zu zwingen die Hauptseiten zu nutzen während die immer behaupten, der Content ist für alle da?

Was mir aufgefallen ist, bei der printversion, wird wohl wirklich immer eine aktuelle Version generiert anstatt das ganze CSS-basiert zu lösen, versteh ich auch nicht diesen Sinn/Unsinn.

Im Grunde geht es mir nur darum den Einleitungstext eines Artikels angezeigt zu bekommen um dann in meinem Programm zu entscheiden will ich mehr davon sehen oder nicht, Kommentare zu verfassen, und Querverweise zu erstellen. Gibt es eine Lösung (ohne Browsersimulationen)?

Hans

  1. Hallo,

    fantasievoll eingebracht wurden, wenn man bedenkt das die das gesponsort bekommen von google, amazon und anderen.

    Die Kostenaufstellung ist einsehbar. Das die Rechenzentren gesponsort werden, stimmt so nicht. Nur ein Teil wird von z.B. Yahoo übernommen.

    Aber eine Foundation hat noch viele andere Ausgaben. Aber wie gesagt, alle dort einzusehen.

    Das Problem liegt am HTTP Header den PHP sendet. Und zwar sendet, denk ich mal, PHP kein User-Agent mit, womit die Abfrage zu einem Fehler führt.
    Sendet man diesen mit, egal welchen, bekommt man die Antwort.

    Also:
    GET /wiki/Spezial:Exportieren/Lex_Barker HTTP/1.1
    Host: de.wikipedia.org
    => Fehler: 'Please provide a User-Agent header'

    GET /wiki/Spezial:Exportieren/Lex_Barker HTTP/1.1
    Host: de.wikipedia.org
    User-Agent: abc
    => korrektes Ergebnis.

    Außerdem sollte man file_get_contents auf keinen Fall für solche Aufgaben verwenden. fsockopen ist die richtige Antwort auf dein Problem.

    Grüße
    Klaus

    1. Hallo

      fantasievoll eingebracht wurden, wenn man bedenkt das die das gesponsort bekommen von google, amazon und anderen.
      Die Kostenaufstellung ist einsehbar. Das die Rechenzentren gesponsort werden, stimmt so nicht. Nur ein Teil wird von z.B. Yahoo übernommen.

      nochmal hier als Ergänzung der Link:
      How is the revenue spent?

      Wie gesagt, wenn du selber mal bei einer größeren gemeinnützigen Gemeinschaft warst, wüsstest du, welche Kosten entstehen, selbst wenn alle Mitglieder ehrenamtlich mitarbeiten.
      Das ist nicht nur einfach: Server suchen, Mediawiki hochladen und installieren, laufen lassen, fertig.

      Allein die Ausgaben für Anwälte bei gemeinnützigen Gemeinschaften (die weltweit tätig ist) sind enorm. In Deutschland unterliegst du als gemeinnütziger Verein extrem strengen Auflagen und musst höllisch aufpassen, diesen Status nicht zu verlieren. Du musst echte Rechtsexperten und Finanzexperten haben, denn deine Buchhaltung muss absolut stimmen. Bei dem kleinsten Fehler kann dies katastrophale Auswirkungen haben.
      Hat man dieses Experten nicht selber im Team (ehrenamtlich) muss man diese Know How eben einkaufen. Und eine Rechtsberatung ist nicht günstig und geht nicht mal eben so.
      Ebenso bei Urheberrechtsfragen, Vesteuerung  usw. usf.

      Die Kosten summieren sich extrem schnell auf, selbst wenn alle Mitglieder ehrenamtlich arbeiten (und selbst wenn man ehrenamtliche Rechts- und Finanzexperten hat).

      Ebenso ist Wikipedia eine Non-Profit Organisation. Ich weiß zwar nicht welche Rechtsform dies ist, ist man aber in Deutschland als Non-Profit Organisation anerkannt, dann ist es verboten, Gewinne zu erzielen. Man muss penibel über alle Ausgaben Buch führen (wofür man Finanzexperten benötigt) und höllisch aufpassen, dass auch alles stimmt und richtig ist. Beim dem kleinsten Verdacht könnte man den Status verlieren, was entsprechende Folgen hätte. (Wenn man als Gemeinnützig eingetragen ist, darf man Spenden-Quittungen ausgeben. Ohne diese Quittungen => kaum Spenden von Unternehmen mehr).

      Diese Jahresabschlüsse, zumindest in Deutschland bei gemeinnützigen Organisationen, kann man sie (soweit ich weiß) auch einsehen.

      Grüße
      Klaus

  2. Hallo Hans,

    Nun hatte ich vor Wikipediartikel in eine private Anwendung von mir einzubringen, das würde mir Recherchearbeit erleichtern.

    Im Grunde geht es mir nur darum den Einleitungstext eines Artikels angezeigt zu bekommen um dann in meinem Programm zu entscheiden will ich mehr davon sehen oder nicht, Kommentare zu verfassen, und Querverweise zu erstellen. Gibt es eine Lösung (ohne Browsersimulationen)?

    Vielleicht hilft Dir die API?

    Gruß aus Köln-Ehrenfeld,

    Elya

    --
    We are drowning in information but starved for knowledge. John Naisbitt