Christoph Zurnieden: Suchscript: Gewichtung der Fundstellen

Beitrag lesen

Hi,

Nein, da es nicht um eine unscharfe Suche geht (Kann mich natürlich irren, nur hat sich der OP bis jetzt nicht wieder gemeldet). Es wird lediglich nach einer Möglichkeit gesucht die Fundstellen zu bewerten. Das das nicht so einfach ist sieht man ja schon bei Google.

Ich hab mich bis jetzt nicht wieder gemeldet, weil

War kein Vorwurf von mir oder gar eine Andeutung, nur mein dezidierte Hinweis darauf, das ich mich nur auf eine Vermutung stützte.

ich gemerkt habe, dass ich die Problematik entweder sehr sehr fundiert angehen muss.

Das ist nicht verwunderlich, da "Suchen" eines der Grundprobleme der angewandten Informationstechnik ist.

(Wozu ich keine Zeit habe und was auch m.E. den Aufwand für eine kleinere Website nicht lohnt.)

Nun, sobald eine Suche nötig wird, kann man die Site nicht mehr guten Gewissens als klein bezeichnen.

Oder ich muss pragmatisch herangehen, Setzungen vornehmen, Suchvorgänge auf der Seite protokollieren und auswerten. Und damit habe ich jetzt angefangen.

Ja, den Bedarf festzustellen ist stets eine gute Idee. Allerdings sind derartige Untersuchenungen schon von vielen anderen Leuten vorgenommen worden und diese hatten dabei festgestellt, das sich die Methode auch bei den unterschiedlichsten Themen innerhalb eines Kulturkreises nicht wesentlich ändert.

  • Es gibt unterschiedliche Gewichtungen, je nachdem, ob ein Suchbegriff als ganzes Wort, nur am Wortanfang oder Ende gefunden wurde.

Entscheidend hierbei ist übrigens die Sprache. Aufgrund obiger Feststellung würde ich aber die deutsche Sprache vermuten. Die deutsche Sprache hat einige Eigenheiten unter anderem den Umstand, das Kettenwörter gebildet werden können (Der Sinn steckt dort meist am Ende) und Präfixe den Sinn grundlegend verändern können und beide Methoden kombinierbar sind (Der Sinn steckt dann eben _nicht_ am Ende).

  • Es gibt Gewichtungen für die Fundstelle (Text, Header etc.)

Das bedeutet, das die Artikel stets sematisch sauber aufgebaut sein und auch bleiben müssen.

  • Es gibt (sehr starke) Gewichtungen, je nachdem, wie viele von X Suchbegriffen gefunden wurden.

Ob die sehr stark sein sollen liegt an Stil der Artikel, das kann aber durchaus sein, ja. Ich möchte aber nicht versäumen darauf hinzuweisen, das sich so ein Prädikat _nur_ eignet, wenn auf den Suchbereich _niemand_ Einfluß nehmen kann, sprich wenn die Artikel alle automatisch erstellt wurden. Das ist in praxi nicht durchführbar (denn irgendeiner muß den Automaten ja schließlich schreiben), aber man sollte die Zügel zumindest in den eigenen Händen halten.

Noch nicht berücksichtigt habe ich Groß- und Kleinschreibung

Würde ich wie Google machen: alles klein und nur wenn der Suchbegriff groß geschrieben ist zuerst nach Großgeschriebenem suchen.

und auch nicht die Relation Suchtwörter/Anzahl der Wörter im Text [...]  weil auf der Website alle Artikel/Seiten etwa gleich gross sind.

Gut, dann kannst Du Dir das natürlich sparen, dann hast Du Glück gehabt und solltest eigentlich einen ausgeben ;-)

Ich hatte allerdings schon vermutet, dass einige Betreiber von Websites, die mit eigenen Perl-Scripts oder modifizierter Freeware arbeiten, selbst schon mal auf das Problem gestossen sind und Lösungen erprobt haben. Es wird doch nicht auf jeder Website mit interner Suche mit Matt Wright's "simple-search.pl" gearbeitet, das  nur nach ganzen Wörtern sucht und für jeden Treffer schlicht 1 Punkt gibt. Aber hierzu kam in diesem Thread bisher leider nichts.

Ich bezweifele auch schwer, das da etwas kommen wird.
So eine einfache Suche wie "simple-search.pl" kann man noch flott etwas aufhübschen aber es wäre eine ungeheure Arbeit aus einem mittlerweile 10 Jahre altem Script eine vollständige Suche zu machen. Es wird daher auf vorhandenes und gut erprobtes zurückgegriffen wie htdig, (hyper)estraier oder wie sie alle heißen mögen. Das sind aber ausgewachsene Suchmaschinen, mit allen damit verbundenen Haken.
Auch wenn das alles freie Software ist, umsonst sind die nicht zu haben, die kosten schon einiges an Einarbeitung!

Du könntest natürlich mal schauen, was CPAN so zu bieten hat.

so short

Christoph Zurnieden