Christoph Zurnieden: Suchscript: Gewichtung der Fundstellen

Beitrag lesen

Hi,

Für die Gewichtung der Fundstellen (welche Treffer/Artikel sind besser, welche schlechter?) muss ich zumindest 2 Kriterien berücksichtigen:

Ich befürchte, das ist nicht ganz so einfach ;-)

(1) der Suchbegriff als kompletttes Wort muss besser gewichtet werden als wenn der Suchbegriff nur am Anfang oder Ende eines Wortes steht (Wenn Suchbegriff = "Programm", dann muss die Fundstelle "Programm" besser bewertet werden als "Programmierer" oder als "gramm"

Nunja, Perls Regex kennt "Wort" und "kein Wort", die dürften dafür recht nützlich sein.

(2) wenn 2 Begriffe gesucht werden, dann muss ein Text, der 3x den ersten und 3mal den zweiten Begriff enthält, besser bewertet werden als ein anderer Text, der 6mal den ersten und 0mal den zweiten enthält.

Ähm ... nun, das _scheint_ nur offensichtlich.
Kann aber durchaus benutzt werden.

Soweit so gut. Jetzt tue ich mich aber schwer, diese Kriterien mathematisch umzusetzen, also einigermassen sinnvoll zu quantifizieren.  Nach zwei Stunden Googeln habe ich bislang nichts dazu gefunden.

Ja, es ist ein wenig blöd, wenn man die passenden Suchbegriffe nicht kennt. Ist bei Google aber leider prinzipbedingt.

Weiß jemand dazu Texte oder eigene Tipps?

Darf ich das ein wenig umstellen zu "Tips und eigene Texte"? ;-)

Ich habe kürzlich etwas verbrochen, das eine Suche in Javascript skizzieren soll und mich dort im Laufe der Beschreibung auch dem Prinzip der Suche gewidmet, darunter natürlich auch die Wichtung. Eine kurze und alles andere als vollständige mathematische Übersicht ist unter http://selfhtml.christoph-schnauss.de/artikel/javascript/similarity/similarity.html#similweight zu finden. Es wäre aber empfehlenswert das ganze Machwerk durchzugehen. Ich verrate jedoch nicht für wen ;-)

so short

Christoph Zurnieden