Tom: Indizierung von HTML Dokumenten

Beitrag lesen

Hello,

Um einzelne Worte zu bekommen, splitte den Text nach \s+. Duplikate haust Du dann raus mit einem hash.

Er müsste sie gewichten. Und im Index auch vermerken, auf welcher Seite das Suchwort wie oft vorkommt.

Liebe Grüße aus dem Cyberspace

Tom vom Berg

--
Nur selber lernen macht schlau
http://bergpost.annerschbarrich.de