Besseresser: Indizierung von HTML Dokumenten

Beitrag lesen

Um einzelne Worte zu bekommen, splitte den Text nach \s+. Duplikate haust Du dann raus mit einem hash. Und mit einem hash-Slice entfernst Du mit einem Schlag Stop-Worte wie "der die das usw". Solche Stopwort-Listen findest Du auch im Internet.

Danke dir!
Bräuchte aber noch genauere Infos zu dem Hashthema.
Wie funktioniert das?

Gruß,
Besseresser