Durchschnitt von LanX, 11.01.2005 16:16

Beitrag lesen

Durchschnitt

LanX 11.01.2005 16:16

zu diesem forum

– Informationen zu den Bewertungsregeln

Hi,

Ich wollte MD5 nehmen, dafür gibt es ja bereits eine Javascriptimplementation.

gute Idee!

Nein, beim mir wäre es empirisch, statistisch wäre mir schon zu kompliziert ;-)

Jaja, Diplomingenieur, gell!?! ;)

Im übrigen sind viele Hashfkt AFAIK nur empirisch durch Tests untermauert.

Ja, das ist mir auch aufgefallen. Mir ist sogar keine einzige bekannt, die tatsächlich berechnet wurde. Weder a priori noch a posteriori.

Algorithmisch bekommt man halt nur einen Pseudozufall hin...

Habe ich nun eine Liste mit 10000 Treffern ("Javascript") und eine mit 20 kommt man nur schwerlich mit nur einer Filterlänge aus.

Deshalb braucht man ja auch soviel Platz dafür.

Hmm ... also ich denke, ich wüßte schon wie man das speichereffektiv hinbekäme (erspar mir Details :), bleibt aber die Frage ob sichs rechnet.

Achso, nein: ich muß ja verschiedene Bytes maskieren, da kann ich dann auch billiger gleich alle mit base64 maskieren. Ist dann zwar 30% länger, aber das macht den Hasen auch nicht mehr fett und fällt bei Auslieferung mit gzip eh wieder unter den Tisch.

achso klar man kann gleich in Base64 operieren...

Was mich aktuell noch von einer Implementierung abhält ist die Tatsache dass die Aufgabe der Teilstringsuche noch nicht elegant gelöst ist. Was hilfts in nanosec
zu wissen wo überall ganze Wörter wie "Javascript" auftauchen, wenn ich die Platte nach Wörtern durchsuchen muss, die "Java" enthalten könnten?!?

Für Teilstringfragen, vor allem solche "gierigen", ist das halt nicht geeignet, dafür gibt's dann andere Methoden.

Obwohl man könnte zum Wort "Java" mit ablegen, wo es als Teilwort vorkommt. Dynamisch versteht sich. Auch häufige Phrasen (z.B. "Zu diesem Forum") könnten sich lohnen.

Tja, noch etwas was ich jetzt nicht durchrechne :)

Es ist nunmal ohne genaue Analysen der Suchanfragen nicht viel zu machen. Eine generelle, sozusagen optimale Lösung dürfte nicht existieren.

dito

Tschau
rolf

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

LanX: Durchschnitt

Beitrag lesen

Durchschnitt

Archiv: Warum ist "Groß- bzw. Kleinschreibung" aktiviert?

Archivindex

Wortmetrik

Durchschnitt

Burroughs-Wheeler-Transformation

Forumsrekord

2 Level Hash Tables

Englisch

Ausblick

Mathematik

Kompression?

Archiv: Erst gucke, dann motze!