Hi,
Ich wollte MD5 nehmen, dafür gibt es ja bereits eine Javascriptimplementation.
gute Idee!
Nein, beim mir wäre es empirisch, statistisch wäre mir schon zu kompliziert ;-)
Jaja, Diplomingenieur, gell!?! ;)
Im übrigen sind viele Hashfkt AFAIK nur empirisch durch Tests untermauert.
Ja, das ist mir auch aufgefallen. Mir ist sogar keine einzige bekannt, die tatsächlich berechnet wurde. Weder a priori noch a posteriori.
Algorithmisch bekommt man halt nur einen Pseudozufall hin...
Habe ich nun eine Liste mit 10000 Treffern ("Javascript") und eine mit 20 kommt man nur schwerlich mit nur einer Filterlänge aus.
Deshalb braucht man ja auch soviel Platz dafür.
Hmm ... also ich denke, ich wüßte schon wie man das speichereffektiv hinbekäme (erspar mir Details :), bleibt aber die Frage ob sichs rechnet.
Achso, nein: ich muß ja verschiedene Bytes maskieren, da kann ich dann auch billiger gleich alle mit base64 maskieren. Ist dann zwar 30% länger, aber das macht den Hasen auch nicht mehr fett und fällt bei Auslieferung mit gzip eh wieder unter den Tisch.
achso klar man kann gleich in Base64 operieren...
Was mich aktuell noch von einer Implementierung abhält ist die Tatsache dass die Aufgabe der Teilstringsuche noch nicht elegant gelöst ist. Was hilfts in nanosec
zu wissen wo überall ganze Wörter wie "Javascript" auftauchen, wenn ich die Platte nach Wörtern durchsuchen muss, die "Java" enthalten könnten?!?Für Teilstringfragen, vor allem solche "gierigen", ist das halt nicht geeignet, dafür gibt's dann andere Methoden.
Obwohl man könnte zum Wort "Java" mit ablegen, wo es als Teilwort vorkommt. Dynamisch versteht sich. Auch häufige Phrasen (z.B. "Zu diesem Forum") könnten sich lohnen.
Tja, noch etwas was ich jetzt nicht durchrechne :)
Es ist nunmal ohne genaue Analysen der Suchanfragen nicht viel zu machen. Eine generelle, sozusagen optimale Lösung dürfte nicht existieren.
dito
Tschau
rolf