crunch: Volltextsuche mit MySQL-Index (DBIx::FullTextSearch)

Hallo zusammen!

Um einen Datenbestand von ca. 10.000 HTML-Seiten zu indizieren, habe ich ein Script geschrieben, das bestimmte, fest definierte Elemente aus den Dateien ausliest (Titel, 1. Überschrift, Datum, Kurztext) und in eine Flat-File-Indexdatei schreibt. Das hat bis jetzt ganz gut funktioniert, mal abgesehen von der etwas lahmen Performance. Allerdings wird die Zahl der Dateien noch weiter ansteigen und dann wäre da noch die Volltextsuche, die ich gerne hätte...

Leider hab ich von Volltextsuchmaschinen praktisch keine Ahnung. Ich hab mir gedacht, dass eine CSV-Datei bei so einer Datenmenge als Index nicht in Frage kommt, also hab ich mich mal in Richtung SQL-Datenbank umgesehen und bin auf das Modul DBIx::FullTextSearch gestoßen. Klingt für meine Zwecke eigentlich ganz gut, da es mir genau die Arbeit abnimmt, von der ich keine Ahnung habe, nämlich die Erstellung des Suchindex. Aber bevor ich mir möglicherweise unnötige Arbeit antue wollte ich mir mal ein paar Meinungen anhören.

Also:
Hat schon mal jemand dieses DBIx::FullTextSearch - Modul benutzt?

Wenn ja, wie sieht es mit der Performance aus?
(Die der Suchabfragen, die Geschwindigkeit der Indizierung und Aktualisierung ist nicht so wichtig)

Wie groß wird die Index-Datenbank?
Eventuell wird das bei einem Provider laufen, hab also nicht unbegrenzt Speicherplatz.

Oder gibt es bessere Möglichkeiten für eine Volltextsuche?
Möglicherweise Eigenbau? Wo gibts Einführungen, Anleitungen, Dokus dazu?
Bin für jeden Link dankbar, bis jetzt hab ich kaum brauchbares Material gefunden, immer nur fertige Scripts, die waren aber meistens nicht für meine Zwecke zu gebrauchen.

Danke schon mal!

Grüße,
Crunch

  1. Hi Crunch

    Leider hab ich von Volltextsuchmaschinen praktisch keine Ahnung.

    Ich leider auch nicht, ...ganz und gar nicht und benötige daher auch ein paar Vorschläge.

    Aber bevor ich mir möglicherweise unnötige Arbeit antue wollte ich mir mal ein paar Meinungen anhören.

    Nu ja, tut mir echt leid das ich Dir nicht weiterhelfen kann und mich an Deinen Thread drangehängt habe, aber wer weiß, ...vielleicht bekommen wir ja beide Hilfe. :o)

    Oder gibt es bessere Möglichkeiten für eine Volltextsuche?
    Möglicherweise Eigenbau? Wo gibts Einführungen, Anleitungen, Dokus dazu?

    Genau, wer weiß was, kann und will helfen? :o)
    Ich habe leider keine Ahnung ob Perl gut und einfach genug dafür ist, denn am Allerliebsten würde ich es natürlich über html oder JS machen, ...nicht das ich mich da auskennen würde, aber ich kenne es halt mal schon ein wenig und somit wäre es wahrscheinlich einfacher für mich. ;o)

    Bin für jeden Link dankbar, bis jetzt hab ich kaum brauchbares Material gefunden,

    Mir ging es leider ganz genauso. Ich habe hier im Archiv unter allem möglichen gesucht (Suchroutine, Suchfunktion, etc. aber letztendlich hat es mich auch nicht weiter gebracht (auch teilweise wegen den toten links die in Beiträgen vorkommen).

    *****************************************************

    Vielleicht denke ich mir aber auch alles viel zu einfach aus!?
    Ich habe z. B. 160 Seiten (Menge steigend).
    Jetzt dachte ich mir halt das ich eine Datei (zb. "suche.htm") anlege und alle 160 Seiten da reinpacke, und von meiner "Suchmaske" aus wird dann genau darauf zugegriffen mit einer Volltextsuche. Das Suchergebnis wird mir angezeigt so das ich anhand von dem verlinkten Suchergebnis direkt zu der betreffenden Seite springen kann.
    (Es handelt sich um eine Hilfesuchfunktion für ein Handbuch.)

    *****************************************************

    Danke schon mal!

    Ja, da muss ich mich auch gleich ranhängen und mich bei Dir und den anderen bedanken, ...DANKE!!! :o))

    Grüße,
    Crunch

    liebe Grüsse aus dem heute verregneten München
    Günter

    1. Hi,

      Nu ja, tut mir echt leid das ich Dir nicht weiterhelfen kann und mich an Deinen Thread drangehängt habe, aber wer weiß, ...vielleicht bekommen wir ja beide Hilfe. :o)

      Anscheinend kann uns aber hier niemand weiterhelfen, vielleicht hab ich meine Frage aber auch zu speziell gestellt, das DBIx::FullTextSearch im Subject schreckt vielleicht ein paar Leute ab oder unser Thread wird einfach nur übersehen weil er von zwei viel größeren eingequetscht wird? ;-)

      Ich habe leider keine Ahnung ob Perl gut und einfach genug dafür ist, denn am Allerliebsten würde ich es natürlich über html oder JS machen, ...nicht das ich mich da auskennen würde, aber ich kenne es halt mal schon ein wenig und somit wäre es wahrscheinlich einfacher für mich. ;o)

      JS kommt bei mir schon allein wegen der Datenmenge nicht in Frage, außerdem steh ich solchen Zwangskompromissen eher skeptisch gegenüber, JS ist da für mich nicht geeignet. Aber du kannst dir ja mal die JS-Suchmaschine zu SELFHTML ansehen, vielleicht hilft dir die weiter?

      Mir ging es leider ganz genauso. Ich habe hier im Archiv unter allem möglichen gesucht (Suchroutine, Suchfunktion, etc. aber letztendlich hat es mich auch nicht weiter gebracht (auch teilweise wegen den toten links die in Beiträgen vorkommen).

      Ja, im Archiv hab ich auch nichts Brauchbares gefunden. Seeehr untypisch fürs Archiv...

      Naja, müssen wir einfach drauf hoffen, dass uns doch noch jemand helfen kann, oder vielleicht auch die Frage in ein paar Tagen noch mal etwas allgemeiner stellen?

      Grüße,
      Crunch

      1. Hi Crunch

        ...oder unser Thread wird einfach nur übersehen weil er von zwei viel größeren eingequetscht wird? ;-)

        Geeeeenau! *aufdentischhau*

        ...Aber du kannst dir ja mal die JS-Suchmaschine zu SELFHTML ansehen, vielleicht hilft dir die weiter?

        He, warum bin ich nicht selber auf die Idee gekommen? Ich habe sie nur einmal kennen gelernt und das war als sie derjenige hier im Forum vorgestellt hatte.

        Ja, im Archiv hab ich auch nichts Brauchbares gefunden. Seeehr untypisch fürs Archiv...

        Das ist sogar mehr wie untypisch. Fast schon unheimlich. :o)

        Naja, müssen wir einfach drauf hoffen, dass uns doch noch jemand helfen kann, oder vielleicht auch die Frage in ein paar Tagen noch mal etwas allgemeiner stellen?

        Niemals die Hoffnung aufgeben. (mein Gott bin ich aber optimistisch *g*). Aber wenn wirklich niemand auf diesen Thread antwortet, haben wir halt Pech gehabt.

        Ich würde vorschlagen, das Du oder ich nächste Woche nochmal einen Link auf diesen Thread setzen, ...sozusagen als "Adventskalenderlink" :o)

        wünsche Dir noch einen schönen Tag
        Günter

        1. Hi,

          ...oder unser Thread wird einfach nur übersehen weil er von zwei viel größeren eingequetscht wird? ;-)
          Geeeeenau! *aufdentischhau*

          Langsam wächst er ja, vielleicht entdeckt ihn doch noch wer?

          Ja, im Archiv hab ich auch nichts Brauchbares gefunden. Seeehr untypisch fürs Archiv...
          Das ist sogar mehr wie untypisch. Fast schon unheimlich. :o)

          Hmmm, ich hab da ja meine ganz persönliche Verschwörungstheorie, nach der alle Postings aus dem Archiv gelöscht werden, die mir bei meinen Problemen helfen könnten.
          Paranoia rulez! :-)))

          Ich würde vorschlagen, das Du oder ich nächste Woche nochmal einen Link auf diesen Thread setzen, ...sozusagen als "Adventskalenderlink" :o)

          Ja, ich werd meine Frage vielleicht irgendwann noch mal allgemeiner stellen.
          In der Zwischenzeit hab ich bei bei suchfibel.de auch endlich die Link-Seite gefunden (etwas versteckt unter "Glossar").
          http://www.suchfibel.de/9glossar/quellen.htm, vielleicht hilfts dir ja weiter, leider sind die meisten Seiten ziemlich alt und haben mir nicht wirklich was gebracht.

          Crunch