
Zitat von
mkinzler:
Zitat:
as ist leider auch nicht ganz so einfach ... wie bringe ich dem FB1.5 (oder 2.0 egal dann) bei wie er RTF Dokumente und sonstige eigene Dokumente indizieren soll?
Ja, das ist ja was anderes.
Ich habe hier ein interne Anwendung (webbasiert), bei der die Dokumente sich in der Datenbank befinden, dort geht die Suche auch ohne speziellen Index, recht schnell.
Soll der Index lernfähig sein?
lernfähig? ja natürlich hört sich gut an
was bedeutet lernfähig? (mir geht hier leider noch etwas hintergrundwissen ab)
ich gehe von folgender arbeitsweise aus
- Indizieren einer Datei
- Die Datei wird wort für wort durchgegangen (pro Dateiendung gibt es unterschiedliche Trennzeichen)
- ungünstige wörter werden gleich gelöscht (wörter < 2 zeichen) wörter mit nur Sonderzeichen oder nur zahlen
- das ganze wird in Tabellen gespeichert (einmal die Wörter und dann die Verlinkung)
- eventuell noch in der Linktabelle gespeichert, wie oft das Wort vorkommt?
- suchen
- gesucht wird in der INDEX_WORD Tabelle was dort gefunden wird, wird anschließen in der INDEX_INDEX Tabelle gesucht
SQL-Code:
INDEX_WORD (
ID INTEGER NOT NULL,
WORD VARCHAR(20) // Hier nen Index drauf
)
SQL-Code:
INDEX_INDEX (
WORD_ID INTEGER NOT NULL, // Verknüpfung zur INDEX_WORD Tabelle
OBJEKT_TYP INTEGER, // Welche Tabelle das ist
OBJEKT_ID INTEGER, // eindeutiger Index des Datensatzes in der Tabelle
STATUS INTEGER, // eventuell ein Status, wo das Wort vorgekommen ist (Kommentar oder Text oder ....)