die doppelten sollten da eigentlich auch nicht mehr drin sein
Bei einer Kundendatenbank haben wir ca 5 Millionen Datensätze mit jeweils ca 800 Worten
80% deutsch, 10% englisch, 10 % sonstige Sprachen. Mit den verdichteten Varianten der Texte
für die Volltextsuche liegen wir da bei ca 60 GB Datenbankgröße, von den Tabellen wird
ca 50GB belegt, der rest sind andere Tabellen, Indexdaten etc.
Wenn du selbst den Verdichter programmierst hast du auch noch den Vorteil, dir jegliche
andere Variante da einzubauen. Wir haben zum Beispiel noch bestimmte tags automatisch
eingebaut, wie zum Beispiel #SPRACHE=DE#DATUM=20090921#, so kannst du über
... containing '#DATUM=2009'
zum Beispiel auf texte eingrenzen, die in 2009 geschrieben wurden, ohne mit anderen
Tabellen zu joinen, in denen natürlich das Datum auch noch steht, aber manchmal ist
eine globale Abfrage auf den Inhalten einfacher zu realisieren, ohne zum Beispiel
extract(year from datum). könnten ja auch andere Daten relevant sein,
Veröffentlichungsdatum, Änderungsdatum, Rechungsdatum Lieferscheindatum,
Patentanmeldungsdatum, ....