Hallo Panthrax,
der elementare Ansatz bei der Textanalyse ist die Trennung von zwei Funktionalitäten: der harvester / analyzer zerlegt die Texte in Wörter (und Sätze, Abschnitte, je nach Anspruch) und hält deren Dokumentzugehörigkeit in einer Datenbank fest. Der
query processor liefert dann die gewünschte Information.
Der Parser scheint mir nicht sehr aufwendig zu sein. Problematischer ist die Implementierung eines performanten Speichers, der auch mit großen Textmengen (Kompression) zurecht kommt.
Es gibt eine Reihe von OpenSource Projekten, die sich mit full text retrieval befassen:
ht://dig,
Harvest,
Harvest-NG,
SWISH-E.
Hier findest du eine
Linksammlung.
Und für Delphi-Entwickler ist vielleicht
Rubicon interessant.
Grüße vom marabu