Zitat:
Wie kann man den den Text einer PDF Datei extrahieren ? Nutzt Ihr dazu eine Texterkennung die aus einem Programm angesteuert wird oder wie bekomme ich so etwas den hin ?
Viele PDF-Dateien haben einen Volltextindex. Mit Acrobat o. ähnlichen Programmen kann man diesen auch nachträglich erzeugen lassen ( wenn notwendig auch per OCR z.B. wenn die Dokumente eingescannt wurden).
Zur Beschleunigung der Suche bietet es sich aber an, den Inhalt noch einmal gesondert zu Verwalten (Volltextindex o.ä.)