Thema: Delphi PDF to Txt

Einzelnen Beitrag anzeigen

Benutzerbild von ULIK
ULIK

Registriert seit: 25. Sep 2006
Ort: Regensburg
427 Beiträge
 
Delphi 11 Alexandria
 
#2

Re: PDF to Txt

  Alt 2. Apr 2010, 11:19
Hallo,

Wenn Du das selbst schreiben willst, mußt Du Dir "erst einmal" einen kompletten PDF Renderer schreiben, der dann in der Lage ist, die gefundenen Elemente in ein RTF zu schreiben. Und selbst dann wirst Du bei Leerzeichen zwischen Worten etc. Probleme haben: In PDF werden Leerzeichen ja nicht unbedingt als solche eingefügt und gerendert. Oft definiert sich ein Abstand zwischen zwei Wörtern nur dadurch, das das der erste Buchstabe des zweiten Wortes einfach weiter rechts positioniert wird.
Lies Dir einfach mal die PDF Spec durch

Selbst die kommerziellen Sachen (PDF XChange SDK, QuickPDF, ...), die Text extrahieren können haben alle noch so ihre Schwächen. Man sollte sich halt mal eingestehen: PDF ist ein Druckformat und nicht unbedingt geeignet die Semantik der Information zu erhalten.

Grüße,
Uli
  Mit Zitat antworten Zitat