Hallo,
Wenn Du das selbst schreiben willst, mußt Du Dir "erst einmal" einen kompletten PDF Renderer schreiben, der dann in der Lage ist, die gefundenen Elemente in ein RTF zu schreiben. Und selbst dann wirst Du bei Leerzeichen zwischen Worten etc. Probleme haben: In PDF werden Leerzeichen ja nicht unbedingt als solche eingefügt und gerendert. Oft definiert sich ein Abstand zwischen zwei Wörtern nur dadurch, das das der erste Buchstabe des zweiten Wortes einfach weiter rechts positioniert wird.
Lies Dir einfach mal die PDF Spec durch
Selbst die kommerziellen Sachen (PDF XChange
SDK, QuickPDF, ...), die Text extrahieren können haben alle noch so ihre Schwächen. Man sollte sich halt mal eingestehen: PDF ist ein
Druckformat und nicht unbedingt geeignet die Semantik der Information zu erhalten.
Grüße,
Uli