Hallo,
was PDF betrifft: hier wirst Du nicht umhin können, ziemlich viel Geld in die Hände zu nehmen. Ohne kommerzielle Komponenten wird da nicht viel gehen, wenn Du nicht Lust/Zeit hast, Dich die nächsten Monate/Jahre in der PDF Spezifikation fit zu machen.
Selbst bei den kommerziellen Komponenten sollte man drauf achten, ob sie wirklich den Text sauber extrahieren können! Also testen mit den zu erwartenden PDFs!
Nur ein paar Komponenten:
PDFXChange
SDK (setze ich in der Arbeit ein)
Foxit (da muß man wohl nachfragen, aber anscheinend sehr teuer)
Quickpdf
Adobe (wohl sehr teuer)
Wie gut die PDF Libs aus dem Java-Bereich sind, weiß ich nicht. Aber vieleicht könnte man da auch was machen.
Grüße,
Uli