Einzelnen Beitrag anzeigen

frieder2008

Registriert seit: 28. Feb 2009
78 Beiträge
 
#5

AW: PDF-Doks auf doppelte Seiten vergleichen

  Alt 13. Jun 2015, 10:36
Moin zusammen,

zunächst mal Danke für Eure Rückmeldungen. Ja, nach weiterer Recherche sehe ich auch, dass ich zuerst in RTF wechseln muss. Das wollte ich eben machen und stelle eben fest, dass es ausgerechnet dieses Mal Probleme gibt (Adobe Acrobat Pro X): Die PDFs sind nicht geschützt, enthalten bereits super ocr-erkannten Text, aber bei der Konvertierung in RTF ist der Text nur als Bild enthalten. Konvertierung direkt in TXT scheitert gänzlich. Eine Idee, woran das liegen kann? Konvertierung erst in TIFF o.ä. und dann erneut OCR macht ja wenig Sinn, zumal die bestehende Erkennung bereits früher mal sauber korrigiert wurde.

Wenn ich die RTF habe, ist mir das Verfahren einigermaßen klar. Ich hatte gehofft, mir "manuelles" sparen zu können. Da die Seiten - zumindest für den jeweiligen Zeitraum der Erstellung - alle nach dem gleichen FOrmat aufgebaut sind, könnte es klappen via RegEx jeweils den Seitenkopf zu identifizieren und zu vergleichen. Aber ehe ich soweit bin, muss ich erst mal das PDF->RTF-Problem lösen.

Schöne Grüße,
Frieder

Edit: @vagtler: Das wäre in der Tat ein Ansatz, schaue ich mir nochmal genauer an!

Geändert von frieder2008 (13. Jun 2015 um 10:40 Uhr)
  Mit Zitat antworten Zitat