![]() |
Brainstorm: Text aus PDF Dokument lesen
Liste der Anhänge anzeigen (Anzahl: 1)
Hallo,
ich habe massenhaft PDFs, die alle gleich aufgebaut sind. Ich will diese zum Teil auslesen und weiterverabeiten. Mich interessiert dabei nur der Text von ein paar Seiten. Das Problem ist (wie auf dem Bild im Anhang einsehbar), dass einige Informationen in Spalten festgelegt sind - und die sind nicht statisch. Hier versagen leider alle externe Programme pdf2txt, die ich bis jetzt getestet habe. Ich weiss ab einer gewissen Zeile nicht mehr, welche Information zu welcher Zeile gehört. Wie komme ich an die rechte Spalte und weiß gleichzeitig, welche linke Spailte dazugehört? Vielen Dank für jegliche Art von Hilfe |
Re: Brainstorm: Text aus PDF Dokument lesen
Die PDF können so schrottig intern aufgebaut sein das es zwar optisch nach gleicher Zeile aussieht, aber intern keinerlei Zuordung vorhanden ist.
|
Re: Brainstorm: Text aus PDF Dokument lesen
Hallo,
im Anhang befindeet sich eine ZIP-Datei mit Beispielen in unterschiedlichen Sprachen. Die Datei habe ich aus irgendweiner Internetseite. Die Adresse weiß ich nicht mehr. Ich hoffe Dir mit meiner Antwort helfen zu können. Tschüss Gebhard [edit=Sharky]Anhang wegen Virenmeldung gelöscht. Mfg, Sharky[/edit] |
Re: Brainstorm: Text aus PDF Dokument lesen
Versuch mal die Inhalte unter Linux, mit XPDF herauszukopieren. Da habe ich mit Tabellenstrukturen ganz gute Erfahrungen gemacht. Alternativ ist im XPDF auch das Tool pdftops enthalten, vielleicht kannst du die Postscript-Struktur (ist ja auch nur eine Textdatei) besser verarbeiten.
|
Re: Brainstorm: Text aus PDF Dokument lesen
Danke für die Kommentare und Hilfe.
Zitat:
|
Re: Brainstorm: Text aus PDF Dokument lesen
Zitat:
|
Re: Brainstorm: Text aus PDF Dokument lesen
Ich habe eine wirklich sehr (!) gute Lösung gefunden (Danke Omata).
xpdf ist Freeware und unterstützt die Textausgabe in verschiedenen Layouts u.a. auch die "Ansicht", also so wie ma es sieht. Perfekt zum Weiterverarbeiten! Danke für eure Hilfe :thumb: |
Re: Brainstorm: Text aus PDF Dokument lesen
Hallo,
mit Schrecken habe ich im Forum von der Virenmeldung gelesen. Ich habe die ZIP-Datei mit dem Hintergedanken "vielleicht kannst du das mal gebrauchen" aus dem Netz geladen. Weil mein Virenscanner nicht gewarnt hat, habe ich die ZIP-Datei mit guten Gewissen bereitgestellt. Es tut mir Leid, dass ich der Administration Arbeit gemacht und die anderen Leser mit verseuchten Dateien belastet habe. Ich möchte mich hierfür in aller Form entschuldigen Gruß Gebhard |
Alle Zeitangaben in WEZ +1. Es ist jetzt 23:39 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz