AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Sprachen und Entwicklungsumgebungen Sonstige Fragen zu Delphi Delphi Brainstorm: Text aus PDF Dokument lesen
Thema durchsuchen
Ansicht
Themen-Optionen

Brainstorm: Text aus PDF Dokument lesen

Ein Thema von BackOrifice · begonnen am 24. Jun 2009 · letzter Beitrag vom 29. Jun 2009
Antwort Antwort
Benutzerbild von BackOrifice
BackOrifice

Registriert seit: 6. Jun 2005
74 Beiträge
 
Delphi 2007 Architect
 
#1

Brainstorm: Text aus PDF Dokument lesen

  Alt 24. Jun 2009, 20:33
Hallo,

ich habe massenhaft PDFs, die alle gleich aufgebaut sind. Ich will diese zum Teil auslesen und weiterverabeiten. Mich interessiert dabei nur der Text von ein paar Seiten. Das Problem ist (wie auf dem Bild im Anhang einsehbar), dass einige Informationen in Spalten festgelegt sind - und die sind nicht statisch. Hier versagen leider alle externe Programme pdf2txt, die ich bis jetzt getestet habe. Ich weiss ab einer gewissen Zeile nicht mehr, welche Information zu welcher Zeile gehört.

Wie komme ich an die rechte Spalte und weiß gleichzeitig, welche linke Spailte dazugehört?


Vielen Dank für jegliche Art von Hilfe
Miniaturansicht angehängter Grafiken
pdfansicht_895.jpg  
Henning
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.195 Beiträge
 
Delphi 10.4 Sydney
 
#2

Re: Brainstorm: Text aus PDF Dokument lesen

  Alt 24. Jun 2009, 21:17
Die PDF können so schrottig intern aufgebaut sein das es zwar optisch nach gleicher Zeile aussieht, aber intern keinerlei Zuordung vorhanden ist.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
Gebhard

Registriert seit: 28. Nov 2005
42 Beiträge
 
Delphi 7 Personal
 
#3

Re: Brainstorm: Text aus PDF Dokument lesen

  Alt 24. Jun 2009, 23:16
Hallo,

im Anhang befindeet sich eine ZIP-Datei mit Beispielen in unterschiedlichen Sprachen. Die Datei habe ich aus irgendweiner Internetseite. Die Adresse weiß ich nicht mehr.

Ich hoffe Dir mit meiner Antwort helfen zu können.

Tschüss

Gebhard

[edit=Sharky]Anhang wegen Virenmeldung gelöscht. Mfg, Sharky[/edit]
Olli
  Mit Zitat antworten Zitat
omata

Registriert seit: 26. Aug 2004
Ort: Nebel auf Amrum
3.154 Beiträge
 
Delphi 7 Enterprise
 
#4

Re: Brainstorm: Text aus PDF Dokument lesen

  Alt 25. Jun 2009, 00:04
Versuch mal die Inhalte unter Linux, mit XPDF herauszukopieren. Da habe ich mit Tabellenstrukturen ganz gute Erfahrungen gemacht. Alternativ ist im XPDF auch das Tool pdftops enthalten, vielleicht kannst du die Postscript-Struktur (ist ja auch nur eine Textdatei) besser verarbeiten.
  Mit Zitat antworten Zitat
Benutzerbild von BackOrifice
BackOrifice

Registriert seit: 6. Jun 2005
74 Beiträge
 
Delphi 2007 Architect
 
#5

Re: Brainstorm: Text aus PDF Dokument lesen

  Alt 25. Jun 2009, 23:04
Danke für die Kommentare und Hilfe.

Zitat von Gebhard:
Hallo,
im Anhang befindeet sich eine ZIP-Datei mit Beispielen in unterschiedlichen Sprachen. Die Datei habe ich aus irgendweiner Internetseite. Die Adresse weiß ich nicht mehr.
AntiVir meldet Trojanisches Pferd?
Henning
  Mit Zitat antworten Zitat
Satty67

Registriert seit: 24. Feb 2007
Ort: Baden
1.566 Beiträge
 
Delphi 2007 Professional
 
#6

Re: Brainstorm: Text aus PDF Dokument lesen

  Alt 25. Jun 2009, 23:22
Zitat von BackOrifice:
AntiVir meldet Trojanisches Pferd?
AVG auch...
  Mit Zitat antworten Zitat
Benutzerbild von BackOrifice
BackOrifice

Registriert seit: 6. Jun 2005
74 Beiträge
 
Delphi 2007 Architect
 
#7

Re: Brainstorm: Text aus PDF Dokument lesen

  Alt 27. Jun 2009, 18:58
Ich habe eine wirklich sehr (!) gute Lösung gefunden (Danke Omata).

xpdf ist Freeware und unterstützt die Textausgabe in verschiedenen Layouts u.a. auch die "Ansicht", also so wie ma es sieht. Perfekt zum Weiterverarbeiten!

Danke für eure Hilfe
Henning
  Mit Zitat antworten Zitat
Gebhard

Registriert seit: 28. Nov 2005
42 Beiträge
 
Delphi 7 Personal
 
#8

Re: Brainstorm: Text aus PDF Dokument lesen

  Alt 29. Jun 2009, 21:21
Hallo,

mit Schrecken habe ich im Forum von der Virenmeldung gelesen. Ich habe die ZIP-Datei mit dem Hintergedanken "vielleicht kannst du das mal gebrauchen" aus dem Netz geladen. Weil mein Virenscanner nicht gewarnt hat, habe ich die ZIP-Datei mit guten Gewissen bereitgestellt. Es tut mir Leid, dass ich der Administration Arbeit gemacht und die anderen Leser mit verseuchten Dateien belastet habe. Ich möchte mich hierfür in aller Form entschuldigen

Gruß

Gebhard
Olli
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 04:46 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz