AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

Wort aus PDF auslesen

Ein Thema von oakley · begonnen am 9. Feb 2021 · letzter Beitrag vom 12. Feb 2021
Antwort Antwort
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#1

Wort aus PDF auslesen

  Alt 9. Feb 2021, 15:57
Hallo zusammen,

ich müsste aus einem PDF ein Wort, das sich immer an der selben Stelle befindet, auslesen.
Im ersten Schritt beinhalten die PDFs lesbaren Text, der von einer anderen Software erzeugt wurde, und sind nicht gescannt worden.
Später möchte ich Dokumente einscannen und ein gescanntes Wort an einer bestimmten Position per OCR auslesen.

Kann auch ruhig eine fertige kommerzielle Komponente sein.

Ich habe mir Winsoft PDF Suite mal angeschaut aber da ist mir nicht ganz klar, wie ich die Scanbereiche definieren kann.
Gescannt wird hier glaube ich immer das komplette Dokument.

LG

Mirko
  Mit Zitat antworten Zitat
Erwin Mouthaan

Registriert seit: 9. Feb 2021
2 Beiträge
 
#2

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 17:18
Ich habe gute Erfahrungen mit Debenu
  Mit Zitat antworten Zitat
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#3

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 17:33
Ja das kenne ich vom Namen her.
Ich stelle mir das so vor, dass man eine gewisse Region definiert, in der das gesuchte Wort zu finden ist.
Ich habe allerdings keine Ahnung wie man da vorgeht.

LG

Mirko
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.197 Beiträge
 
Delphi 10.4 Sydney
 
#4

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 17:57
Was bedeutet "an einer bestimmten Position"?
x/y-Wert (mm) von Links oben?
Oder kann das nach definierten Text / vor definierten/festen Text sein

Im Zweiten fall z.B. mit PDF-Box Text extrahieren und dann definierten/festen Text suchen und dann Wort/Wörter davor/danach bestimmen.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#5

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 23:25
Hallo Bernhard,

ich denke es müsste eventuell schon ein x/y Wert in mm oder ähnlich sein. Möglicherweise ist das auch eine Zahlenkombination wenn an der Stelle kein Text steht.

LG

Mirko
  Mit Zitat antworten Zitat
Erwin Mouthaan

Registriert seit: 9. Feb 2021
2 Beiträge
 
#6

AW: Wort aus PDF auslesen

  Alt 10. Feb 2021, 16:47
Debenu Quick PDF Library bietet viele Optionen zum Extrahieren von Text. Mit der SetTextExtractionArea Methode zum beispiel kann eine Region angegeben werden.

Hier ein Beispiel zum Extrahieren von Text aus einem definierten rechteckigen Bereich auf einer Seite.
  Mit Zitat antworten Zitat
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#7

AW: Wort aus PDF auslesen

  Alt 11. Feb 2021, 09:01
Danke das ist genau das was ich suche.

LG

Mirko
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.197 Beiträge
 
Delphi 10.4 Sydney
 
#8

AW: Wort aus PDF auslesen

  Alt 11. Feb 2021, 09:35
Hallo Bernhard,
ich denke es müsste eventuell schon ein x/y Wert in mm oder ähnlich sein.
Mit x/y-Position ist dann PDFBox außen vor.
Wüsste nicht das diese (einfach) damit möglich wäre.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#9

AW: Wort aus PDF auslesen

  Alt 11. Feb 2021, 16:55
Mit PDFIum vom Winsoft geht es.

PDF1.TextInRectangle(127.0,539.0,173.0,523.0) erzeugt ein Rechteck, in dem Text ausgelesen wird.
Bei Scans Muss ich nochmal schauen aber bei auslesbarem Text funktioniert es.

LG

Mirko
  Mit Zitat antworten Zitat
Delbor

Registriert seit: 8. Okt 2006
Ort: St.Gallen/Schweiz
1.186 Beiträge
 
Delphi 11 Alexandria
 
#10

AW: Wort aus PDF auslesen

  Alt 12. Feb 2021, 02:14
Hi oakley

Zitat:
Mit PDFIum vom Winsoft geht es.
Um zu scannen, benötigst du die Twain-Komponente(1) von kluug.net und die OCR-Komponente (2) von Winsoft.

(1) Zum Einscannen in ein Rasterbild (Bmp, Jpeg...)
(2) Zum Umwandeln des Grafiktextes in lesbares Textformat

Weitere Scanfähige Komponenten sind mir nicht bekannt.

Gruss
Delbor

PS:
Zitat:
Ich habe mir Winsoft PDF Suite mal angeschaut aber da ist mir nicht ganz klar, wie ich die Scanbereiche definieren kann.
Gescannt wird hier glaube ich immer das komplette Dokument.
Die PDF-Suite kann nicht scannen. Ausserdem: Es liegt in der Natur der Scanner-HardWare, dass immer nur eine Seite (oft A4) entweder Ein- odr Doppelseitig gescannt wird. Ein Dokument hingegen kann mehrere/viele Seiten enthalten - von einer bis (fast) beliebig vielen.




Die TWain
Roger
Man muss und kann nicht alles wissen - man muss nur wissen, wo es steht.
Frei nach Albert Einstein
http://roase.ch

Geändert von Delbor (12. Feb 2021 um 02:30 Uhr)
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:09 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz