AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren

Wort aus PDF auslesen

Ein Thema von oakley · begonnen am 9. Feb 2021 · letzter Beitrag vom 12. Feb 2021
Antwort Antwort
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#1

Wort aus PDF auslesen

  Alt 9. Feb 2021, 14:57
Hallo zusammen,

ich müsste aus einem PDF ein Wort, das sich immer an der selben Stelle befindet, auslesen.
Im ersten Schritt beinhalten die PDFs lesbaren Text, der von einer anderen Software erzeugt wurde, und sind nicht gescannt worden.
Später möchte ich Dokumente einscannen und ein gescanntes Wort an einer bestimmten Position per OCR auslesen.

Kann auch ruhig eine fertige kommerzielle Komponente sein.

Ich habe mir Winsoft PDF Suite mal angeschaut aber da ist mir nicht ganz klar, wie ich die Scanbereiche definieren kann.
Gescannt wird hier glaube ich immer das komplette Dokument.

LG

Mirko
  Mit Zitat antworten Zitat
Erwin Mouthaan

Registriert seit: 9. Feb 2021
2 Beiträge
 
#2

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 16:18
Ich habe gute Erfahrungen mit Debenu
  Mit Zitat antworten Zitat
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#3

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 16:33
Ja das kenne ich vom Namen her.
Ich stelle mir das so vor, dass man eine gewisse Region definiert, in der das gesuchte Wort zu finden ist.
Ich habe allerdings keine Ahnung wie man da vorgeht.

LG

Mirko
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.222 Beiträge
 
Delphi 10.4 Sydney
 
#4

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 16:57
Was bedeutet "an einer bestimmten Position"?
x/y-Wert (mm) von Links oben?
Oder kann das nach definierten Text / vor definierten/festen Text sein

Im Zweiten fall z.B. mit PDF-Box Text extrahieren und dann definierten/festen Text suchen und dann Wort/Wörter davor/danach bestimmen.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
oakley

Registriert seit: 15. Aug 2005
287 Beiträge
 
#5

AW: Wort aus PDF auslesen

  Alt 9. Feb 2021, 22:25
Hallo Bernhard,

ich denke es müsste eventuell schon ein x/y Wert in mm oder ähnlich sein. Möglicherweise ist das auch eine Zahlenkombination wenn an der Stelle kein Text steht.

LG

Mirko
  Mit Zitat antworten Zitat
Erwin Mouthaan

Registriert seit: 9. Feb 2021
2 Beiträge
 
#6

AW: Wort aus PDF auslesen

  Alt 10. Feb 2021, 15:47
Debenu Quick PDF Library bietet viele Optionen zum Extrahieren von Text. Mit der SetTextExtractionArea Methode zum beispiel kann eine Region angegeben werden.

Hier ein Beispiel zum Extrahieren von Text aus einem definierten rechteckigen Bereich auf einer Seite.
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.222 Beiträge
 
Delphi 10.4 Sydney
 
#7

AW: Wort aus PDF auslesen

  Alt 11. Feb 2021, 08:35
Hallo Bernhard,
ich denke es müsste eventuell schon ein x/y Wert in mm oder ähnlich sein.
Mit x/y-Position ist dann PDFBox außen vor.
Wüsste nicht das diese (einfach) damit möglich wäre.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
Antwort Antwort

Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht

Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 18:17 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz