AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

PDF .. Text extrahieren

Ein Thema von erich.wanker · begonnen am 18. Feb 2017 · letzter Beitrag vom 18. Feb 2017
Antwort Antwort
Benutzerbild von erich.wanker
erich.wanker

Registriert seit: 31. Jan 2008
Ort: im schönen Salzburger Land
461 Beiträge
 
Delphi XE4 Professional
 
#1

PDF .. Text extrahieren

  Alt 18. Feb 2017, 14:40
Hallo Leute...
nach stundenlanger Suche bin ich leider immer noch nicht sicher, was ich verwenden kann und soll ...

Problemstellung:
Man kann in meiner Software PDF´s hinterlegen .. Jetzt suche ich einen günstigen Weg, wie ich an den Text der PDF´s gelange...


Ich hab 2 verschiedene PDF-Files
  • "normaler Text" im PDF eingebettet ...
  • Text als Bild -> benötigt also OCR ...

Ich bräuchte eine Art Batch-Stapelverarbeitung - die mir aus automatisch aus den 2 möglichen PDF-Typen ein TEXT-File generiert..

Pseudocode: extrahiere("c:\mein.pdf","C:\das_textfile.txt");


kostenpflichtige Online Service möchte ich wenn möglich nicht verwenden ...
Genausowenig wie "Adobe Acrobat Pro"

Hat jemand einen Rat?

Vielen Dank
Erich
Erich Wanker - for life:=1971 to lebensende do begin ..
O
/H\
/ \
  Mit Zitat antworten Zitat
Benutzerbild von haentschman
haentschman

Registriert seit: 24. Okt 2006
Ort: Seifhennersdorf / Sachsen
5.388 Beiträge
 
Delphi 12 Athens
 
#2

AW: PDF .. Text extrahieren

  Alt 18. Feb 2017, 15:47
Moin...
Zitat:
Jetzt suche ich einen günstigen Weg
https://www.gnostice.com/PDFtoolkit_...?show=overview
Es kommt auf das Projekt an. Was ist günstig... Hier muß man 350$ in die Hand nehmen. Da die Jungs jedes Jahr persönlich auf den Delphi Tagen dabei sind, wenn es mir leisten könnte, würde ich das bevorzugen.
Über die Qualität kann ich nichts sagen.
  Mit Zitat antworten Zitat
mrtwo12

Registriert seit: 18. Feb 2008
34 Beiträge
 
#3

AW: PDF .. Text extrahieren

  Alt 18. Feb 2017, 16:02
Moin,

Ich nutze eine Kombi aus ghostscript und tesseract.
Habe leider gerade kein Zugriff auf mein Rechner, könnte nachher die Scripts posten.

Von Gnostice kann ich nur abraten.

Mfg
  Mit Zitat antworten Zitat
Benutzerbild von erich.wanker
erich.wanker

Registriert seit: 31. Jan 2008
Ort: im schönen Salzburger Land
461 Beiträge
 
Delphi XE4 Professional
 
#4

AW: PDF .. Text extrahieren

  Alt 18. Feb 2017, 16:05
Hi ..

Danke für die Infos ... aber "Gnostice PDF toolkit" bietet kein OCR .... die hälfte meiner PDF Dokumente beinhalten einen gescannten Text
Erich Wanker - for life:=1971 to lebensende do begin ..
O
/H\
/ \
  Mit Zitat antworten Zitat
Benutzerbild von erich.wanker
erich.wanker

Registriert seit: 31. Jan 2008
Ort: im schönen Salzburger Land
461 Beiträge
 
Delphi XE4 Professional
 
#5

AW: PDF .. Text extrahieren

  Alt 18. Feb 2017, 16:11
hallo mrtwo12,

wäre nett wenn es dir zeitlich ausgeht ...

klingt gut, die Combi aus ghostscript ( ... "erlaubt aber eine unentgeltliche Verbreitung und Nutzung") und
tesseract ( .."unter der Apache-Lizenz via SourceForge") wäre SUPER!!

Vielen Dank
erich
Erich Wanker - for life:=1971 to lebensende do begin ..
O
/H\
/ \
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.202 Beiträge
 
Delphi 10.4 Sydney
 
#6

AW: PDF .. Text extrahieren

  Alt 18. Feb 2017, 18:15
Moin...
Zitat:
Jetzt suche ich einen günstigen Weg
https://www.gnostice.com/PDFtoolkit_...?show=overview
Es kommt auf das Projekt an. Was ist günstig... Hier muß man 350$ in die Hand nehmen. Da die Jungs jedes Jahr persönlich auf den Delphi Tagen dabei sind, wenn es mir leisten könnte, würde ich das bevorzugen.
Über die Qualität kann ich nichts sagen.
Ich kann etwas über die Qualität sagen: Ist (bzw. war es damails) unterirdisch.
Wir waren froh als wir diese Komponenten wieder ausgebaut hatten.
Wir hatten damit die Sicherheit der PDF-Dokumente gesetzt. Und bei relativ vielen realen PDF war danach das Programm kaputt, da die Gnostice-PDF-Implementierung sehr viele wilde Zeiger produziert hat. Wir hatten auch die Vollmundig verkündete Reimplementierung (vor dem Ausbauen) abgewartet und waren danach sehr enttäuscht das die Qualität praktisch unverändert schlecht war.

Mittlerweile setzen wir die PDFBox ein.
Kann zwar "nur" Text extrahieren, das dafür ziemlich gut.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
Benutzerbild von erich.wanker
erich.wanker

Registriert seit: 31. Jan 2008
Ort: im schönen Salzburger Land
461 Beiträge
 
Delphi XE4 Professional
 
#7

AW: PDF .. Text extrahieren

  Alt 18. Feb 2017, 18:29
Hallo Leute ..

********** VIELEN DANK **************

Hab einen Test erfolgreich zum laufen gebracht ... SCHAUT IM MOMENT SEHR GUT AUS







Installiert:
tesseract-ocr-setup-4.00.00dev.exe
gs920w32.exe

Delphi:

Code:
RunProcess('C:\Server\htdocs\files\ghostscript\bin\gswin32c.exe -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -dBATCH -sPAPERSIZE=a4 -sOutputFile='+tiffname+'Image-%d.tiff '+destname , SW_MINIMIZE, true, ProcID);


Code:
RunProcess('C:\Server\htdocs\files\tesseract\tesseract.exe '+tiffname+'Image-1.tiff '+tiffname+'Image-1 -l deu' , SW_MINIMIZE, false, ProcID);




Code:

function TS_ADMIN.RunProcess(FileName: string; ShowCmd: DWORD; wait: Boolean; ProcID: PCardinal): Longword;
var
  StartupInfo: TStartupInfo;
  ProcessInfo: TProcessInformation;
begin
  FillChar(StartupInfo, SizeOf(StartupInfo), #0);
  StartupInfo.cb := SizeOf(StartupInfo);
  StartupInfo.dwFlags := STARTF_USESHOWWINDOW or STARTF_FORCEONFEEDBACK;
  StartupInfo.wShowWindow := ShowCmd;
  if not CreateProcess(nil,
    @Filename[1],
    nil,
    nil,
    False,
    CREATE_NEW_CONSOLE or
    NORMAL_PRIORITY_CLASS,
    nil,
    nil,
    StartupInfo,
    ProcessInfo)
    then
      Result := WAIT_FAILED
  else
  begin
    try
      if not wait then
      begin
        if ProcID <> nil then ProcID^ := ProcessInfo.dwProcessId;
        Result := S_OK;
        exit;
      end;
      WaitForSingleObject(ProcessInfo.hProcess, INFINITE);
      GetExitCodeProcess(ProcessInfo.hProcess, Result);
    finally
      CloseHandle(ProcessInfo.hProcess);
      CloseHandle(ProcessInfo.hThread);
    end;
  end;
end;
Erich Wanker - for life:=1971 to lebensende do begin ..
O
/H\
/ \
  Mit Zitat antworten Zitat
mrtwo12

Registriert seit: 18. Feb 2008
34 Beiträge
 
#8

AW: PDF .. Text extrahieren

  Alt 18. Feb 2017, 19:26
Super, mein Code sieht ähnlich aus.
Nutze aber noch die 3er Version.

Ist echt mächtig wie ich finde.
Mfg

PS bei mir hat das Training noch ein wenig mehr in der Erkennungsrate gebracht.
War aber nur marginal.

Geändert von mrtwo12 (18. Feb 2017 um 19:29 Uhr)
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 07:26 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz