Einzelnen Beitrag anzeigen

Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.184 Beiträge
 
Delphi 12 Athens
 
#2

AW: Text aus durchsuchbarer PDF-Datei extrahieren

  Alt 31. Dez 2022, 14:59
Vermutlich wird der Scanner einfach nur das "Bild" als Bild in der PDF ablegen. (z.B. als JPEG oder komprimiertes Bitmap)

Genauso gut kann man sich vom Scanner auch ein TIFF geben lassen, oder einzelne Bilder pro Seite.



So oder so mußt du also noch ein OCR über die Bilder laufen lassen, um aus dem Bild den Text rauszubekommen.
OCR = Optical Character Recognition = Texterkennung

z.B. OCRmyPDF wandelt ein PDF aus Bildern in ein PDF mit Text um.



Und dann kannst du aus dieser PDF die Texte rausholen.

Oder eben die Bilder durch OCR in Text umwandeln und es direkt geben lassen.



Womit ich mal gespielt habe, ist Bei Google suchenOCRmyPDF im Docker innerhalb eines NAS laufen zu lassen.
Scanner scannt die PDF in ein Verzeichnis des NAS, darüber läuft regelmäßig das OCR (Bei Google suchensynOCR) und schiebt die konvertierten PDFs in ein anderes Verzeichnis (oder bennent sie zumindestens um).

Bei Google suchendelphi ocr
$2B or not $2B

Geändert von himitsu (31. Dez 2022 um 15:03 Uhr)
  Mit Zitat antworten Zitat