Delphi-PRAXiS - Einzelnen Beitrag anzeigen - Text aus durchsuchbarer PDF-Datei extrahieren

**himitsu**

Vermutlich wird der Scanner einfach nur das "Bild" als Bild in der PDF ablegen. (z.B. als JPEG oder komprimiertes Bitmap)

Genauso gut kann man sich vom Scanner auch ein TIFF geben lassen, oder einzelne Bilder pro Seite.

So oder so mußt du also noch ein OCR über die Bilder laufen lassen, um aus dem Bild den Text rauszubekommen.
OCR = Optical Character Recognition = Texterkennung

z.B. OCRmyPDF wandelt ein PDF aus Bildern in ein PDF mit Text um.

Und dann kannst du aus dieser PDF die Texte rausholen.

Oder eben die Bilder durch OCR in Text umwandeln und es direkt geben lassen.

Womit ich mal gespielt habe, ist Bei Google suchen

OCRmyPDF im Docker innerhalb eines NAS laufen zu lassen.
Scanner scannt die PDF in ein Verzeichnis des NAS, darüber läuft regelmäßig das OCR ( Bei Google suchen

synOCR) und schiebt die konvertierten PDFs in ein anderes Verzeichnis (oder bennent sie zumindestens um).

Bei Google suchen

delphi ocr

Einzelnen Beitrag anzeigen

AW: Text aus durchsuchbarer PDF-Datei extrahieren