Hab es zusammengebracht, doch leider kann ich von den WINDOWSSCREENshoot, das ich als BMP, JPG oder GIF habe, nur schlecht den Text wiedererkennen.... Hat wer da Rat wie man das verbessern kann.
Es kommt auch eine Warning:
Warning. Invalid resolution 0 dpi. Using 70 instead.
Es gibt eine FAQ zu Tesseract und was man machen kann um das Ergebnis zu verbessern.
https://github.com/tesseract-ocr/tes...ImproveQuality
In Deinem Fall vermutlich
1. Hast du die richtige Sprache installiert und verwendet, oder lediglich Default - also Englisch
Wenn nein, Deutsch verwenden ausprobieren, verbessert ?
Sprachen / Dictionaries kannst Du seperat herunterladen, auf die richtige Version achten
für Tesseract 3.X
https://github.com/tesseract-ocr/langdata
für Tesseract 4.X
https://github.com/tesseract-ocr/tessdata
2. Funktioniert evtl. Tesseract 4.X besser (mit Deutsch) ?
3. Kannst Du das Bild auf 300 DPI skalieren
4. Doch wieder selbst binariesieren. In Fall eines Screenshots ist normalerweise die einfachste Operation die beste. Wenn du jedes Pixel das heller ist als die Schriftfarbe (Schwarz) als weiß ansiehst, dann hast Du am Ende ein S/W Bild bei dem alles außer der schwarzen Schrift verschwunden ist. Das ist eigentlich ideal um es mit einer OCR zu verwenden.
hth
Ha-Jö