Hallo Leute - vielen Dank für die Hinweise
@p80286
Rohdaten sind aus "Tesseract OCR"
- ich verwende ghostscript, um PDF´s (bestehend meist aus gescannte A4 Seiten) in TIFF umzuwandeln...
- und ich verwende tesseract OCR, um TIFF´s in TXT umzuwandeln
- dann lade ich mir die TXT rein ... lösche "Füllwörter" (und, wie mit bei zu..) - da habe ich eine freie Liste online gefunen
und dann speichere ich mir den Rest in eine
DB
@HolgerX
JA - die Rohdaten haben weitere Steuerzeichen (Returns und Co) - die ich durch Copy/past (als auch händisch) nicht im Posting habe
@SneakyBagels.
"..Problem "ooorer" hat 6 Zeichen und alles ab 4 interessiert dich doch"
Ja ... Ein Wörterbuch drüberlaufen lassen wäre natürlich perfekt - aber das überschreitet meine Fähigkeiten
Wie soll ich z.b: Aus "Autm0bll" ein "Automobil" machen ...
Und: Es sind viele Familiennamen und Regions-namen in den Texten - die findet man nicht in einer Wörterbuchliste - und die sind eigentlich meine wichtigsten Indikatoren
Erich Wanker - for life:=1971 to lebensende do begin ..
O
/H\
/ \