Delphi-PRAXiS
Seite 1 von 2  1 2      

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   Textdatei Encoding feststellen ohne BOM (https://www.delphipraxis.net/159195-textdatei-encoding-feststellen-ohne-bom.html)

jobo 17. Mär 2011 16:34


Textdatei Encoding feststellen ohne BOM
 
Hallo,

wenn eine Textdatei, hier CSV Daten offensichtlich nicht ASCI/ANSI kodiert ist und keine BOM hat, wie stellt man die Kodierung fest??
Mir fällt grad auf, ich weiß nicht mal, ob CSV und BOM zusammen gehören.

NOTEPAD bspw. rät ja nicht schlecht bei der Kodierung.
Oder gibt es noch andere Kennzeichen?

Bernhard Geyer 17. Mär 2011 16:39

AW: Textdatei Encoding festellen ohne BOM
 
Zitat:

Zitat von jobo (Beitrag 1089297)
NOTEPAD bspw. rät ja nicht schlecht bei der Kodierung.

Das ist es: raten aufgrund der Daten entsprechend der aktuellen Codepage. Geht aber des öfteren bei kleinen Dateien daneben.

jobo 17. Mär 2011 16:50

AW: Textdatei Encoding festellen ohne BOM
 
mmh, bei fremden Dateien ist die aktuelle Codepage ja wurscht.
Also noch doller raten?

p80286 17. Mär 2011 17:24

AW: Textdatei Encoding festellen ohne BOM
 
Dann raten wir mal BOM=Bottom of Master?
und als Zeichensatz EBCDIC76?

Zeig doch mal einen Auszug, vllt als HexDump?

Gruß
K-H

Luckie 17. Mär 2011 17:25

AW: Textdatei Encoding festellen ohne BOM
 
Da geht nur raten:
http://blogs.msdn.com/b/oldnewthing/.../24/95235.aspx
http://blogs.msdn.com/b/oldnewthing/...7/2158334.aspx

jobo 17. Mär 2011 17:30

AW: Textdatei Encoding festellen ohne BOM
 
BOM = Byte Order Mark
Muster kann ich nicht liefern ohne sie zu anonymisieren. Damit wären sie dann aber zerstört bzw. bedeutungslos für die Frage.

Ich war eher an generellen Merkmalen der Kodierungen interessiert, also Indizien sozusagen..

Hab den letzten Post übersehen, danke für die Links.

himitsu 17. Mär 2011 17:34

AW: Textdatei Encoding festellen ohne BOM
 
Byte Order Mark ... wurde eingeführt, um gewisse Kodierungen sicher erkennen/unterscheiden zu können.

Alles Andere ist nur Gerate und es gibt keinen Code, welche "sicher" festellen kann, in welcher Kodierung ein reiner Text vorliegt.
Man kann höchstens verschiedene Kodierungen (Unicode, UTF-8, UTF-7, ASCII, ...) prüfen und sagen "ja, der Text entspricht zumindestens den Regeln dieser Kodierung",
aber hierbei kann es bei mehreren Kodierungen "ja" heißen und bezüglich einer ANSI-Codepage kann man überhaupt nicht prüfen, da es da keine unterscheidbaren Merkmale gibt.
Bei Unicode und ANSI wird jede "ordentliche" Prüfung fast immer True liefern. :stupid:

Delphi-Quellcode:
function IsAnsi(s: PByte; Len: Integer): Boolean;
begin Result := True; end;

function IsAnsi(s: PByte; Len: Integer): Boolean;
begin Result := Len mod 2 = 0; end;
PS: Auch wenn eine Prüfung z.B. sagt "ja, das ist UTF-8", dann muß es nicht UTF-8 sein, es kann z.B. auch ANSI sein, welches rein zufällig so aussieht.

ele 17. Mär 2011 17:54

AW: Textdatei Encoding festellen ohne BOM
 
Das kommt ganz auf die Daten an...

Wenn es sich z.B. um eine deutsche Textdatei handelt könnte man den Inhalt mit einem Wörterbuch vergleichen. Allerdings funktioniert das nur wenn der Text Sonderzeichen enthält.

Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.

Bei genug grossen Dateien kann man auch die Häufigkeitsverteilung der einzelnen Zeichen ermitteln, was Aufschluss über die verwendete Codepage geben könnte. Allerdings ist das wesentlich komplizierter und funktioniert auch nur wenn der Text entsprechende Sonderzeichen enthält.

Das beste ist immer noch wenn man weiss was das Encoding ist. XML z.B. deklariert auf welche Art der Inhalt codiert ist, aber das ist ein Luxus den man leider nicht immer hat.

p80286 17. Mär 2011 18:34

AW: Textdatei Encoding festellen ohne BOM
 
Zitat:

Zitat von jobo (Beitrag 1089297)
..Textdatei, hier CSV Daten offensichtlich nicht ASCI/ANSI kodiert ist ..

Wenn das so offensichtlich ist, dann gibt es ja wohl ein Problem mit den "einfachen" Buchstaben (abcd...xyz) also könnte es z.B. EBCDIC sein (Blank=x40 statt x20, 0..9=xF0..xF9).
Wenn der HexDump an jeder zweiten Stelle eine x00 aufweist, dann handelt es sich wohl um einen 16Bit Code.
Wenn es nur manchmal ein paar Ausreißer gibt, dann ist wohl UTF8 dafür verantwortlich.

Kann man auf diese Weise das Problem näher eingrenzen?

Gruß
K-H
Edith:
Zitat:

Zitat von ele (Beitrag 1089316)
Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.

Dann ist es völlig wurscht mit welcher Codierung man arbeitet.

ele 17. Mär 2011 19:06

AW: Textdatei Encoding festellen ohne BOM
 
Zitat:

Zitat von jobo (Beitrag 1089297)
Zitat:

Zitat von ele (Beitrag 1089316)
Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.

Dann ist es völlig wurscht mit welcher Codierung man arbeitet.

In der Regel ja, aber es gibt immer Ausnahmen.

Gegenbeispiel (frei geguttenbergt aus Wikipedia):

Zitat:

The currency sign (¤) is a character used to denote a currency, when the symbol for a particular currency is unavailable.
Angenommen das ganze ist in Windows-1252 codiert, wird aber (da es ja völlig wurscht ist) per Default als ISO 8859-15 interpretiert, dann kommt raus:


Zitat:

The currency sign (€) is a character used to denote a currency, when the symbol for a particular currency is unavailable.
Und diese Aussage ist definiv nicht korrekt.

q.e.d


Alle Zeitangaben in WEZ +1. Es ist jetzt 11:11 Uhr.
Seite 1 von 2  1 2      

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz