Delphi-PRAXiS - Textdatei Encoding feststellen ohne BOM

Seite 1 von 2

40 Beiträge dieses Themas auf einer Seite anzeigen

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)

- - Textdatei Encoding feststellen ohne BOM (https://www.delphipraxis.net/159195-textdatei-encoding-feststellen-ohne-bom.html)

jobo	17. Mär 2011 16:34

Textdatei Encoding feststellen ohne BOM

Hallo,

wenn eine Textdatei, hier CSV Daten offensichtlich nicht ASCI/ANSI kodiert ist und keine BOM hat, wie stellt man die Kodierung fest??
Mir fällt grad auf, ich weiß nicht mal, ob CSV und BOM zusammen gehören.

NOTEPAD bspw. rät ja nicht schlecht bei der Kodierung.
Oder gibt es noch andere Kennzeichen?

Bernhard Geyer

17. Mär 2011 16:39

AW: Textdatei Encoding festellen ohne BOM

Zitat:

Zitat von jobo (Beitrag 1089297)

NOTEPAD bspw. rät ja nicht schlecht bei der Kodierung.

Das ist es: raten aufgrund der Daten entsprechend der aktuellen Codepage. Geht aber des öfteren bei kleinen Dateien daneben.

jobo	17. Mär 2011 16:50

AW: Textdatei Encoding festellen ohne BOM

mmh, bei fremden Dateien ist die aktuelle Codepage ja wurscht.
Also noch doller raten?

p80286

17. Mär 2011 17:24

AW: Textdatei Encoding festellen ohne BOM

Dann raten wir mal BOM=Bottom of Master?
und als Zeichensatz EBCDIC76?

Zeig doch mal einen Auszug, vllt als HexDump?

Gruß
K-H

Luckie

17. Mär 2011 17:25

AW: Textdatei Encoding festellen ohne BOM

Da geht nur raten:

http://blogs.msdn.com/b/oldnewthing/.../24/95235.aspx

http://blogs.msdn.com/b/oldnewthing/...7/2158334.aspx

jobo	17. Mär 2011 17:30

AW: Textdatei Encoding festellen ohne BOM

BOM = Byte Order Mark
Muster kann ich nicht liefern ohne sie zu anonymisieren. Damit wären sie dann aber zerstört bzw. bedeutungslos für die Frage.

Ich war eher an generellen Merkmalen der Kodierungen interessiert, also Indizien sozusagen..

Hab den letzten Post übersehen, danke für die Links.

himitsu

17. Mär 2011 17:34

AW: Textdatei Encoding festellen ohne BOM

Byte Order Mark ... wurde eingeführt, um gewisse Kodierungen sicher erkennen/unterscheiden zu können.

Alles Andere ist nur Gerate und es gibt keinen Code, welche "sicher" festellen kann, in welcher Kodierung ein reiner Text vorliegt.
Man kann höchstens verschiedene Kodierungen (Unicode, UTF-8, UTF-7, ASCII, ...) prüfen und sagen "ja, der Text entspricht zumindestens den Regeln dieser Kodierung",
aber hierbei kann es bei mehreren Kodierungen "ja" heißen und bezüglich einer ANSI-Codepage kann man überhaupt nicht prüfen, da es da keine unterscheidbaren Merkmale gibt.
Bei Unicode und ANSI wird jede "ordentliche" Prüfung fast immer True liefern. :stupid:

Delphi-Quellcode:

			function IsAnsi(s: PByte; Len: Integer): Boolean;

begin  Result := True;  end;

function IsAnsi(s: PByte; Len: Integer): Boolean;

begin  Result := Len mod 2 = 0;  end;

PS: Auch wenn eine Prüfung z.B. sagt "ja, das ist UTF-8", dann muß es nicht UTF-8 sein, es kann z.B. auch ANSI sein, welches rein zufällig so aussieht.

ele	17. Mär 2011 17:54

AW: Textdatei Encoding festellen ohne BOM

Das kommt ganz auf die Daten an...

Wenn es sich z.B. um eine deutsche Textdatei handelt könnte man den Inhalt mit einem Wörterbuch vergleichen. Allerdings funktioniert das nur wenn der Text Sonderzeichen enthält.

Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.

Bei genug grossen Dateien kann man auch die Häufigkeitsverteilung der einzelnen Zeichen ermitteln, was Aufschluss über die verwendete Codepage geben könnte. Allerdings ist das wesentlich komplizierter und funktioniert auch nur wenn der Text entsprechende Sonderzeichen enthält.

Das beste ist immer noch wenn man weiss was das Encoding ist. XML z.B. deklariert auf welche Art der Inhalt codiert ist, aber das ist ein Luxus den man leider nicht immer hat.

p80286

17. Mär 2011 18:34

AW: Textdatei Encoding festellen ohne BOM

Zitat:

Zitat von jobo (Beitrag 1089297)

..Textdatei, hier CSV Daten offensichtlich nicht ASCI/ANSI kodiert ist ..

Wenn das so offensichtlich ist, dann gibt es ja wohl ein Problem mit den "einfachen" Buchstaben (abcd...xyz) also könnte es z.B. EBCDIC sein (Blank=x40 statt x20, 0..9=xF0..xF9).
Wenn der HexDump an jeder zweiten Stelle eine x00 aufweist, dann handelt es sich wohl um einen 16Bit Code.
Wenn es nur manchmal ein paar Ausreißer gibt, dann ist wohl UTF8 dafür verantwortlich.

Kann man auf diese Weise das Problem näher eingrenzen?

Gruß
K-H
Edith:

Zitat:

Zitat von ele (Beitrag 1089316)

Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.

Dann ist es völlig wurscht mit welcher Codierung man arbeitet.

ele	17. Mär 2011 19:06

AW: Textdatei Encoding festellen ohne BOM

Zitat:

Zitat von jobo (Beitrag 1089297)

Zitat:

Zitat von ele (Beitrag 1089316)

Dann ist es völlig wurscht mit welcher Codierung man arbeitet.

In der Regel ja, aber es gibt immer Ausnahmen.

Gegenbeispiel (frei geguttenbergt aus Wikipedia):

Zitat:

The currency sign (¤) is a character used to denote a currency, when the symbol for a particular currency is unavailable.

Angenommen das ganze ist in Windows-1252 codiert, wird aber (da es ja völlig wurscht ist) per Default als ISO 8859-15 interpretiert, dann kommt raus:

Zitat:

The currency sign (€) is a character used to denote a currency, when the symbol for a particular currency is unavailable.

Und diese Aussage ist definiv nicht korrekt.

q.e.d

Alle Zeitangaben in WEZ +1. Es ist jetzt 11:11 Uhr.

Seite 1 von 2

40 Beiträge dieses Themas auf einer Seite anzeigen