AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Programmieren allgemein Textdatei Encoding feststellen ohne BOM
Thema durchsuchen
Ansicht
Themen-Optionen

Textdatei Encoding feststellen ohne BOM

Ein Thema von jobo · begonnen am 17. Mär 2011 · letzter Beitrag vom 17. Mär 2011
Antwort Antwort
Seite 1 von 2  1 2      
jobo

Registriert seit: 29. Nov 2010
3.072 Beiträge
 
Delphi 2010 Enterprise
 
#1

Textdatei Encoding feststellen ohne BOM

  Alt 17. Mär 2011, 16:34
Hallo,

wenn eine Textdatei, hier CSV Daten offensichtlich nicht ASCI/ANSI kodiert ist und keine BOM hat, wie stellt man die Kodierung fest??
Mir fällt grad auf, ich weiß nicht mal, ob CSV und BOM zusammen gehören.

NOTEPAD bspw. rät ja nicht schlecht bei der Kodierung.
Oder gibt es noch andere Kennzeichen?
Gruß, Jo

Geändert von jobo (17. Mär 2011 um 20:39 Uhr)
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer
Online

Registriert seit: 13. Aug 2002
17.201 Beiträge
 
Delphi 10.4 Sydney
 
#2

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 16:39
NOTEPAD bspw. rät ja nicht schlecht bei der Kodierung.
Das ist es: raten aufgrund der Daten entsprechend der aktuellen Codepage. Geht aber des öfteren bei kleinen Dateien daneben.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
jobo

Registriert seit: 29. Nov 2010
3.072 Beiträge
 
Delphi 2010 Enterprise
 
#3

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 16:50
mmh, bei fremden Dateien ist die aktuelle Codepage ja wurscht.
Also noch doller raten?
Gruß, Jo
  Mit Zitat antworten Zitat
Benutzerbild von p80286
p80286

Registriert seit: 28. Apr 2008
Ort: Stolberg (Rhl)
6.659 Beiträge
 
FreePascal / Lazarus
 
#4

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 17:24
Dann raten wir mal BOM=Bottom of Master?
und als Zeichensatz EBCDIC76?

Zeig doch mal einen Auszug, vllt als HexDump?

Gruß
K-H
Programme gehorchen nicht Deinen Absichten sondern Deinen Anweisungen
R.E.D retired error detector
  Mit Zitat antworten Zitat
Benutzerbild von Luckie
Luckie

Registriert seit: 29. Mai 2002
37.621 Beiträge
 
Delphi 2006 Professional
 
#5

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 17:25
Da geht nur raten:
http://blogs.msdn.com/b/oldnewthing/.../24/95235.aspx
http://blogs.msdn.com/b/oldnewthing/...7/2158334.aspx
Michael
Ein Teil meines Codes würde euch verunsichern.
  Mit Zitat antworten Zitat
jobo

Registriert seit: 29. Nov 2010
3.072 Beiträge
 
Delphi 2010 Enterprise
 
#6

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 17:30
BOM = Byte Order Mark
Muster kann ich nicht liefern ohne sie zu anonymisieren. Damit wären sie dann aber zerstört bzw. bedeutungslos für die Frage.

Ich war eher an generellen Merkmalen der Kodierungen interessiert, also Indizien sozusagen..

Hab den letzten Post übersehen, danke für die Links.
Gruß, Jo
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.184 Beiträge
 
Delphi 12 Athens
 
#7

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 17:34
Byte Order Mark ... wurde eingeführt, um gewisse Kodierungen sicher erkennen/unterscheiden zu können.

Alles Andere ist nur Gerate und es gibt keinen Code, welche "sicher" festellen kann, in welcher Kodierung ein reiner Text vorliegt.
Man kann höchstens verschiedene Kodierungen (Unicode, UTF-8, UTF-7, ASCII, ...) prüfen und sagen "ja, der Text entspricht zumindestens den Regeln dieser Kodierung",
aber hierbei kann es bei mehreren Kodierungen "ja" heißen und bezüglich einer ANSI-Codepage kann man überhaupt nicht prüfen, da es da keine unterscheidbaren Merkmale gibt.
Bei Unicode und ANSI wird jede "ordentliche" Prüfung fast immer True liefern.

Delphi-Quellcode:
function IsAnsi(s: PByte; Len: Integer): Boolean;
begin Result := True; end;

function IsAnsi(s: PByte; Len: Integer): Boolean;
begin Result := Len mod 2 = 0; end;
PS: Auch wenn eine Prüfung z.B. sagt "ja, das ist UTF-8", dann muß es nicht UTF-8 sein, es kann z.B. auch ANSI sein, welches rein zufällig so aussieht.
$2B or not $2B
  Mit Zitat antworten Zitat
ele

Registriert seit: 18. Feb 2009
129 Beiträge
 
Delphi 2010 Professional
 
#8

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 17:54
Das kommt ganz auf die Daten an...

Wenn es sich z.B. um eine deutsche Textdatei handelt könnte man den Inhalt mit einem Wörterbuch vergleichen. Allerdings funktioniert das nur wenn der Text Sonderzeichen enthält.

Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.

Bei genug grossen Dateien kann man auch die Häufigkeitsverteilung der einzelnen Zeichen ermitteln, was Aufschluss über die verwendete Codepage geben könnte. Allerdings ist das wesentlich komplizierter und funktioniert auch nur wenn der Text entsprechende Sonderzeichen enthält.

Das beste ist immer noch wenn man weiss was das Encoding ist. XML z.B. deklariert auf welche Art der Inhalt codiert ist, aber das ist ein Luxus den man leider nicht immer hat.
  Mit Zitat antworten Zitat
Benutzerbild von p80286
p80286

Registriert seit: 28. Apr 2008
Ort: Stolberg (Rhl)
6.659 Beiträge
 
FreePascal / Lazarus
 
#9

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 18:34
..Textdatei, hier CSV Daten offensichtlich nicht ASCI/ANSI kodiert ist ..
Wenn das so offensichtlich ist, dann gibt es ja wohl ein Problem mit den "einfachen" Buchstaben (abcd...xyz) also könnte es z.B. EBCDIC sein (Blank=x40 statt x20, 0..9=xF0..xF9).
Wenn der HexDump an jeder zweiten Stelle eine x00 aufweist, dann handelt es sich wohl um einen 16Bit Code.
Wenn es nur manchmal ein paar Ausreißer gibt, dann ist wohl UTF8 dafür verantwortlich.

Kann man auf diese Weise das Problem näher eingrenzen?

Gruß
K-H
Edith:
Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.
Dann ist es völlig wurscht mit welcher Codierung man arbeitet.
Programme gehorchen nicht Deinen Absichten sondern Deinen Anweisungen
R.E.D retired error detector

Geändert von p80286 (17. Mär 2011 um 18:36 Uhr)
  Mit Zitat antworten Zitat
ele

Registriert seit: 18. Feb 2009
129 Beiträge
 
Delphi 2010 Professional
 
#10

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 19:06
Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.
Dann ist es völlig wurscht mit welcher Codierung man arbeitet.
In der Regel ja, aber es gibt immer Ausnahmen.

Gegenbeispiel (frei geguttenbergt aus Wikipedia):

Zitat:
The currency sign (¤) is a character used to denote a currency, when the symbol for a particular currency is unavailable.
Angenommen das ganze ist in Windows-1252 codiert, wird aber (da es ja völlig wurscht ist) per Default als ISO 8859-15 interpretiert, dann kommt raus:


Zitat:
The currency sign (€) is a character used to denote a currency, when the symbol for a particular currency is unavailable.
Und diese Aussage ist definiv nicht korrekt.

q.e.d
  Mit Zitat antworten Zitat
Antwort Antwort
Seite 1 von 2  1 2      


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:53 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz