Einzelnen Beitrag anzeigen

Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.184 Beiträge
 
Delphi 12 Athens
 
#6

AW: Textdatei auf gültigen Zeichensatz prüfen

  Alt 12. Okt 2012, 10:08
Jupp, ANSI (CodePages/Zeichensätze) besitzen keine Kennung, wie z.B. das Unicode-BOM,
denn diese besitzen alle die selbe Kodierung und nur die Interpretation der einzelnen Werte (z.B. per Transformationstabellen ala 'ner CodePage) unterscheidet sich.

Beim Unicode hat aber jeder Wert ein genau definiertes Zeichen, aber die Kodierung/Speicherung dieser Werte ist vorgegeben.
Dieses BOM, welches man z.B. kennt, ist ein bestimmter Wert (Marker) und anhand dessen, wie er gespeichert wurde, erkennt man daran, um welches Encoding es sich handelt. (abgesehn von einer Standardkodierung, welche man sich für die jeweilige Datei, bzw. das jeweilige OS festgelegt hat).


Wie also schon genannt wurde:
Wenn nicht irgendwo steht, um welche Kodierung es sich handelt, wie z.B. BOM, Attribut (XML) oder irdendwas Externes, ist es unmöglich.

Abgesehn von 7-Bit-Kodierungen, wie z.B. ASCII, sind im ANSI eigentlich erstmal alle Zeichen gültig.



PS: Das Thema wurde schon mehrmals hier angesprochen. SuFu?
Man kann versuchen über Wörterbücher, Häufigkeitsverteilungen von Zeichen oder bestimmte CodeMuster zu erkennen, um was es sich handelt, aber 100%ig Sicher ist das niemals.
$2B or not $2B

Geändert von himitsu (12. Okt 2012 um 10:12 Uhr)
  Mit Zitat antworten Zitat