AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Programmieren allgemein Textdatei Encoding feststellen ohne BOM

Textdatei Encoding feststellen ohne BOM

Ein Thema von jobo · begonnen am 17. Mär 2011 · letzter Beitrag vom 17. Mär 2011
Antwort Antwort
Benutzerbild von p80286
p80286

Registriert seit: 28. Apr 2008
Ort: Stolberg (Rhl)
6.659 Beiträge
 
FreePascal / Lazarus
 
#1

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 16:24
Dann raten wir mal BOM=Bottom of Master?
und als Zeichensatz EBCDIC76?

Zeig doch mal einen Auszug, vllt als HexDump?

Gruß
K-H
Programme gehorchen nicht Deinen Absichten sondern Deinen Anweisungen
R.E.D retired error detector
  Mit Zitat antworten Zitat
Benutzerbild von Luckie
Luckie

Registriert seit: 29. Mai 2002
37.621 Beiträge
 
Delphi 2006 Professional
 
#2

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 16:25
Da geht nur raten:
http://blogs.msdn.com/b/oldnewthing/.../24/95235.aspx
http://blogs.msdn.com/b/oldnewthing/...7/2158334.aspx
Michael
Ein Teil meines Codes würde euch verunsichern.
  Mit Zitat antworten Zitat
jobo

Registriert seit: 29. Nov 2010
3.072 Beiträge
 
Delphi 2010 Enterprise
 
#3

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 16:30
BOM = Byte Order Mark
Muster kann ich nicht liefern ohne sie zu anonymisieren. Damit wären sie dann aber zerstört bzw. bedeutungslos für die Frage.

Ich war eher an generellen Merkmalen der Kodierungen interessiert, also Indizien sozusagen..

Hab den letzten Post übersehen, danke für die Links.
Gruß, Jo
  Mit Zitat antworten Zitat
ele

Registriert seit: 18. Feb 2009
129 Beiträge
 
Delphi 2010 Professional
 
#4

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 16:54
Das kommt ganz auf die Daten an...

Wenn es sich z.B. um eine deutsche Textdatei handelt könnte man den Inhalt mit einem Wörterbuch vergleichen. Allerdings funktioniert das nur wenn der Text Sonderzeichen enthält.

Problem ist, dass es durchaus Texte gibt, die z.B. keine Umlaute enthalten. Da die normalen Buchstaben in allen (gängigen) Codierungen gleich sind, kann die Codierung auch nur erraten werden wenn auch Sonderzeichen vorkommen.

Bei genug grossen Dateien kann man auch die Häufigkeitsverteilung der einzelnen Zeichen ermitteln, was Aufschluss über die verwendete Codepage geben könnte. Allerdings ist das wesentlich komplizierter und funktioniert auch nur wenn der Text entsprechende Sonderzeichen enthält.

Das beste ist immer noch wenn man weiss was das Encoding ist. XML z.B. deklariert auf welche Art der Inhalt codiert ist, aber das ist ein Luxus den man leider nicht immer hat.
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.399 Beiträge
 
Delphi 12 Athens
 
#5

AW: Textdatei Encoding festellen ohne BOM

  Alt 17. Mär 2011, 16:34
Byte Order Mark ... wurde eingeführt, um gewisse Kodierungen sicher erkennen/unterscheiden zu können.

Alles Andere ist nur Gerate und es gibt keinen Code, welche "sicher" festellen kann, in welcher Kodierung ein reiner Text vorliegt.
Man kann höchstens verschiedene Kodierungen (Unicode, UTF-8, UTF-7, ASCII, ...) prüfen und sagen "ja, der Text entspricht zumindestens den Regeln dieser Kodierung",
aber hierbei kann es bei mehreren Kodierungen "ja" heißen und bezüglich einer ANSI-Codepage kann man überhaupt nicht prüfen, da es da keine unterscheidbaren Merkmale gibt.
Bei Unicode und ANSI wird jede "ordentliche" Prüfung fast immer True liefern.

Delphi-Quellcode:
function IsAnsi(s: PByte; Len: Integer): Boolean;
begin Result := True; end;

function IsAnsi(s: PByte; Len: Integer): Boolean;
begin Result := Len mod 2 = 0; end;
PS: Auch wenn eine Prüfung z.B. sagt "ja, das ist UTF-8", dann muß es nicht UTF-8 sein, es kann z.B. auch ANSI sein, welches rein zufällig so aussieht.
Ein Therapeut entspricht 1024 Gigapeut.
  Mit Zitat antworten Zitat
Antwort Antwort

Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht

Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 03:27 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz