![]() |
Probleme mit UTF-8
Hi,
vielleicht hab ich gerade ein mittelgroßes Brett vorm Kopf, aber ich finde keine Lösung für folgendes Problem: Ich habe eine Xml-Datei, die in UTF-8 codiert ist. Diese versuche ich mit "LoadFromFile" in ein Tnt-Memo zu laden. Seltsamer Weise werden hier die Umlaute genauso falsch angezeigt, wie wenn ich die Datei in ein "normales" Memo lade. Also statt einem "ä" steht dort ein "ä" :? Ich habe noch nicht viel Erfahrung mit Unicode, meine aber mal gelesen zu haben, dass WideString Utf-16 entspricht. Liegt der Fehler jetzt darin, dass die Datei in Utf-8 gespeichert ist? Wenn ja, wie kann ich das Problem lösen? Herzlichen Dank schonmal für eure Hilfe :) |
Re: Probleme mit UTF-8
schau dir mal UTF8ToUnicode und UnicodeToUTF8 an ;)
|
Re: Probleme mit UTF-8
Okay, vielen Dank :)
Also war ich ein wenig auf dem Holzweg. Wie erkenne ich eigentlich, ob eine Textdatei in UTF-8 oder UTF-16 codiert ist? |
Re: Probleme mit UTF-8
Hallo,
Zitat:
![]() Gruß xaromz |
Re: Probleme mit UTF-8
Ganz so automatisch ist es nicht, LoadFromFile erwartet immer eine UTF-16 Datei. Für UTF-8 (oder andere Codierungen) gibt es
Delphi-Quellcode:
Dann wird UTF8Decode schon mal intern aufgerufen, auch wenn es nicht die beste Funktion von Delphi ist.
TntMemo1.Lines.AnsiStrings.LoadFromFileEx('datei', CP_UTF8);
Die Bommeln sind nicht unbedingt verlässlich, zumal sie für UTF-8 eigentlich überflüssig sind. Bei XML kann man aber meist mit UTF-8 rechnen. Wenn nur die Auswahl UTF-8 oder UTF-16 besteht, sollte es reichen, die Datei mal Byteweise zu lesen, trifft man auf Nullbytes, ist es UTF-16. Ansonsten ist aber UTF-8 eine der wenigen Codierungen, die sich einigermaßen eindeutig identifizieren lassen. |
Re: Probleme mit UTF-8
Hallo,
Zitat:
Übrigens lässt sich UTF16 zumindest bei Inhalt in westlicher Sprache wesentlich leichter erkennen als UTF8 (nämlich wegen der NULL-Zeichen). Wenn bei einer UTF8-codierten Datei nur der letzte von einer Million Buchstaben codiert ist, muss die gesamte Datei geparst werden. Und vielleicht sollen da ja genau die zwei Bytes stehen und es ist gar nicht codiert. Insofern ist ein BOM schon nützlich. Gruß xaromz |
Re: Probleme mit UTF-8
Zitat:
Zitat:
[Edit: Die Frage hat sich erledigt. Ich habe gerade gelesen, dass das BOM bei UTF-8 Dateien keine Pflicht ist. So kann ich das wirklich nicht als zuverlässigen Indikator nutzen. Wie Unterscheide ich dann UTF-8 von ANSI? Oder kann ich UTF8ToAnsi zur Sicherheit immer vorher anwenden?] |
Re: Probleme mit UTF-8
Besser nicht auf eine BOM verlassen, sonst ist man schneller selbiges, als man möchte. Dass bei deiner Datei keine dabei war, hast du ja gemerkt. Wenn es nur um XML geht, sollte man davon ausgehen können, dass hier die Codierung noch einmal direkt in der Datei angegeben ist. Wenn ich mich richtig erinnere, gab es hier vor nicht allzu langer Zeit auch schon mal ein längeres Thema dazu.
Ansonsten ist die Erkennung der Codierung ein recht freudiges Thema. Falls es sich auf nur CP1252, UTF-8 und UTF-16 Dateien beschränkt, ist es aber noch recht einfach. Bei UTF-16 gibt es halt Nullbytes und das schon beim ersten "<". UTF-8 hat strikte Regeln, die für alle Zeichen eingehalten werden müssen. ANSI ist dann der Rest. Um nicht selbst auf UTF-8 testen zu müssen, kannst du UTF8Decode verwenden, das gibt einen Leerstring zurück, wenn es irgendwo ein illegales Zeichen findet. Also, ein paar Bytes einlesen, ist eine Null dabei, dann ist es UTF-16, gibt UTF8Decode für den gesamten Text mehr als einen Leerstring zurück, ist es UTF-8, sonst kann es bei der Auswahl nur ANSI sein. |
Re: Probleme mit UTF-8
Auf SourceForge gibt es ein Projekt, daß sich diesem Thema annimmt:
![]() |
Re: Probleme mit UTF-8
utf8VCL ist aber noch ganz frisch.
|
Alle Zeitangaben in WEZ +1. Es ist jetzt 18:16 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz