AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

TXMLDocument und Umlaute

Ein Thema von mjustin · begonnen am 8. Jul 2009 · letzter Beitrag vom 8. Jul 2009
Antwort Antwort
mjustin

Registriert seit: 14. Apr 2008
3.006 Beiträge
 
Delphi 2009 Professional
 
#1

TXMLDocument und Umlaute

  Alt 8. Jul 2009, 12:18
Hallo,

In Delphi 2009 habe ich eine Fehlermeldung bei der Verwendung von TXMLDocument mit Umlauten. Beim Zurücklesen der XML Datei wird die Fehlermeldung ''An invalid character was found in text content.' angezeigt, beim Setzen von Active auf True. Im Editor wird UTF-8 Codierung verwendet.

In Notepad und Wordpad sieht die Datei gut aus:

<?xml version="1.0"?>
<a>äöü</a>

In XmlSpy wird ein Quadrat statt den Umlauten angezeigt.

Ist das ein bekanntes Problem?

Delphi-Quellcode:
procedure TfrmMain.Button1Click(Sender: TObject);
var
  xmlDoc: IXMLDocument;
  N: IXmlNode;
begin
  xmlDoc := TxmlDocument.Create(nil);
  xmlDoc.Active := True;
  xmlDoc.Encoding := 'UTF-8';
  N := xmlDoc.AddChild('a');
  N.Text := 'äöü';
  with TStringlist.Create do
  try
    Text := xmlDoc.XML.Text;
    SaveToFile('test.xml');
  finally
    Free;
  end;
end;

procedure TfrmMain.Button2Click(Sender: TObject);
var
  xmlDoc: IXMLDocument;
  N: IXmlNode;
begin
  xmlDoc := TxmlDocument.Create(nil);
  xmlDoc.XML.LoadFromFile('test.xml');
  xmlDoc.Active := True; <---- Exception
  N := xmlDoc.DocumentElement;
  ShowMessage(N.Text);
end;
Michael Justin
habarisoft.com
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.062 Beiträge
 
Delphi 12 Athens
 
#2

Re: TXMLDocument und Umlaute

  Alt 8. Jul 2009, 12:24
in dem XML-Header <?xml version="1.0"?> fehlt die Codierung und ist das äöü als Ansi oder UTF-8 in der Datei (ich vermute mal kein UTF-8, da MSXML TStringlist per Standard keinen BOM speichert und ohne UTF8-Kennung hätte der Editor die Zeichen ja wohl nicht decodiert)

und wenn die Zeichen als Ansi in der Dateistehen und XML per Standard (ohne Codierungsangabe) UTF-8 Codiert ist, dann entsprechen die Byte-Codes von äöü keinem UTF-8-Zeichen, also die Fehlermeldung wäre korrekt

[add]
aber warum gehst du über die StringList?
Delphi-Quellcode:
var
  xmlDoc: IXMLDocument;
  N: IXmlNode;
begin
  xmlDoc := TxmlDocument.Create(nil);
  xmlDoc.Active := True;
  xmlDoc.Encoding := 'UTF-8';
  N := xmlDoc.AddChild('a');
  N.Text := 'äöü';
  xmlDoc.XML.('test.xml');
end;
oder gib dem SaveToFile der TStringList die Codierung mit, also sag TStringList expliziet, daß es als UTF-8 Speichern soll
Neuste Erkenntnis:
Seit Pos einen dritten Parameter hat,
wird PoSex im Delphi viel seltener praktiziert.
  Mit Zitat antworten Zitat
mjustin

Registriert seit: 14. Apr 2008
3.006 Beiträge
 
Delphi 2009 Professional
 
#3

Re: TXMLDocument und Umlaute

  Alt 8. Jul 2009, 12:34
Zitat von himitsu:
in dem XML-Header <?xml version="1.0"?> fehlt die Codierung und ist das äöü als Ansi oder UTF-8 in der Datei (ich vermute mal kein UTF-8, da MSXML keinen BOM speichert und ohne UTF8-Kennung hätte der Editor die Zeichen ja wohl nicht decodiert)

und wenn die Zeichen als Ansi in der Dateistehen und XML per Standard (ohne Codierungsangabe) UTF-8 Codiert ist, dann entsprechen die Byte-Codes von äöü keinem UTF-8-Zeichen, also die Fehlermeldung wäre korrekt
Im Editor wird die UTF-8 Codierung verwendet. IXMLNode.Text ist vom Typ string, hier sollte der Compiler daher eigentlich den Text automagisch nach UnicodeString konvertieren. Ich schaue mal was es noch an Möglichkeiten gibt.
Michael Justin
habarisoft.com
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.062 Beiträge
 
Delphi 12 Athens
 
#4

Re: TXMLDocument und Umlaute

  Alt 8. Jul 2009, 12:41
Das ist aber dem XML-Parser egal, ohne Kodierungsinformation (im Prozessortag <?xml ?> ) wird erstmal von UTF-8 ausgegangen, wobei MSXML netter Weise auch noch die BOM beachtet, aber einwas von Beidem muß angegeben sein.

Die XML-Spec besagt halt, wenn nichts angegeben ist, dann ist es UTF-8.

Und selbst wenn IXMLNode.Text vom Typ String ist, die TStringList in D2009 speichert doch per Standard erstmal alles nur als ANSI ab (glaub ich ) , wegen der Kompatibilität zu älteren Textdateien bzw. älteren Programmen.
Neuste Erkenntnis:
Seit Pos einen dritten Parameter hat,
wird PoSex im Delphi viel seltener praktiziert.
  Mit Zitat antworten Zitat
mjustin

Registriert seit: 14. Apr 2008
3.006 Beiträge
 
Delphi 2009 Professional
 
#5

Re: TXMLDocument und Umlaute

  Alt 8. Jul 2009, 12:45
Zitat von himitsu:

oder gib dem SaveToFile der TStringList die Codierung mit, also sag TStringList expliziet, daß es als UTF-8 Speichern soll
Das hilft, danke! Es wundert den Laien natürlich, dass man das Encoding noch mal angeben muss - aber mit Delphi 2009 wird ja aus dem Stringlist-Text ein UnicodeString. Und der weiss natürlich nichts vom Encoding des dahinterstehenden XML Dokuments.

Tests mit kyrillischem Encoding des Dokuments in Kombination mit TEncoding.<irgendwas exotisches> beim SaveToFile kommen dann später

Der minimale Code ist dann:

Delphi-Quellcode:
procedure TfrmMain.Button1Click(Sender: TObject);
var
  xmlDoc: IXMLDocument;
  N: IXmlNode;
begin
  xmlDoc := TxmlDocument.Create(nil);
  xmlDoc.Active := True;
  N := xmlDoc.AddChild('a');
  N.Text := 'äöü';
  // xmlDoc.XML.SaveToFile('test.xml', TEncoding.UTF8);
  // noch kürzer:
  xmlDoc.SaveToFile('test.xml');
end;
Michael Justin
habarisoft.com
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.062 Beiträge
 
Delphi 12 Athens
 
#6

Re: TXMLDocument und Umlaute

  Alt 8. Jul 2009, 13:07
Eigentlich dachte ich xmlDoc.SaveToFile('test.xml'); nimmt die Kodierung, welche unter xmlDoc.Encoding angegeben ist ... hat MSXML zumindestens in meinen Tests so gemacht (siehe himXML die CheckLibs-Demo, da sind auch MSXML, OmniXML und Co. drin)
Neuste Erkenntnis:
Seit Pos einen dritten Parameter hat,
wird PoSex im Delphi viel seltener praktiziert.
  Mit Zitat antworten Zitat
mjustin

Registriert seit: 14. Apr 2008
3.006 Beiträge
 
Delphi 2009 Professional
 
#7

Re: TXMLDocument und Umlaute

  Alt 8. Jul 2009, 13:29
Zitat von himitsu:
Eigentlich dachte ich xmlDoc.SaveToFile('test.xml'); nimmt die Kodierung, welche unter xmlDoc.Encoding angegeben ist ... hat MSXML zumindestens in meinen Tests so gemacht (siehe himXML die CheckLibs-Demo, da sind auch MSXML, OmnyXML und Co. drin)
Stimmt, ich meinte auch xmlDoc.SaveToFile('test.xml') und habe das Coebeispiel korrigiert, sorry!
Michael Justin
habarisoft.com
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 11:02 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz