![]() |
Re: Deppenfrage: Wie sieht UTF-8 aus?
Oh, bei der Gelegenheit noch etwas zu meinen XML-Erfahrungen mit .NET: Ich musste noch nie irgendwo ein BOM wegschnippeln. Das BOM sagt dem Parser eigentlich, dass die Datei UTF-8-kodiert ist. Das encoding im XML-Header sagt glaube ich, dass das XML auch UTF-8-kodiert ist, und das sind zwei Dinge, die nicht direkt etwas miteinander zu tun haben (nein, frag bitte nicht, warum). Im Normalfall sollte es keine Probleme geben, die Dateien als UTF-8 zu lesen und zu schreiben.
Zitat:
|
Re: Deppenfrage: Wie sieht UTF-8 aus?
Zitat:
Nur, wenn ich den BOM nicht wegschnipple, dann .... Zitat:
|
Re: Deppenfrage: Wie sieht UTF-8 aus?
Hmm, konnte man beim XmlReader nicht ein Encoding angeben? Auch automatische Bestimmung oder so?
|
Re: Deppenfrage: Wie sieht UTF-8 aus?
Liste der Anhänge anzeigen (Anzahl: 4)
Zitat:
Ein Parser arbeitet ja grundsätzlich erst mal mit Stream. Und die ersten Bytes die er vorgesetzt bekommen muß sind <?xml version="1.0". Wenn Du nun einen BOM in deiner Datei hast so muß entweder dein Parser dies berücksichtigen das hier noch 3 Bytes kommen wenn die Datei mit diversen MS-Tools (Notepad) bearbeitet wurde und sie ignorieren denn nach XML beginnt ja erst mit der coding-Angabe wie die Datei interpretiert werden muss. Und wenn der BOM vorhanden ist müßten die Datei erstmal komplett "ent-utf8" werden um dann den Ergebnisstream dem Parser zu übergeben. Ich hab mal ein paar Dateien angehängt. Einfach mal z.B. mit IE6/7, Firefox, MS Notepad 2007, ... ausprobieren. Da kann man nur sagen: Danke, Microsoft. |
Re: Deppenfrage: Wie sieht UTF-8 aus?
BOM bei UTF-8 ist keine Pflicht. Also nichts mit unbedingt 3 Bytes mehr...
|
Re: Deppenfrage: Wie sieht UTF-8 aus?
Liste der Anhänge anzeigen (Anzahl: 3)
Noch ein Anhang: Unicode-Codierte speicherung einer UTF8-XML-Datei
[Edit]Noch ein paar Beispiele angehängt[/Edit] |
Re: Deppenfrage: Wie sieht UTF-8 aus?
Das ist Unicode bzw. UTF-16 und kein UTF-8 (es steht zwar so im XML Header, aber hier sind es 2 Bytes pro Char-Entry)
|
Alle Zeitangaben in WEZ +1. Es ist jetzt 07:26 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz