![]() |
Datenbank: firebird • Version: 1.5 • Zugriff über: fibplus
unicode_fss utf8 firebird: eigene sortierreihenfolge
hi,
ich hab vor, ein tool zu schreiben, dass folgendes tut: -user gibt in ein unicode-fähiges (tntcontrols) memo zeichenketten in gewünschter reihenfolge ein also, z.B. (hier spanische Sortierreihenfolge): ... 1 ... 9 A a B b C c CH Ch ch D d ... Z z ... -zeichen werden dann genau so wie im memo in text-datei gespeichert, allerdings, nachdem die einzelnen Zeilen vorher von WideString in UTF8String umgewandelt wurden -diese datei wird dann später von einem anderen tool eingelesen (das muss dann noch geschrieben werden; wen's interessiert: ![]() bei diesem 2. tool bekomm ich hilfe, nur muss ich vorher schon mal das prog schreiben, dass diese strings aus dem memo utf8-konvertiert in die textdatei schreibt; jetzt wundert mich folgendes, angenommen ich mache folgendes
Delphi-Quellcode:
wenn ich jetzt textdatei.txt mit dem editor öffne und bei Codierung UTF-8 angebe, dann müsste ich doch einfach mal das 'w' zu sehen bekommen, statt dessen aber seh ich [kästchen][kästchen]w...für mich ein zeichen, dass irgendwas nicht stimmt, oder?
var
s: WideString; w: TWriter; fs: TFileStream; ... begin ... fs := TFileStream.Create('textdatei.txt', fmCreate); w := TWriter.Create(fs, 1024); s := 'w'; w.WriteString(UTF8Encode(s)); ... end; mach ich irgendwas grundsätzlich falsch? danke, martin |
Re: unicode_fss utf8 firebird: eigene sortierreihenfolge
Schau dir die Datei mal mit einem Hexeditor an, dann siehst du besser, was daraus geworden ist.
Zitat:
Delphi-Quellcode:
Es wird dann automatisch UTF8Encode aufgerufen. Die Funktion ist zwar nicht ganz sauber, ein 'w' bekommt sie aber hin.
TntMemo.Lines.AnsiStrings.SaveToFileEx('DateiName', CP_UTF8);
|
Re: unicode_fss utf8 firebird: eigene sortierreihenfolge
jo, danke, das klappt schon eher...
angenommen ich hab da im memo jetzt so etwas stehen: Zitat:
Zitat:
Und weiß vielleicht einer wofür EF BB BF am Anfang des File steht? Danke, Martin |
Re: unicode_fss utf8 firebird: eigene sortierreihenfolge
EF BB BF zeigt an, welche Byte Order Mark (little oder big Endian = welches Byte kommt zuerst?) benutzt wurde, bei UTF8 nicht unbedingt sinnvoll, aber z.B. Notepad setzt es - in der Folge identifiziert es einfach UTF-8. Die Delphi IDE, zumindest ab 2005(?) verzichtet darauf und kann damit auch nichts anfangen. UTF8 ist eigentlich eindeutig identifizierbar.
0D 0A stimmt, es ist der Zeilenumbruch. Die Deklaration von UTF8String lautet einfach
Delphi-Quellcode:
du arbeitest damit also genauso wie mit den üblichen Delphi-Strings. Wenn du sie anzeigen oder auswerten willst, muss konvertiert werden, sonst ist kein Unterschied zu 'normalen' AnsiStrings.
UTF8String = type string;
|
Alle Zeitangaben in WEZ +1. Es ist jetzt 05:41 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz