Delphi-PRAXiS - Delphi unicode_fss utf8 firebird: eigene sortierreihenfolge

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Datenbanken (https://www.delphipraxis.net/15-datenbanken/)

- - Delphi unicode_fss utf8 firebird: eigene sortierreihenfolge (https://www.delphipraxis.net/75017-unicode_fss-utf8-firebird-eigene-sortierreihenfolge.html)

unicode_fss utf8 firebird: eigene sortierreihenfolge

hi,
ich hab vor, ein tool zu schreiben, dass folgendes tut:

-user gibt in ein unicode-fähiges (tntcontrols) memo zeichenketten in gewünschter reihenfolge ein

also, z.B. (hier spanische Sortierreihenfolge):

...
1
...
9
A
a
B
b
C
c
CH
Ch
ch
D
d
...
Z
z
...

-zeichen werden dann genau so wie im memo in text-datei gespeichert, allerdings, nachdem die einzelnen Zeilen vorher von WideString in UTF8String umgewandelt wurden

-diese datei wird dann später von einem anderen tool eingelesen (das muss dann noch geschrieben werden; wen's interessiert:

Custom Collation), welches daraus eine Sortierreihenfolge-Treiber für fb-charset UNICODE_FSS (soweit ich informiert bin ist das UTF8) generiert

bei diesem 2. tool bekomm ich hilfe, nur muss ich vorher schon mal das prog schreiben, dass diese strings aus dem memo utf8-konvertiert in die textdatei schreibt; jetzt wundert mich folgendes, angenommen ich mache folgendes

Delphi-Quellcode:

			var

  s: WideString;

  w: TWriter;

  fs: TFileStream;

...

begin

  ...

  fs := TFileStream.Create('textdatei.txt', fmCreate);

  w := TWriter.Create(fs, 1024);

  s := 'w';

  w.WriteString(UTF8Encode(s));

  ...

end;

wenn ich jetzt textdatei.txt mit dem editor öffne und bei Codierung UTF-8 angebe, dann müsste ich doch einfach mal das 'w' zu sehen bekommen, statt dessen aber seh ich [kästchen][kästchen]w...für mich ein zeichen, dass irgendwas nicht stimmt, oder?

mach ich irgendwas grundsätzlich falsch?

danke,

martin

Re: unicode_fss utf8 firebird: eigene sortierreihenfolge

Schau dir die Datei mal mit einem Hexeditor an, dann siehst du besser, was daraus geworden ist.

Zitat:

Zitat von sancho1980

nur muss ich vorher schon mal das prog schreiben, dass diese strings aus dem memo utf8-konvertiert in die textdatei schreibt;

Wenn das alles ist, warum dann so kompliziert?

Delphi-Quellcode:

TntMemo.Lines.AnsiStrings.SaveToFileEx('DateiName', CP_UTF8);

Es wird dann automatisch UTF8Encode aufgerufen. Die Funktion ist zwar nicht ganz sauber, ein 'w' bekommt sie aber hin.

Re: unicode_fss utf8 firebird: eigene sortierreihenfolge

jo, danke, das klappt schon eher...
angenommen ich hab da im memo jetzt so etwas stehen:

Zitat:

Hallo,
das

ist

ein
Test.

Dann sieht das im Hex-Editor folgendermaßen aus:

Zitat:

EF BB BF 48 61 6C 6C 6F 2C 0D 0A 64 61 73 0D 0A 0D 0A 69 73 74 0D 0A 0D 0A 0D 0A 65 69 6E 0D 0A 54 65 73 74 2E

0D 0A ist dann wohl die Sequenz für den Zeilenumbruch...wenn die Strings dann eingelesen werden aus dem File, gut zu wissen..Aber wie ist ein UTF8-String definiert? Genauso wie ein ganz normaler String (also NULL-terminiert?)

Und weiß vielleicht einer wofür EF BB BF am Anfang des File steht?

Danke,

Martin

Re: unicode_fss utf8 firebird: eigene sortierreihenfolge

EF BB BF zeigt an, welche Byte Order Mark (little oder big Endian = welches Byte kommt zuerst?) benutzt wurde, bei UTF8 nicht unbedingt sinnvoll, aber z.B. Notepad setzt es - in der Folge identifiziert es einfach UTF-8. Die Delphi IDE, zumindest ab 2005(?) verzichtet darauf und kann damit auch nichts anfangen. UTF8 ist eigentlich eindeutig identifizierbar.
0D 0A stimmt, es ist der Zeilenumbruch.

Die Deklaration von UTF8String lautet einfach

Delphi-Quellcode:

UTF8String = type string;

du arbeitest damit also genauso wie mit den üblichen Delphi-Strings. Wenn du sie anzeigen oder auswerten willst, muss konvertiert werden, sonst ist kein Unterschied zu 'normalen' AnsiStrings.