AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Datenbanken Delphi unicode_fss utf8 firebird: eigene sortierreihenfolge
Thema durchsuchen
Ansicht
Themen-Optionen

unicode_fss utf8 firebird: eigene sortierreihenfolge

Ein Thema von sancho1980 · begonnen am 12. Aug 2006 · letzter Beitrag vom 13. Aug 2006
Antwort Antwort
sancho1980

Registriert seit: 7. Feb 2006
429 Beiträge
 
#1

unicode_fss utf8 firebird: eigene sortierreihenfolge

  Alt 12. Aug 2006, 22:22
Datenbank: firebird • Version: 1.5 • Zugriff über: fibplus
hi,
ich hab vor, ein tool zu schreiben, dass folgendes tut:

-user gibt in ein unicode-fähiges (tntcontrols) memo zeichenketten in gewünschter reihenfolge ein

also, z.B. (hier spanische Sortierreihenfolge):

...
1
...
9
A
a
B
b
C
c
CH
Ch
ch
D
d
...
Z
z
...

-zeichen werden dann genau so wie im memo in text-datei gespeichert, allerdings, nachdem die einzelnen Zeilen vorher von WideString in UTF8String umgewandelt wurden

-diese datei wird dann später von einem anderen tool eingelesen (das muss dann noch geschrieben werden; wen's interessiert: Custom Collation), welches daraus eine Sortierreihenfolge-Treiber für fb-charset UNICODE_FSS (soweit ich informiert bin ist das UTF8) generiert

bei diesem 2. tool bekomm ich hilfe, nur muss ich vorher schon mal das prog schreiben, dass diese strings aus dem memo utf8-konvertiert in die textdatei schreibt; jetzt wundert mich folgendes, angenommen ich mache folgendes

Delphi-Quellcode:
var
  s: WideString;
  w: TWriter;
  fs: TFileStream;
...
begin
  ...
  fs := TFileStream.Create('textdatei.txt', fmCreate);
  w := TWriter.Create(fs, 1024);
  
  s := 'w';
  w.WriteString(UTF8Encode(s));
  ...
end;
wenn ich jetzt textdatei.txt mit dem editor öffne und bei Codierung UTF-8 angebe, dann müsste ich doch einfach mal das 'w' zu sehen bekommen, statt dessen aber seh ich [kästchen][kästchen]w...für mich ein zeichen, dass irgendwas nicht stimmt, oder?

mach ich irgendwas grundsätzlich falsch?

danke,

martin
Um Rekursion zu verstehen, muss man zunächst Rekursion verstehen.
  Mit Zitat antworten Zitat
Ydobon

Registriert seit: 3. Mär 2006
264 Beiträge
 
Delphi 11 Alexandria
 
#2

Re: unicode_fss utf8 firebird: eigene sortierreihenfolge

  Alt 12. Aug 2006, 23:59
Schau dir die Datei mal mit einem Hexeditor an, dann siehst du besser, was daraus geworden ist.
Zitat von sancho1980:
nur muss ich vorher schon mal das prog schreiben, dass diese strings aus dem memo utf8-konvertiert in die textdatei schreibt;
Wenn das alles ist, warum dann so kompliziert?
TntMemo.Lines.AnsiStrings.SaveToFileEx('DateiName', CP_UTF8); Es wird dann automatisch UTF8Encode aufgerufen. Die Funktion ist zwar nicht ganz sauber, ein 'w' bekommt sie aber hin.
  Mit Zitat antworten Zitat
sancho1980

Registriert seit: 7. Feb 2006
429 Beiträge
 
#3

Re: unicode_fss utf8 firebird: eigene sortierreihenfolge

  Alt 13. Aug 2006, 12:10
jo, danke, das klappt schon eher...
angenommen ich hab da im memo jetzt so etwas stehen:

Zitat:
Hallo,
das

ist


ein
Test.
Dann sieht das im Hex-Editor folgendermaßen aus:

Zitat:
EF BB BF 48 61 6C 6C 6F 2C 0D 0A 64 61 73 0D 0A 0D 0A 69 73 74 0D 0A 0D 0A 0D 0A 65 69 6E 0D 0A 54 65 73 74 2E
0D 0A ist dann wohl die Sequenz für den Zeilenumbruch...wenn die Strings dann eingelesen werden aus dem File, gut zu wissen..Aber wie ist ein UTF8-String definiert? Genauso wie ein ganz normaler String (also NULL-terminiert?)

Und weiß vielleicht einer wofür EF BB BF am Anfang des File steht?

Danke,

Martin
Um Rekursion zu verstehen, muss man zunächst Rekursion verstehen.
  Mit Zitat antworten Zitat
Ydobon

Registriert seit: 3. Mär 2006
264 Beiträge
 
Delphi 11 Alexandria
 
#4

Re: unicode_fss utf8 firebird: eigene sortierreihenfolge

  Alt 13. Aug 2006, 14:04
EF BB BF zeigt an, welche Byte Order Mark (little oder big Endian = welches Byte kommt zuerst?) benutzt wurde, bei UTF8 nicht unbedingt sinnvoll, aber z.B. Notepad setzt es - in der Folge identifiziert es einfach UTF-8. Die Delphi IDE, zumindest ab 2005(?) verzichtet darauf und kann damit auch nichts anfangen. UTF8 ist eigentlich eindeutig identifizierbar.
0D 0A stimmt, es ist der Zeilenumbruch.

Die Deklaration von UTF8String lautet einfach
UTF8String = type string; du arbeitest damit also genauso wie mit den üblichen Delphi-Strings. Wenn du sie anzeigen oder auswerten willst, muss konvertiert werden, sonst ist kein Unterschied zu 'normalen' AnsiStrings.
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 15:19 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz