Einzelnen Beitrag anzeigen

Redeemer

Registriert seit: 19. Jan 2009
Ort: Kirchlinteln (LK Verden)
1.049 Beiträge
 
Delphi 2009 Professional
 
#10

AW: Re: utf8decode(ÄÄÖÜ) wieso macht er das nicht ?

  Alt 13. Mär 2015, 17:09
Delphi-Quellcode:
function FromUTF8 (const S: String): WideString;
...
Diese Funktion hat mir die letzten Jahre gute Dienste als Ersatz für die fehlerhafte UTF8Decode-Funktion in Delphi 2009 geleistet, weil sie zur Interaktion mit einem Produkt genutzt wurde, welches nur die Basic Multilingual Plane (BMP) unterstützt. Irgendwie haben es jedoch Leute geschafft, andere Zeichen in die Datenbank zu bekommen und als UTF-8 zu speichern. Die obige Funktion unterstützt jedoch UTF-8 nicht und hat deshalb zu Datenverlust geführt. Sie konvertiert lediglich CESU-8 nach UTF-16. Lässt sich das Ergebnis in UCS-2 darstellen, wird als Nebeneffekt auch UTF-8 nach UCS-2 konvertiert, da sich CESU-8 und UTF-8 da ebensowenig unterscheiden wie UCS-2 und UTF-16. Will man UTF-8 außerhalb der BMP nach UTF-16 konvertieren (was bei Delphi normalerweise der Fall ist, da ein WideString UTF-16-Zeichen enthält), produziert die Funktion nur noch Blödsinn.

Da die entsprechend angepasste Funktion auch für andere Nutzer interessant sein könnte, spiel ich mal wieder den Totengräber. Die Funktion konvertiert UTF-8 und CESU-8 nach UTF-16.
Delphi-Quellcode:
function FromUTF8 (const S: String): WideString;
var a,b,c,d: char;
     i,j: Integer;
     k: Cardinal;
begin
  i:=1; j:=1;
  SetLength(result,length(S));
  while i<=length(S) do
  begin
    a:=S[i]; Inc(i);
    if byte(a)<$80 then
    begin
        result[j]:=widechar(a);
        Inc(j);
        continue;
    end;
    if i>length(S) then break;
    b:=S[i]; Inc(i);
    if (byte(a)<$E0) or (i>length(S)) then
    begin
        result[j]:=widechar(((byte(a) and $1F) shl 6) or (byte(b) and $3F));
        Inc(j);
        continue;
    end;
    c:=S[i]; Inc(i);
    if (byte(a)<$F0) or (i>length(S)) then
    begin
      result[j]:=widechar(((byte(a) and $F) shl 12) or ((byte(b) and $3F) shl 6) or (byte(c) and $3F));
      Inc(j);
      continue;
    end;
    d:=S[i]; Inc(i);
    k := ((byte(a) and $7) shl 18) or ((byte(b) and $3F) shl 12) or (byte(c) and $3F shl 6) or (byte(d) and $3F);
    result[j]:=widechar((k - $10000) shr 10 and $3FF or $D800);
    Inc(j);
    result[j]:=widechar(k and $3FF or $DC00);
    Inc(j);
  end;
  SetLength(result,j-1);
end;
Laut deutscher Wikipedia muss die kürzeste mögliche Kodierung gewählt werden. Daher kann man annehmen, dass ein durch 4 Zeichen kodierter Codepunkt nicht in der BMP liegt, sodass man ihn über UTF-16-Surrogates kodieren muss.
Janni
2005 PE, 2009 PA, XE2 PA
  Mit Zitat antworten Zitat