![]() |
Codierung/Decodierung von Umlauten
Moin zusammen,
ich sitze gerade vor einem womöglich sehr einfachen Problem, finde aber derzeit keinen Weg dies entsprechend auszuräumen. Nach einer Webabfrage erhalte ich als Ergebnis meines POST Nachnamen im repsonse übergeben. Die Abfrage an sich funktioniert einwandfrei, ist jetzt jedoch jemand dabei, der Umlaute in seinem Namen hat, kommt Unicode zum tragen. Anstelle von Müller erhalte ich deshalb M\u00fcller jetzt meine Frage, gibt es einen Befehl, der die Konvertierung generell übernimmt oder muss es tatsächlich (und das will ich nicht hoffen von Hand geschehen (Pos & RegEx)? Zu meinen Voraussetzungen: 1. An der Webseite kann ich nichts ändern, da diese nicht von mir stammt. 2. Ich nutze Delphi XE 5 Für einen guten Ratschlag wäre ich sehr dankbar. |
AW: Codierung/Decodierung von Umlauten
Das sieht sehr nach einer JavaScript Codierung von Unicode aus. Soweit ich weiß, gibt es standardmäßig keine Methode, die das umsetzt. Wäre mal interessant zu wissen, was ankommt, wenn der Name ein "\u" enthält.
|
AW: Codierung/Decodierung von Umlauten
Zitat:
Code:
\\u
|
AW: Codierung/Decodierung von Umlauten
Jupp, knuffige Escape-Sequenzen.
Escape-Zeichen ist \ \\ = \ , könnte aber notfalls auch auch \u005C sein :stupid: \uxxxx = Unicodezeichen, wobei xxxx der hexadezimale Zeichencode ist Weitere Codes siehe ![]() Hab jetzt nur die manuelle Umwandlung in der anderen Richtung gefunden ![]() Eventuell gibt es im Indy aber schon irgendwo etwas Fertiges? Aber sonst wäre eine Umwandlung ja nicht sooooo schwer, wenn man die beiden oben genannten Sequenzen selber behandelt. (zeichen für Zeichen durchgehn, wenn \ nach dem nächsten Zeichen gucken und bei \ die zwei Zeichen durch \ ersetzen und bei u die 6 Zeichen durch das Zeichen mit dem Char-Code "xxxx") PS: Char(StrToInt('$' + xxxx)) und kennt schon jemand die SuFu? ![]() |
AW: Codierung/Decodierung von Umlauten
Dieses Escaping wird auch für JSON verwendet (das J in JSON steht ja für JavaScript), daher kann man einen Umweg über einen JSON Parser nehmen.
Dazu würde man eine JSON Dokument "manuell" als einen JSON Ausdruck zusammensetzen in dem der betroffene Name mit \u.... Escape enthalten ist. Und dann diesen Ausdruck parsen und den Wert als Unicodestring abfragen. Unter ![]() |
AW: Codierung/Decodierung von Umlauten
Seit XE5(?) ist doch Json rundum dabei. So ware es spontan für einen String doch ok, oder?
Delphi-Quellcode:
uses
System.SysUtils, System.Json; // Unter XE5 glaube ich Data.DBXJSON statt System.Json procedure justEncodingThings(); const baseStrEnc: String = 'M\u00FCller'; baseStrDec: String = 'Müller'; var decodedStr: String; jsonValue: TJSONValue; begin jsonValue := TJSONObject.ParseJSONValue( baseStrEnc.QuotedString('"') ); decodedStr := jsonValue.Value; Assert( decodedStr = baseStrDec ); jsonValue.Free(); end; |
AW: Codierung/Decodierung von Umlauten
Oder man klimpert sich das eben fix zusammen
Delphi-Quellcode:
unit JavaString;
interface function JavaString_Decode( const AStr: string ): string; implementation uses System.SysUtils; function OctalStrToInt( AOctal: string ): Integer; var LChar: Char; begin Result := 0; for LChar in AOctal do begin Result := Result * 8 + Ord( LChar ) - Ord( '0' ); end; end; function JavaString_Decode( const AStr: string ): string; var LTempBuffer: string; LChar: Char; LState: Integer; procedure Normal; begin case LChar of '\': LState := 1; else Result := Result + LChar; end; end; procedure Escape; begin case LChar of '\', '/', '"', '''': ; 'b': // Backspace LChar := #$0008; 't': // Horizontal Tab LChar := #$0009; 'n': // New Line LChar := #$000A; 'v': // Vertical Tab LChar := #$000B; 'f': // Form Feed LChar := #$000C; 'r': // Carriage Return LChar := #$000D; '0' .. '3': // Latin1 Octal begin LTempBuffer := LChar; LState := 2; Exit; end; 'x': // Latin1 Hex begin LTempBuffer := ''; LState := 3; Exit; end; 'u': // Unicode Hex begin LTempBuffer := ''; LState := 4; Exit; end; else raise EArgumentException.Create( 'Parse Error' ); end; Result := Result + LChar; LState := 0; end; procedure Latin1Octal; var LByte: Byte; begin case LChar of '0' .. '7': LTempBuffer := LTempBuffer + LChar; else raise EArgumentException.Create( 'Parse Error' ); end; if Length( LTempBuffer ) = 3 then begin LByte := OctalStrToInt( LTempBuffer ); Result := Result + TEncoding.Default.GetString( TArray<Byte>.Create( LByte ) ); LState := 0; end; end; procedure Latin1Hex; var LByte: Byte; begin case LChar of '0' .. '9', 'A' .. 'F', 'a' .. 'f': LTempBuffer := LTempBuffer + LChar; else raise EArgumentException.Create( 'Parse Error' ); end; if Length( LTempBuffer ) = 2 then begin LByte := StrToInt( '$' + LTempBuffer ); Result := Result + TEncoding.Default.GetString( TArray<Byte>.Create( LByte ) ); LState := 0; end; end; procedure UnicodeHex; var LWord: Word; begin case LChar of '0' .. '9', 'A' .. 'F', 'a' .. 'f': LTempBuffer := LTempBuffer + LChar; else raise EArgumentException.Create( 'Parse Error' ); end; if Length( LTempBuffer ) = 4 then begin LWord := StrToInt( '$' + LTempBuffer ); Result := Result + TEncoding.Unicode.GetString( TArray<Byte>.Create( Lo( LWord ), Hi( LWord ) ) ); LState := 0; end; end; begin Result := ''; LState := 0; for LChar in AStr do case LState of 0: Normal; 1: Escape; 2: Latin1Octal; 3: Latin1Hex; 4: UnicodeHex; end; if LState <> 0 then raise EArgumentException.Create( 'Parse Error' ); end; end.
Delphi-Quellcode:
ergibt dann
procedure Main;
begin Writeln( JavaString_Decode( 'Copyright \251 \xA9 \u00A9' ) ); end;
Code:
Copyright © © ©
|
AW: Codierung/Decodierung von Umlauten
Liste der Anhänge anzeigen (Anzahl: 1)
Bist du ein Zauberer? :o
|
AW: Codierung/Decodierung von Umlauten
Zitat:
Ich hatte allerdings das \' unterschlagen :oops: |
AW: Codierung/Decodierung von Umlauten
Jupp, wenn man einmal weiß wie etwas im Grundprinzip funktioniert, dann kann man es
- entweder als State-Machine umsetzen - oder in der Art des StringReplace (so hatte ich es schon im Kopf, aber keine Zeit/Lust es vorhin umzusetzen) - man kann es auch gern als RegEx-Replace versuchen (ich glaub da hatte ich einen Code in Java/JavaScript/PHP gesehn) Und für State-Machines gibt es sogar Generatoren, welche den Code generieren, wenn man ihnen die Konventionen nennt. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:52 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz