Einzelnen Beitrag anzeigen

Benutzerbild von jaenicke
jaenicke

Registriert seit: 10. Jun 2003
Ort: Berlin
9.648 Beiträge
 
Delphi 11 Alexandria
 
#2

Re: Zeichenproblem trotz UTF8ToANSI???

  Alt 6. Mai 2009, 22:38
Das hat ja nichts mit der Zeichenkodierung in UTF8 oder Ansi zu tun, sondern das ist die HTML-Kodierung der Zeichen. Die kannst du z.B. so umwandeln:
Delphi-Quellcode:
const
   htAnz = 102;

   htTEXT: array[0..htAnz] of char = (
      '&','<','>', ' ', '©', '®', '', '«', '»', '¡', '¿', 'À', 'à', 'Á', 'á',
      'Â', 'â', 'Ã', 'ã', 'Ä', 'ä', 'Å', 'å', 'Æ', 'æ', 'Ç', 'ç', 'Ð', 'ð', 'È',
      'è', 'É', 'é', 'Ê', 'ê', 'Ë', 'ë', 'Ì', 'ì', 'Í', 'í', 'Î', 'î', 'Ï', 'ï',
      'Ñ', 'ñ', 'Ò', 'ò', 'Ó', 'ó', 'Ô', 'ô', 'Õ', 'õ', 'Ö', 'ö', 'Ø', 'ø', 'Ù',
      'ù', 'Ú', 'ú', 'Û', 'û', 'Ü', 'ü', 'Ý', 'ý', 'ÿ', 'Þ', 'þ', 'ß', '§', '',
      'µ', '|', '±', '*', '¨', '¸', 'ª', '°', '¬', '', '¯', 'º', '¹',
      '²', '³', '¼', '½', '¾', '×', '÷', '¢', '£', '¤', '¥', '', '', '"', '');

   htHTML: array[0..htAnz] of HTMLstr = (
      '&amp;','>','<','', '&copy;', '&reg;', '', '&laquo;',
      '&raquo;', '&iexcl;', '&iquest;', '&Agrave;', '&agrave;', '&Aacute;',
      '&aacute;', '&Acirc;', '&acirc;', '&Atilde;', '&atilde;', '&Auml;',
      '&auml;', '&Aring;', '&aring;', '&AElig;', '&aelig;', '&Ccedil;',
      '&ccedil;', '&ETH;', '&eth;', '&Egrave;', '&egrave;', '&Eacute;',
      '&eacute;', '&Ecirc;', '&ecirc;', '&Euml;', '&euml;', '&Igrave;',
      '&igrave;', '&Iacute;', '&iacute;', '&Icirc;', '&icirc;', '&Iuml;',
      '&iuml;', '&Ntilde;', '&ntilde;', '&Ograve;', '&ograve;', '&Oacute;',
      '&oacute;', '&Ocirc;', '&ocirc;', '&Otilde;', '&otilde;', '&Ouml;',
      '&ouml;', '&Oslash;', '&oslash;', '&Ugrave;', '&ugrave;', '&Uacute;',
      '&uacute;', '&Ucirc;', '&ucirc;', '&Uuml;', '&uuml;', '&Yacute;',
      '&yacute;', '&yuml;', '&THORN;', '&thorn;', '&szlig;', '&sect;', '&para;',
      '&micro;', '&brvbar;', '&plusmn;', '&middot;', '&uml;', '&cedil;', '&ordf;',
      '&ordm;', '&not;', '&shy;', '&macr;', '&def;', '&sup1;', '&sup2;', '&sup3;',
      '&frac14;', '&frac12;', '&frac34;', '&times;', '&divide;', '&cent;',
      '&pound;', '&curren;', '&yen;', '&euro;', '&ldquo;', '&quot;', '&rdquo;');

function ReplaceHTML(uHTML: String): String;
var
  i: Integer;
begin
   for i:=0 to htAnz-1 do
      uHTML := AnsiReplaceStr(uHTML, htHTML[i], htTEXT[i]);
   for i:=0 to 255 do
      uHTML := AnsiReplaceStr(uHTML, '&#'+IntToStr(i)+';', '');
   //In der zweiten Schleife sollten die Zeichen vielleicht nicht einfach
   //gelöscht sondern richtig ersetzt werden, sofern sinnvoll.
   Result := uHTML;
end;
Das ist kein besonders performanter Ansatz, aber für mich hatte es gereicht, der Quelltext ist etwas älter.

Ich vermute eigentlich die Indys oder Parsertools im Internet haben auch entsprechende Funktionalitäten, aber wissen tue ich darüber nichts weiter.
Sebastian Jänicke
AppCentral
  Mit Zitat antworten Zitat