Delphi-PRAXiS - Einzelnen Beitrag anzeigen

**CHackbart**

Ich habe dein Skript mal angepasst, aber ich kenne mich mit RegExp auch nicht aus.

Delphi-Quellcode:

			function CleanInvalidXmlChars(const AText: string): string;

//https://www.ryadel.com/en/php-skip-invalid-characters-utf-8-xml-file-string/

var

  RegexObj: TRegExpr;

begin

  RegexObj := TRegExpr.Create;

  try

    RegexObj.Expression :=

      '[\xC0-\xC1] # Invalid UTF-8 Bytes ' + sLineBreak +

      '| [\xF5-\xFF] # Invalid UTF-8 Bytes ' + sLineBreak +

      '| [\xE0[\x80-\x9F] # Overlong encoding of prior code point' + sLineBreak +

      '| [\xF0[\x80-\x8F] # Overlong encoding of prior code point' + sLineBreak +

      '| [\xC2-\xDF][?![\x80-\xBF]] # Invalid UTF-8 Sequence Start' + sLineBreak +

      '| [\xE0-\xEF][?![\x80-\xBF]{2}] # Invalid UTF-8 Sequence Start' + sLineBreak +

      '| [\xF0-\xF4][?![\x80-\xBF]{3}] # Invalid UTF-8 Sequence Start' + sLineBreak +

      '| [?<=[\x00-\x7F\xF5-\xFF]][\x80-\xBF] # Invalid UTF-8 Sequence Middle' + sLineBreak +

   // '| [?<![\xC2-\xDF]|[\xE0-\xEF]|[\xE0-\xEF][\x80-\xBF]|[\xF0-\xF4]|[\xF0-\xF4][\x80-\xBF]|[\xF0-\xF4][\x80-\xBF]{2}][\x80-\xBF] # Overlong Sequence' + sLineBreak +

      '| [?<=[\xE0-\xEF]][\x80-\xBF][?![\x80-\xBF]] # Short 3 byte sequence' + sLineBreak +

      '| [?<=[\xF0-\xF4]][\x80-\xBF][?![\x80-\xBF]{2}] # Short 4 byte sequence' + sLineBreak +

      '| [?<=[\xF0-\xF4][\x80-\xBF]][\x80-\xBF][?![\x80-\xBF]] # Short 4 byte sequence (2)';

    Result := RegexObj.Replace(AText, '', True);

  finally

    RegExObj.Free;

  end;

end;

Die eine Zeile musste ich entfernen, da sonst das Skript bei meinem Beispiel-XML einfach bei den Elementen das < entfernt hat:

markieren

Code:

			<?xml version="1.0" encoding="UTF-8"?>

<Content xmlns="tag:atsc.org,2016:XMLSchemas/ATSC3/SA/1.0/"

         id="bcast://trivenidigital.com/Content961747"

         version="4">

   <ServiceReference idRef="bcast://trivenidigital.com/Service149"/>

   <Name text="Como dice el dicho"/>

   <Description text="Cada historia da inicio cuando la primera parte del dicho es escrita en una de las paredes del café, sea por Tomás, sea por Isabel, o por algún cliente."/>

   <ContentAdvisoryRatings>

      <RegionIdentifier>1</RegionIdentifier>

      <RatingDescription>TV-14</RatingDescription>

      <RatingDimensions>1</RatingDimensions>

      <RatingDimVal>

         <RatingDimension>0</RatingDimension>

         <RatingValueString>TV-14</RatingValueString>

      </RatingDimVal>

   </ContentAdvisoryRatings>

   <PrivateExt>

      <Components>

         <AudioComponent xml:lang="spa">Unspecified</AudioComponent>

      </Components>

   </PrivateExt>

</Content>

Ob das jetzt richtig funktioniert, weiß ich auch nicht wirklich, aber die RegExpr Klasse meckert zumindest nicht.
Ich gebe Himitsu Recht, Linebreaks müssen da rein, sonst sollte ab dem ersten Kommentar eigentlich alles dahinter liegende deaktiviert sein. Ist es zumindest in der bei Lazarus beiliegenden Regexpr Version aber kurioserweise nicht.

Christian

Einzelnen Beitrag anzeigen

AW: Problem mit regulärem Ausdruck