AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Sprachen und Entwicklungsumgebungen Sonstige Fragen zu Delphi Delphi Regex: Alle nicht übereinstimmenden Zeichen entfernen
Thema durchsuchen
Ansicht
Themen-Optionen

Regex: Alle nicht übereinstimmenden Zeichen entfernen

Ein Thema von Codehunter · begonnen am 18. Mär 2014 · letzter Beitrag vom 18. Mär 2014
Antwort Antwort
Benutzerbild von Codehunter
Codehunter

Registriert seit: 3. Jun 2003
Ort: Thüringen
2.272 Beiträge
 
Delphi 10.4 Sydney
 
#1

Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 12:32
Hallo!

Ich möchte aus einem Fließtext mit Satzbauzeichen etc. nur die reinen Worte, Zahlen und Leerzeichen extrahieren. Sämtliche Zeichen die da nicht reinfallen, sollen entfernt werden. Jetzt hab ich mir ein Regex gebastelt das zwar prinzipiell funktioniert, aber nur den String bis zum Auftauchen des ersten nicht-passenden Zeichens liefert. Also danach macht er nicht mehr weiter.
Delphi-Quellcode:
  Rx:= TPerlRegEx.Create;
  try
    Rx.Subject:= S;
    Rx.RegEx:= '([a-zA-Z0-9äöüÄÖÜß ]+)?';
    Rx.Match;
    S:= Rx.MatchedText;
  finally
    FreeAndNil(Rx);
  end;
Grüße
Cody
Ich mache grundsätzlich keine Screenshots. Schießen auf Bildschirme gibt nämlich hässliche Pixelfehler und schadet der Gesundheit vom Kollegen gegenüber. I und E zu vertauschen hätte den selben negativen Effekt, würde aber eher dem Betriebsklima schaden
  Mit Zitat antworten Zitat
Der schöne Günther

Registriert seit: 6. Mär 2013
6.178 Beiträge
 
Delphi 10 Seattle Enterprise
 
#2

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 13:22
MatchAgain?

Delphi-Quellcode:
procedure TForm25.FormCreate(Sender: TObject);
const
   myStr: String = 'Hallo Welt. Ich denke, das Wetter ist heute 100 mal dööfer als gestern. So meine Meinung.';
var
   regEx: TPerlRegEx;
begin

   regEx := TPerlRegEx.Create();
   try

      regEx.Subject := myStr;
      regEx.RegEx := '([a-zA-Z0-9äöüÄÖÜß ]+)?';
      regEx.Start := 0;

      while regex.MatchAgain() do edit1.text := edit1.text + regex.MatchedText;

      // Ergibt "Edit1Hallo Welt Ich denke das Wetter ist heute 100 mal dööfer als gestern So meine Meinung"

   finally
      regEx.Destroy();
   end;

end;
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.184 Beiträge
 
Delphi 12 Athens
 
#3

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 13:27
Ein RegReplace auf '[^a-zA-Z0-9äöüÄÖÜß ]+' und ersetzen durch '' .

[^...]
^ = NICHT



[edit] Bzw. auf '([^a-zA-Z0-9äöüÄÖÜß ]+)?' , falls die Klammer als Expression-Begrenzung dient und das ? ein Steuerbefehl ist.
Aber als Begrenzung würde ich keine Klammer verwenden, welche auch als Steuerzeichen im Regex vorkommen kann, da ich das sonst immer verwechlse.
(persönloch hab ich mich an die # gewöhnt, also '#[^a-zA-Z0-9äöüÄÖÜß ]+#?' )
$2B or not $2B

Geändert von himitsu (18. Mär 2014 um 13:33 Uhr)
  Mit Zitat antworten Zitat
Benutzerbild von Codehunter
Codehunter

Registriert seit: 3. Jun 2003
Ort: Thüringen
2.272 Beiträge
 
Delphi 10.4 Sydney
 
#4

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 13:56
Funktioniert beides! Insofern schon mal vielen Dank!

Da ergibt sich nur grad die nächste Frage: Kann man aus so einem Resultat (Wörter durch Leerzeichen getrennt) auch alle "Wörter" entfernen, die kürzer sind als n Zeichen?
Ich mache grundsätzlich keine Screenshots. Schießen auf Bildschirme gibt nämlich hässliche Pixelfehler und schadet der Gesundheit vom Kollegen gegenüber. I und E zu vertauschen hätte den selben negativen Effekt, würde aber eher dem Betriebsklima schaden
  Mit Zitat antworten Zitat
Der schöne Günther

Registriert seit: 6. Mär 2013
6.178 Beiträge
 
Delphi 10 Seattle Enterprise
 
#5

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 14:00
http://de.wikipedia.org/wiki/Regul%C...ruck#Quantoren

Ich fände es aber übersichtlicher, das im Nachhinein mit Programmcode zu filtern. Also bsp. die einzelnen Wörter in ein TStrings zu packen und da noch einmal drüberzuwandern.

Wer weiß was Furtbichler da wieder mit LINQ drauß zaubern würde

Geändert von Der schöne Günther (18. Mär 2014 um 14:12 Uhr)
  Mit Zitat antworten Zitat
Benutzerbild von Sir Rufo
Sir Rufo

Registriert seit: 5. Jan 2005
Ort: Stadthagen
9.454 Beiträge
 
Delphi 10 Seattle Enterprise
 
#6

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 14:45
Wer weiß was Furtbichler da wieder mit LINQ drauß zaubern würde
Wofür LINQ, wir haben Delphi-Referenz durchsuchenSystem.SysUtils.TPredicate
Kaum macht man's richtig - schon funktioniert's
Zertifikat: Sir Rufo (Fingerprint: ‎ea 0a 4c 14 0d b6 3a a4 c1 c5 b9 dc 90 9d f0 e9 de 13 da 60)
  Mit Zitat antworten Zitat
Furtbichler
(Gast)

n/a Beiträge
 
#7

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 14:59
Wer weiß was Furtbichler da wieder mit LINQ drauß zaubern würde
Wofür LINQ, wir haben Delphi-Referenz durchsuchenSystem.SysUtils.TPredicate
Hat da wer meinen Namen gerufen? Nö, Linq ist hier nicht passend, RegEx passt schon.
Leider ist dieses TPredicate-Zeugs imho nicht sonderlich lesbar, schon bei kurzen Passagen wird einem schwindelig (Falls das wirklich dieses TPredicate-Zeugs ist. Soll ja neuerdings in Colorado ganz legal sein).
Delphi-Quellcode:
  Result := List.Where(function(const aString: string): Boolean
                     begin
                       Result := Pos('z', aString) > 0;
                     end);
vs.
Code:
Result = list.where (s=>s.Contains('z'));
Delphi=Prosa. Hat auch was.
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.184 Beiträge
 
Delphi 12 Athens
 
#8

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen

  Alt 18. Mär 2014, 16:38
Da ergibt sich nur grad die nächste Frage: Kann man aus so einem Resultat (Wörter durch Leerzeichen getrennt) auch alle "Wörter" entfernen, die kürzer sind als n Zeichen?
Look-Around (Look-Behind und Look-Ahead)
http://www.regular-expressions.info/lookaround.html


'[a-zA-Z]{1,3}' sucht nach "Wörtern" mit 1 bis 3 Buchstaben. (allerdings kann direkt davor oder dahinter dennoch ein Buchstabe liegen)
Und wenn man in diesen RegEx noch davor via Look-Ahead nach einem Leerzeichen oder dem Textanfang sucht und nach dem RegExt via Look-Behind nach einem Leerzeichen oder Textende, dann findet man alles, was maximal 3 Buchstaben lang ist, exklisive der Leerzeichen.
(ohne die Look-Around würde man das inkl. der Leerzeichen finden)

[edit]
Nicht nach Leerzeichen suchen, sondern nach NICHT-Buchstaben, denn Statzzeichen un Co. gibt es ja auch noch.
$2B or not $2B
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 02:46 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz