![]() |
AW: RegEx-Formatierung
Code:
Wenn nach dem BC keine Leerstellen folgen dürfen, sonst am Ende vor dem $ nochmal \s*
(?x) ^ (@#D(?:GREGORIAN|JULIAN|HEBREW|FRENCH\s*R)@ \s*)? (?:(ABT|EST|CAL|INT) \s*)? (?:(\d+) \s*)?
(?:(JUN|AUG|VEND|TIS) \s*)? (\d+/\d+|\d*) \s* (B\.C\.|BC)? $ Die Erklärung zum Aufbau des Datums verstehe ich schon, nicht klar ist mir, was man mit so inhomogenen Datumsangaben in der Folge anfangen kann - aber das musst du wissen :) |
AW: RegEx-Formatierung
Zitat:
![]() |
AW: RegEx-Formatierung
ok.
Was noch fehlt, ist die Behandlung des Klartexts in Klammern am Schluss:
Code:
liefert dir den Text zwischen den Klammern, ohne die Klammern selbst - vorausgesetzt, der Text in den Klammern enthält selbst keine schliessende Klammer. Wenn das auch erlaubt sein soll, wäre es einfach (.*) statt ([^)]*)
(?:\( ([^)]*) \) \s* )
|
AW: RegEx-Formatierung
Schau mal bitte hier mein Beispielcode
![]() Zumal die dualen Jahresangaben nur gesamt und nicht gesondert gematcht werden. Ich benötige aber jeweils einen Match für 1917 und 18. |
AW: RegEx-Formatierung
Klar.
Das ? nach dem letzten Klammerausdruck fehlt, deswegen matcht er nur die drei Ausdrücke, die (Muttis Geburtstag) enthalten. Deshalb: (?:\( ([^)]*) \) \s* )? Ich denke, es ist einfacher, die verbleibenden Probleme im Programmcode als via Regex zu lösen: Die Unterscheidung, welche Ziffern Jahreszahlen und welche Tage sind, ist im Regex schwierig - da müsste man Riesen Teilausdrücke duplizieren, um die verschiedenen Varianten richtig zu unterscheiden. Die Jahreszahlen könntest du natürlich getrennt einfangen, dann bekommst du aber DREI verschiedene Ergebnisfelder für "einzige Jahreszahl", "Jahreszahl 1 von 2" und "Jahreszahl 2 von 2" - und ein Teil der Jahreszahl landet u.U. beim Tag, wenn kein Tag angegeben ist. Regex ist gut, aber derart komplexe Fallunterscheidungen sind auf der Programmebene besser aufgehoben. |
AW: RegEx-Formatierung
Ist das eine Denksportaufgabe oder warum machst Du das mit RegEx?
Ich würde das nämlich als kleine Heuristik programmieren, also à la 'If Pos('HEBREW, text) <> 0 then'. Dann kannst Du unit tests schreiben und Probleme in Ruhe dursteppen. Versteh mich nicht falsch: regEx kann das, nur wird das eben irgendwann einmal so kompliziert, dass das micht mehr wartbar ist. Lass doch mal etwas dazukommen. Dann sitzt Du doch tagelang an der Anpassung... |
AW: RegEx-Formatierung
Zitat:
Code:
via Programm-Code zu scannen. Als regex ist das ein übersichtlicher, problemslos lesbarer Einzeiler (wobei ich mir ja eher den inneren und nicht den äusseren Klammerausdruck für die Weiterverarbeitung merken würde, wie er es macht). Ein Argument für die Verwendung von pos wäre da nur, dass du pro Programmzeile bezahlt wirst.
(@#D(?:GREGORIAN|JULIAN|HEBREW|FRENCH\s*R)@)?\s*)
Allerdings würde ich derart komplexe Regexe eher aufspalten und dann per Programmlogik verknüpfen, vor allem dort, wo Abhängigkeiten zwichen den verschiedenen Varianten bestehen. Wenn du über einen einzigen Regex Tag, Monat und Jahr extrahieren willst, aber alle drei Angaben optional sind, wird es eben recht haarig. Das NUR mit Regex zu machen halte ich nicht für das Gelbe vom Ei, auch wenn es mit grossem Aufwand sicher möglich ist. |
AW: RegEx-Formatierung
Zitat:
Zitat:
Nun bisher wird ja auch nur eine Datumsangabe gepasst. Bedacht wurde noch nicht, dass es in Gedcom-Datumsangaben auch Doppeldatierung gibt:
Code:
BET 17 AUG 1917 AND CAL 21 AUG 1918
|
AW: RegEx-Formatierung
Ein Fallstrick sind die "optionalen" Werte und die Abhängigkeiten.
Wenn ich es richtig verstehe, sind je nach Datumstyp unterschiedliche Monatsnamen möglich. Dann ist noch die Frage, ob du überprüfen musst, dass das zusammenpasst, oder ob du dich darauf verlassen kannst. Im zweiten Fall ist es einfacher, denn da kannst du per Regex auch Kombinationen erlauben, die keinen Sinn machen, und die man deswegen als ungültig verwerfen müsste. Ein weiteres Problem sind die
Code:
, denn irgend eine Trennung zwischen den Zahlen brauchst du: Also zumindest entweder Monatsnamen (Buchstaben) oder Leerstellen, oder beides, um Zifferngruppen zu trennen. Das muss auch in die Regex Logik hinein, sonst landet, wie in ein paar der Beispiele, ein Teil der Jahreszahl in dem Feld, in dem du den Tag erwartest. Im nachhinein per Programm, wie ich in einem Post weiter oben geschrieben habe, ist es wahrscheinlich gar nicht mehr möglich, das sauber auseinanderzudividieren.
\s*
Vielleicht ist es zielführend, erst einfache regexausdrücke zu definieren und den kompletten regex aus diesen einfacheren ausdrücken zusammenzusetzen: const einfachesdatum = '.....'; // was auch immer datumsbereich = '(?:BET\s+' + einfachesdatum + '\s+AND\s+' + einfachesdatum + ')'; datum = '(?:' + datumsbereich + '|' + einfachesdatum + ')'; etc. Eine andere Idee, um das Parsen zu vereinfachen, wäre, erst einmal den String durchzugehen und prinzipiell überall, wo Buchstaben und Zahlen unmittelbar aufeinanderfolgen, eine Leerstelle einzufügen. Dann kannst du im Regex Trennzeichen zwischen den Gruppen zwingend voraussetzen, mit \s+ statt \s* wird das Erkennen der Pattern stabiler und wahrscheinlich auch schneller. |
AW: RegEx-Formatierung
Zitat:
Zitat:
Zitat:
Zitat:
Nicht falsch verstehen: RegEx an sich ist schon das richtige Mittel. Nur wenn es für den Programmierer zu komplex wird, wäre eine alternative Vorgehensweise durchaus in Erwägung zu ziehen. Wenn Du das so hinbekommst, und auch bei Änderungen und Erweiterungen des Ausdrucks keine Probleme bekommst, super. Ich würde hier vermutlich doch etwas grübeln. Zeit ist Geld und daher nehme ich die Lösung, die langfristig am besten ist. Wobei ich mich neulich auch ertappt habe, ein RegEx zu finden, der bei einem SQL-Skript alle nicht deklarierten Variablen findet. Das war auch nicht ohne.... :mrgreen: |
Alle Zeitangaben in WEZ +1. Es ist jetzt 02:20 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz