![]() |
Muster in String
Hallo,
ich möchte ein Muster in zwei Strings herausfinden. Ich habe zwei Strings: Beispiel: A) a123bcdef B) ghij123kl Möglich wäre auch A) a1b2cd3ef B) ghi1j2kl3 usw. Ich weiß nicht, welches Muster es ist oder wie lange, ich weiß nur das in beiden Strings eine Zeichenfolge/Muster (im Beispiel 123) gleich sind. Und möchte herausfinden, welcher es ist. Gibt es hierfür eine Funktion? Und falls nicht, welcher Weg ist hierfür am geschicktesten für die Lösung? Was ich sicher weiß, das die Strings immer 100 Zeichen lang sind. Ich habe erst gedacht, das ich String A mittels Bruteforce aufteile und dann die einzelnen Elemente mit String B vergleiche. Aber hab festgestellt dass das er ein laaangwieriger Weg ist,... gibt es einen einfacheren Weg? LG Monday |
AW: Muster in String
In 100 Zeichen langen Strings gibt es potenziell Unmengen an gemeinsamen Teilzeichenketten. Man denke nur an die einzelnen Zeichen.
Suchst du nur die längste gemeinsame Teilzeichenkette? EDIT: Ok, ich hatte das Problem falsch verstanden :? Als erstes könntest du alle Zeichen entfernen, die nicht in beiden Zeichenketten vorkommen. |
AW: Muster in String
Das Zauberwort heißt hier Permutation.
Dazu brauchst einen Algorithmus, der die alle möglichen Muster aus einem String generiert. Die Muster kann man ja als Zeichen und ein Array darstellen.
Delphi-Quellcode:
Das Muster
TFollower = record
Character: Char; Offset: Integer; end; TPattern = record First: Char; Followers: array of TFollower; end;
Delphi-Quellcode:
aus
'123'
Delphi-Quellcode:
würde dann z.B. so aussehen:
'a123bcdef'
Code:
Das Muster
{
"First": "1", "Follower": [ { "Character": "2", "Offset": 1 }, { "Character": "3", "Offset": 2 } ] }
Delphi-Quellcode:
aus
'123'
Delphi-Quellcode:
würde dann z.B. so aussehen:
'a1b2cd3ef'
Code:
Die Suche in den anderen Strings ist dann relativ einfach. Man sucht nach der Position von
{
"First": "1", "Follower": [ { "Character": "2", "Offset": 2 }, { "Character": "3", "Offset": 5 } ] }
Delphi-Quellcode:
. Wenn es da eine gibt, dann schaut man, ob es am Offset des ersten
First
Delphi-Quellcode:
diesen
Followers
Delphi-Quellcode:
gibt, usw.
Character
Findet man alle
Delphi-Quellcode:
, dann hat man einen Match.
Follower
Auch wenn es nur 100 Zeichen in einem String sind, die Anzahl der Permutationen in der Breite von 1 bis 100 wird da schon gewaltig werden. Die sollte man versuchen sinnvoll einzuschränken. z.B. Die gesuchten Muster sind zwischen 3 und 5 Zeichen lang. Das würde die Verarbeitungsgeschwindigkeit dramatisch verkürzen (man findet aber auch nur diese Muster). |
AW: Muster in String
Ich glaube, das sind keine Permutationen, sondern Kombinationen (oder Variationen, irgendwie so)
Auf jeden Fall gibt es in einer Zeichenkette der Länge n so ziemlich n!/(n-k)! Muster der Länge k. Das ist ne Menge, aber machbar. Oder irre ich? |
AW: Muster in String
Zitat:
|
AW: Muster in String
Würde da nicht auch ein pos bzw. posex reichen?
|
AW: Muster in String
Zitat:
Zitat:
Nun wäre die Frage, ob es eine gute Strategie gibt, um kreuzende Linien zu entfernen oder ob man da "dummes" Brute-Force machen muss. EDIT/PS: Die Idee ist hier: Die kreuzenden Linien zeigen wo Zeichen in beiden Wörtern in unterschiedlicher Reihenfolge vorkommen. |
AW: Muster in String
Der Ansatz von Sir Rufo führt auf jedem Fall zum Ziel. Meine Rechnung (wenn sie denn stimmt) zeigt, das Brute Force bei nicht zu langen Zeichenketten durchaus funktionieren könnte. Natürlich kann man die Kandidaten eingrenzen. Hier ein Ansatz in C#
Code:
Verwendung
internal class VariationMatcher
{ private readonly string _text1; private readonly string _text2; private readonly List<string> _patterns=new List<string>(); public IEnumerable<string> Patterns { get { return _patterns; } } public VariationMatcher(string text1, string text2) { this._text1 = text1; this._text2 = text2; } public void Find(int minSubLength, int maxSubLength) { for (int subLength = minSubLength; subLength <= maxSubLength; subLength++) ScanPattern(_text1, "", 0, subLength); } private void ScanPattern(string text, string pattern, int i, int remaining) { if (remaining == 0) { FindPattern(_text2, pattern,"",0); } else for (int j = i; j <= text.Length - remaining; j++) ScanPattern(text, pattern + text[j], j + 1, remaining - 1); } private void FindPattern(string text, string patternToMatch, string pattern, int i) { if (pattern.Length == patternToMatch.Length) _patterns.Add(pattern); else { char charToMatch = patternToMatch[pattern.Length]; for (int j = i; j <= text.Length - patternToMatch.Length + pattern.Length; j++) if (text[j] == charToMatch) FindPattern(text, patternToMatch, pattern + charToMatch, j + 1); } } }
Code:
Edit: Sorry, kein Delphi zur Hand. sollte 1:1 in Delphi übersetzbar sein.
var matcher = new VariationMatcher ("a1b2cd3ef","ghi1j2kl3");
matcher.Find (3,3); // Nur pattern der Länge 3 Console.Writeln(string.Join ("\r\n",matcher.Patterns); |
AW: Muster in String
Zitat:
|
AW: Muster in String
Mit meinem Mustererkennungblick sehe ich *123*
|
Alle Zeitangaben in WEZ +1. Es ist jetzt 03:57 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz