Hallo Daniel,
wenn die Suche in der
IDE verwendet werden soll taugt meine Funktion vielleicht doch nicht ganz so gut
Ich habe sie mal geschrieben, um komplette Kundenadressen zu vergleichen und doppelte Einträge zu finden. Das Problem: Es gab für ein und den selben Kunden mehrere verschiedene Schreibweisen unter unterschiedlichen Kundennummern. (In meinem Projekt wurden dann auch noch die Teile VOR und HINTER einem evtl. "c/o" gegenseitig verglichen.)
In der
IDE weiß man ja meistens schon, was man genau sucht
Auf jeden Fall sind in der aktuellen Version der Funktion hohe Ähnlichkeiten nur zu erwarten, wenn beide Texte in etwa die gleichen Daten beinhalten UND NICHT in beiden Texten weitere verschiedene Zusätze enthalten sind:
André Stahl -> AndreasStahl -> ähnlich
André Stahl -> StahlAndreGbR -> ähnlich
André Stahl, Halle -> AndreasStahl fährt Opel Corsa -> nicht ähnlich
Im dritten Beispiel wird zwar zuerst eine gute Übereinstimmung gefunden, dann aber abgewertet, da ein großer Rest ohne Übereinstimmung übrig bleibt.
Ggf. könnte mann diese "Abwertung" reduzieren oder abstellen. Dann hätte man eine unscharfe Suche nach Teilwörten in einem längeren Text ... ?!
Anbei mal eine kleine Exe zum Testen der aktuellen Funktion.
Mit der TrackBar lässt sich der Schwellenwert für "ähnlich/nicht ähnlich" einstellen.
Stahli