![]() |
String in TStringList finden verschnellern?
In meinem Programm werden zwei StringListen mit mal mehr, mal weniger Einträgen erzeugt. Das kann bis in die Tausende und Zehntausende, auch Hunderttausende gehen.
Ich prüfe an einer bestimmten Stelle, ob ein Eintrag X aus Liste 1 in Liste 2 vorhanden ist. Das mache ich so
Delphi-Quellcode:
So speichere ich zuvor in die Liste wenn diese erstellt wird
// Beispiel:
// sTmp ist 'C:\1\2\3\4.txt'; // List enthält ("Liste 2) // - C:\1.txt // - C:\1\2.txt // - C:\1\2\3.txt // - C:\1\2\3\4.txt function IndexOfListObjects(const sTmp: string; List: TStringList): Integer; begin for Result := 0 to List.Count - 1 do if sTmp = PFileListEntry(List.Objects[Result])^.sFileName then Exit; Result := -1; end;
Delphi-Quellcode:
PFileListEntry ist ein Rekord mit ein paar Informationen wie Dateiname und Attributen usw.
// Record erzeugen mit New()
// ... List.AddObject(aFileListEntry.sFileName, Pointer(aFileListEntry)); Diese Prüfung "IndexOfListObjects" wird bei jeder Iteration von "Liste 1" durchgeführt. Das dauert relativ lange. Kann man das nicht irgendwie verschnellern? |
AW: String in TStringList finden verschnellern?
Ist die Liste sortiert?
Wenn ja, versuch' es mal mit 'ner binären Suche. Kannst Du die Liste sortieren? Wenn ja, wie lange dauert das? Wäre ggfls. ein Sortieren der Liste und dann anschließend eine binäre Suche insgesamt schneller als Dein bisheriges Vorgehen? Was steht in der Stringliste selbst drin? Du suchst ja in den Objekten. Könnte eine Suche mit List.IndexOf(sTmp) ggfls. schneller sein, sofern Du dort bereits einen sinnvoll zu suchenden Inhalt haben solltest? Wenn als Beispiel in
Delphi-Quellcode:
PFileListEntry(List.Objects[0])^.sFileName
Delphi-Quellcode:
stehen würde, was stände dann in
C:\1\2\3\4.txt
Delphi-Quellcode:
?
List[0]
|
AW: String in TStringList finden verschnellern?
Hallo
da Du ja den Filenamen schon in der Liste stehen hast
Delphi-Quellcode:
Könntest Du doch einfach mit
List.AddObject(aFileListEntry.sFileName, Pointer(aFileListEntry));
Delphi-Quellcode:
Wenn Die Liste dann auch noch sortiert ist geht das relativ schnell
result := List.indexof(sTemp) danach suchen
ansonsten benutze doch ein Dictionary |
AW: String in TStringList finden verschnellern?
Zur Beantwortung deiner Fragen:
- die Liste war nicht sortiert. Ich habe nun nach dem Create der Liste ein Sorted := True; angehangen. - das Benutzen von IndexOf(sTmp) war deutlich langsamer als das Suchen in den Objekten. Zitat:
|
AW: String in TStringList finden verschnellern?
Zitat:
Zitat:
Statt
Delphi-Quellcode:
könntest Du auch
Indexof
Delphi-Quellcode:
nutzen, oder aber wie Stefan schon vorgeschlagen hat, bau Dir eine Binäre Suche, die könntest Du dann für Deine speziellen Zwecke anpassen.
Find
Gruß K-H |
AW: String in TStringList finden verschnellern?
Ok, mit Sorted := True ist der Inhalt also aufsteigend sortiert und damit kannst Du dann binär suchen.
Grober Überblick: ![]() Hier im Forum mal suchen: ![]() @p80286 IndexOf ist nicht wirklich schnell, da es in unsortierten Listen letztlich auch in 'ner While-Schleife alle Einträge abfragt, bis was gefunden wurde. Entspricht daher vom Zeitaufwand vermutlich in etwa der For-Schleife. In 'ner sortierten Liste wird allerdings mit Find gesucht. @a.def Durch das Sorted := True könnte sich damit die Laufzeit für IndexOf verändert haben. |
AW: String in TStringList finden verschnellern?
IndexOf und Find sollte doch gleich schnell sein?
Und ja, sortieren hilft (Sorted=True), denn dann wird eine andere Suchmethode verwendet. > ![]() Alternativ eine HashList. TDictionary? |
AW: String in TStringList finden verschnellern?
Mich würde mal interessieren, warum eine sortierte Liste schneller durchsucht werden kann als eine unsortierte?
Ob da jetzt 1 Millionen sortierte oder unsortierte Einträge sind... es sind 1 Millionen. :?: |
AW: String in TStringList finden verschnellern?
Weil man in einer sortierten Liste eben nicht mehr alle Einträge sequentiell durchsuchen muss. Schau Dir doch einfach einmal an, wie eine binäre Suche funktioniert ("Pieksen" in die Mitte, vergleichen und eine Hälfte ignorieren, das so lange, bis der gesuchte Eintrag gefunden wurde oder es keine "Mitte" mehr gibt -> kein Treffer).
|
AW: String in TStringList finden verschnellern?
Man fängt in der Mitte an und schaut, ob der Suchwert größer oder kleiner ist.
Je geht man zur Mitte der kleineren oder größeren Hälfte und dann weiter bis zum Treffer. Dann erhält man nach einigen Zyklen das Ergebnis oder die Position, an der der neue Eintrag eingefügt werden müsste. Das ist die binäre Suche. |
AW: String in TStringList finden verschnellern?
Das Tempo ist da logarithmisch und nicht linear.
* jeden Eintrag durchsuchen, also im Durchschnitt 50% aller Einträge, bis man was findet. * die binäre Suche ist für Sortiertes optimiert, da man beim Vergleich sofort weiß, ob man was getroffen hat und wenn nicht, ob es vor oder hinter dem Eintrag zu finden ist bei 1000 Einträgem * linear = durchschnittlich 500 Vergleiche * binär = maximal 10 Vergleiche Zusätzlich noch CaseSensitive=True. Dateinamen sind zwar CaseSensitive=False, aber wenn du außerhalb AnsiUpperCase/FileNameUpperCase machst, dann muß das die Liste nicht mehr bei jedem Eintrag machen. Beim Dictionary gibt es auch welche, die CaseInsensitiv den Hash berechnen und das dann ebenfalls nicht mehr bei jedem Eintrag machen müssen, während der Suche. |
AW: String in TStringList finden verschnellern?
Zitat:
Nun habe ich es verstanden. |
AW: String in TStringList finden verschnellern?
Darum auch Binär (Zwei), weil man dort immer alles halbiert.
Die maximal nötigen Vergleiche, bis man einen Eintrag gefunden hat, sind auch "zufällig" immer Zweiterpotenzen. ... 65 bis 128 = maximal 7 Vergleiche 129 bis 256 Werte = maximal 8 Vergleiche 257 bis 512 Werte = maximal 9 Vergleiche 513 bis 1024 Werte = maximal 10 Vergleiche ... |
AW: String in TStringList finden verschnellern?
Wäre eine Lösung mit TDictionary (Generics.Collections) nicht wesentlich schneller, wenn die Anzahl wie angegeben in die Hunderttausende geht?
|
AW: String in TStringList finden verschnellern?
Wurde schon erwähnt.
TDictionary ist eine sortierte Hash-Liste mit binärer Suche. |
AW: String in TStringList finden verschnellern?
Zitat:
Gruß K-H |
AW: String in TStringList finden verschnellern?
Was haltet ihr denn davon. Ist das eine Lösung?
![]() Ich nutze nun
Delphi-Quellcode:
function IndexOfListObjects(const sTmp: string; List: TStringListEx): Integer;
begin // for Result := 0 to List.Count - 1 do // if sTmp = PFileListEntry(List.Objects[Result])^.sFileName then if not List.Find(sTmp, Result) then Result := -1; end; |
AW: String in TStringList finden verschnellern?
Zitat:
Delphi-Quellcode:
function TStringList.IndexOf(const S: string): Integer;
begin if not Find(S, Result) then Result := -1; end; |
AW: String in TStringList finden verschnellern?
Einziger Unterschied den ich gerade erkennen konnte ist, dass die offizielle Fassung von Find () CompareStrings aufruft, die inoffizielle CompareStr().
Sonst ist alles gleich. Hätte ich mal vorher gucken sollen. |
AW: String in TStringList finden verschnellern?
Moin...8-)
Was ich nicht verstehe, das du dich gegen das angesprochene TDictionary, jedenfalls habe ich es nicht gesehen, wehrst... :gruebel: Das ist genau das für den Einsatzzweck gut ist... als das rumgeeiere mit der Stringlist... :roll: |
AW: String in TStringList finden verschnellern?
Zitat:
Oder ist es mit 8 Uhr noch zu früh für mich...? :oops: |
AW: String in TStringList finden verschnellern?
Zitat:
Ich kenne es nur nicht. Ist das in etwas so? ![]() Wenn ja, dann bedeutet das ja "doppelte Buchführung" wenn ich das richtig sehe. Denn man braucht einen linken und rechten Teil um ein Paar zu bilden. |
AW: String in TStringList finden verschnellern?
Zitat:
Delphi-Quellcode:
(gleich 0, kleiner 0, größer 0)
V = A - B
![]() Dann weiß man sofort ob größer, kleiner oder gleich. Aber aus diesem Grund sind Hash-Listen schneller, da dort je Wert nur ein "Vergleich" nötig ist, während bei Strings ja jedes einzelne Char verglichen werden muß. Die genaue Anzahl der physischen Vergleiche, im Bytecode (Assembler) oder gar in der CPU, will man besser nicht wissen. Für einen Vergleich zweier Suchalgorithmen reicht es, wenn man die ungefähre Anzahl der logischen Vergleichsoperationen kennt. |
AW: String in TStringList finden verschnellern?
Bei einem ganz einfachen Test war bei mir die normale StringList schneller
Delphi-Quellcode:
procedure TForm1.Button2Click(Sender: TObject);
var sl: THashedStringList; i, X: Integer; Watch: TStopwatch; begin sl := THashedStringList.Create; sl.Sorted := True; for i := 0 to 49999 do sl.Add(TStringUtils.RandomString(60)); sl.Add('ABCABCABC'); for i := 0 to 49999 do sl.Add(TStringUtils.RandomString(60)); Watch := TStopwatch.Create; Watch.Start; for i := 0 to sl.Count - 1 do begin sl.Find('ABCABCABC', X); // Absichtlich kein Break, damit alles verglichen wird end; Watch.Stop; ShowMessage(IntToStr(Watch.ElapsedMilliseconds) + 'ms'); sl.Free; end; // StringList: ~180ms // HashedList: ~200ms |
AW: String in TStringList finden verschnellern?
Das liegt daran, dass du ausgerechnet die grausamste und sinnloseste Implementation einer Hashlist erwischt hast.
Delphi-Quellcode:
Vor jeder einzelnen Suchanfrage werden ALLE Hashs neu berechnet. :wall:
//Unit IniFiles
function THashedStringList.IndexOf(const S: string): Integer; begin UpdateValueHash; if not CaseSensitive then Result := FValueHash.ValueOf(AnsiUpperCase(S)) else Result := FValueHash.ValueOf(S); end; Das muß zwangsläufig langsamer sein. |
AW: String in TStringList finden verschnellern?
Zitat:
Ich habe das jetzt mal mit IndexOf statt Find gemacht und da ist die HashedStringList schneller als die normale (trotz Neuberechnung der Hashes) |
AW: String in TStringList finden verschnellern?
Zitat:
Schau mal hier: ![]() eine der Varianten...TryGetValue: ![]() ... gibt den Value zurück wenn Key gefunden wird. |
AW: String in TStringList finden verschnellern?
Wenn man in IndexOf und Find reinschaut, sieht man, dass da noch ziemlich vieles gemacht wird, um zum Vergleichsergebnis zu kommen.
Hier wird aber doch "nur" ein einfacher Vergleich auf Übereinstimmung von Zeichenfolgen in 'ner sortierten Stringliste benötigt. Wie wäre es denn, hier einfach mal 'ne eigene Suchroutine zu schreiben, der die Stringliste übergeben wird und die als Rückgabewert den Index des gesuchten Eintrages der Stringliste liefert. Ungetestet und nur hingedaddelt, daher ohne jegliche Garantie für irgendwas, sondern nur als Idee für's eigene Ausprobieren:
Delphi-Quellcode:
Hier fehlt zum Beispiel noch die Prüfung, ob der Suchbegriff überhaupt in der Stringliste vorkommt, also ist
function BinSearch(Suche : String; Start : Integer; Ende : Integer; sl : TStringList) : Integer;
var Mitte : Integer; begin Mitte := Start + ((Ende - Start) div 2); if Suche <= sl[Mitte] then Result := BinSearch(Suche, Start, Mitte, sl) else Result := BinSearch(Suche, Mitte, Ende, sl); end;
Delphi-Quellcode:
sl[BinSearch('ASDF',0,sl.Count - 1,sl) = 'ASDF';
Könnte daraus eventuell dann sowas werden?
Delphi-Quellcode:
function IndexOfListObjects(const sTmp: string; List: TStringList): Integer;
begin Result := BinSearch(sTmp,0,List.Count - 1,List); if List[Result] <> sTmp then Result := -1; end; |
AW: String in TStringList finden verschnellern?
Zitat:
Gruß K-H |
AW: String in TStringList finden verschnellern?
Zitat:
Delphi-Quellcode:
eine binäre Suche durchführt und
Find
Delphi-Quellcode:
direkt Find aufruft, wenn
IndexOf
Delphi-Quellcode:
gesetzt ist.
Sorted
Daraus folgt a) daß
Delphi-Quellcode:
nur dann funktionieren kann, wenn
Find
Delphi-Quellcode:
gesetzt wurde, und b)
Sorted
Delphi-Quellcode:
immer funktioniert c)
IndexOf
Delphi-Quellcode:
im Falle von
IndexOf
Delphi-Quellcode:
wegen der binären Suche in
Sorted
Delphi-Quellcode:
schon recht schnell sein sollte.
Find
Bleiben noch die Optimierungsmöglichkeiten in
Delphi-Quellcode:
, das sowohl von
CompareStrings
Delphi-Quellcode:
als auch von
Find
Delphi-Quellcode:
im Falle von
IndexOf
Delphi-Quellcode:
aufgerufen wird. Da CompareStrings virtuell ist müssen wir hier die Implementierung in TStringList heranziehen. Darin wird je nach Kombination der Properties UseLocale und CaseSensitive CompareStr oder CompareText bzw. der Ansi-Pendants aufgerufen. Letztere bemühen jeweils eine Funktion aus der Windows-API und sind somit potentiell langsamer als ihre nativen Vettern. Diese beiden (CompareStr und CompareText) sind aus dem Fastcode-Projekt übernommen worden und somit potentiell auch nicht die langsamsten. Da die Text-Variante noch die Groß/Klein-Schreibung berücksichtigt (in dem sie sie ignoriert), ist diese potentiell noch etwas langsamer als CompareStr, daß einen direkten Vergleich durchführt.
Sorted = false
Folglich sollte das beste Ergebnis erzielt werden, wenn die Stringlist mit folgenden Einstellungen betrieben wird:
Delphi-Quellcode:
Trotzdem kann das stumpfe Iterieren durch alle Strings mit einem direkten Vergleich durchaus deutlich schneller sein, als das Find. Im Gegensatz zu CompareString, daß einen Ordnungsvergleich (kleiner, gleich, größer) durchführt, wird bei einem direkten Vergleich eben nur auf Gleichheit getestet. Da Strings aber referenzgezählte Objekte sind, kann bei diesem Vergleich als erstes geprüft werden, ob es sich um dasselbe Objekt handelt und nicht nur um einen String mit demselben Inhalt.
Sorted := true;
CaseSensitive := true; UseLocale := false; Selbst bei mehreren Millionen Einträgen kann der Brute-Force Ansatz immer noch schneller sein. Man sollte das also mit realen Daten testen, bevor man blind eine bestimmte Methode einsetzt. |
AW: String in TStringList finden verschnellern?
Das gibt einem zu denken. Danke für die ausführliche Erklärung!
Eine Frage habe ich noch. Wenn man sorted auf True setzt, ist das hinzufügen zur Liste deutlich langsamer und Einträge die schon vorhanden sind werden ignoriert. Spielt es eine Rolle, ob ich Sorted vor oder nach dem Hinzufügen all meiner Einträge auf True setze? |
AW: String in TStringList finden verschnellern?
Also:
Delphi-Quellcode:
so sollte es gehen
sl := Tstringlist.create;
sl.Duplicates = dupAccept; // Damit Duplicate erlaubt sind // Alles einfügen // dann sl.sorted := true; // Sortiert die Liste |
AW: String in TStringList finden verschnellern?
Wenn Sorted = true muss beim Einfügen geschaut werden, wo der neue Eintrag hin muss, damit er dort eingefügt werden kann.
Statt Sorted = true könntest Du mal probieren, ob der Aufruf von Sort vor der Stelle, ab der Du suchen willst, etwas bringt. Du muss dann aber an der Stelle mit etwas Wartezeit rechnen. Man kann für den Fall dann auch eine eigene Sortierroutine zuweisen, die eventuell auch das Laufzeitverhalten ändern könnte. |
AW: String in TStringList finden verschnellern?
Habe es nun testen können. Funktioniert einwandfrei, Sort; erst später aufzurufen und Sorted zu setzen (habe einfach beides gemacht).
Die Wartezeit für das "manuelle Sortieren" der Liste im Nachhinein mit dem Aufruf durch Sort; oder dem Setzen von Sorted := True ist sehr viel kürzer als die die entsteht, wenn man es bereits vorher so einstellt. |
AW: String in TStringList finden verschnellern?
Zitat:
Delphi-Quellcode:
ruft intern sowieso ein
Sorted := true
Delphi-Quellcode:
auf, das nun aber nichts mehr verändert. Probier mal, ob es noch etwas schneller ist, wenn du den expliziten
Sort
Delphi-Quellcode:
-Aufruf weglässt.
Sort
|
AW: String in TStringList finden verschnellern?
Zitat:
Ich hatte extra noch den STRG+Linksklick auf .Sorted gemacht um danach zu suchen. Bin aber erst daran gescheitert es zu finden. Bis
Delphi-Quellcode:
bin ich gekommen und habe dort dann diese wunderschöne Zeile
procedure TStringList.SetSorted(Value: Boolean);
Delphi-Quellcode:
übersehen.
if Value then Sort;
Ich werde das später mal mit der TStopWatch prüfen. |
AW: String in TStringList finden verschnellern?
Zitat:
Code:
...
if (V = 0) then begin Gefunden; Break; end; if (V < 0) then SuchindexNachUnten; else SuchindexNachOben; ... |
AW: String in TStringList finden verschnellern?
oder so:
Delphi-Quellcode:
Grüße
case v of
low(Integer) .. -1: SuchIndexNachUnten; 0: Gefunden; 1 .. high(Integer): SuchIndexNachOben; end; Klaus |
AW: String in TStringList finden verschnellern?
Zitat:
|
AW: String in TStringList finden verschnellern?
@a.def
wenn du mit
Delphi-Quellcode:
arbeitest, dann mußt Du noch eine Behandlung von doppelten Datensätzen mit einbauen z.B.
.sorted:=True;
Delphi-Quellcode:
Gruß
.Duplicates:=dupIgnore;
K-H |
Alle Zeitangaben in WEZ +1. Es ist jetzt 03:33 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz