![]() |
Muss viele Strings vergleichen. Geschwindigkeit...
Hallo,
ich habe ein kleines Problem. Ich habe bis zu 2.000.000 Produkte in CSVDateien. Dort stehen Bestellnummern drin. Bestellnummern die mehrmals vorkommen muss ich zählen. Die Bestellnummern sind 10 Zeichen lang. Da die Bestellnummern nur 10 Zeichen haben habe ich die in einer TStringlist. Das ist wesentlich schneller als THashedStringList habe ich festgestellt. Nun zu meinem Problem. Je mehr Bestellnummern ich in der TStringlist habe um so langsamer wird das ganze. Ist ja auch logisch. Ich Frage mit .IndexOf ob es die Bestellnummer schon gibt. Wenn nicht adde ich die. Hat vielleicht jemand eine andere Idee wie ich schneller abfragen könnte ob es die Nummer schon gibt? Vielen dank im Voraus |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Mit THashedStringList sollte ein IndexOf eigentlich schneller sein.
Falls du zufällig doch eine neuere Version als Delphi 2007 benutzt gäbe es da auch noch TDictionary<string, string> (bzw. <string, irgendwas>) |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Hast du bei der Stringlist nach dem Create
Delphi-Quellcode:
auf true gesetzt? Wenn du dann noch
Sorted
Delphi-Quellcode:
auf dupIgnore setzt, dann kannst du dir die Abfrage auf
Duplicates
Delphi-Quellcode:
auch sparen, da bei einem
IndexOf
Delphi-Quellcode:
nur ein noch nicht vorhandener String zugefügt wird.
Add
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Jupp, wenn StringList sortiert ist, dann nutzt IndexOf eine "optimierte" Suchfunktion,
wenn nicht, dann wird im Worst-Case jedes mal die komplette Liste durchgegangen (jeder einzelne String verglichen). Mit eine Hashed-StringList muß nur nach dem Hash (Integer) gesucht werden, anstatt alle Strings als Byteweise zu vergleichen. Das Dictinary ist erstmal sortiert und nutzt auch noch Hashs. (die Hashs sind natürlich sortiert) |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Wir haben BTree-Implementierung im Einsatz die uns genau solche Suchen extrem beschleunigt.
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
Du könntest die TStringList sortieren und auf dupError setzen. Beim Add fängst du den Fehler ab und weißt, ob der Eintrag schon in der Liste war oder nicht. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Add macht intern auch ein IndexOf (außer bei dupAccept und wenn nicht sortiert, wo er nicht zu prüfen/suchen braucht)
Das Tempo des IndexOf steckt also auch im Add drin. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Aus meiner Sicht eindeutig: versuche es erst mal mit einem TDictionary<>. Ist wirklich "Delphi 2007 Architect" deine letzte Version? Bestell dir eine neuere oder such dir einen anderen Job.
BTree geht auch, ist aber nicht "out of the Box". Falls doch: auch ich habe auch eine Implementierung incl. hausinternen unit test. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
Delphi-Quellcode:
erübrigt sich das eben. Das macht intern nämlich genau das.
dupIgnore
Zitat:
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Ich würde mich da nicht mit codieren quälen.
Die CSVs in einer DB einbinden (meinetwegen auch importieren) und dann bequem per SQL abfragen. Zählen, Suchen, Dubletten, Lang, Kurz, Vergleichen, whatever.. auch ein neues Gesamtergebnis kann man dann wieder rausgeben oder aber eine Liste mit neuen Einträgen |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
Und ja, ich habe immer noch Delphi 2007. Die Idee mit einlesen in eine DB kann ich mal umsetzen. Aber ich glaube nicht das es schneller wird. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Aber dann könntest du doch auch einfach die Strings in die StringList adden und wenn ein Duplikat auftaucht bekommst du einen Fehler den du auswerten kannst. Oder verstehe ich da etwas falsch?
Zitat:
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
Ich habe es gerade mal auf THashedStringList umgestellt. Das ist wesentlich langsamer. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
Zitat:
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Wie oben geschrieben, das Ganze in der Datenbank dürfte schnell und bequem sein. Selbst wenn man die Daten nicht importiert, sondern der DB nur die CSV "hinlegt" und bekannt gibt. Geht für firebird, postgres, oracle und sicher auch mssql.
Selbst mit sqlite wäre es ein 3 Zeiler, wenn man nicht extra eine dicke DB anwerfen will. Dann noch notwendige Indizes spendieren und alles ist toll. sqlite hätte den Charme, dass man je CSV File eine eigene sqlite Datei nutzen könnte, mit anderen per dblink koppeln usw. Man kann also munter mit den Daten jonglieren. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
IndexOf in StringList sortiert > bei 1000 Einträgen bis zu 10 String-Vergleiche IndexOf in StringList unsortiert > bei 1000 Einträgen alle 1000 String-Vergleiche, wenn nicht enthalten (durchschnittlich 500 wenn vorhanden) "diese" THashedStringList ist gut beim Suchen, aber extrem schlecht beim Hinzufügen/Ändern. Du änderst aber sehr oft und suchst verhältnismäßg selten. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Hi,
ist vielleicht untergegangen. Sorted ist True. Hatte ich in #12 beantwortet. Aber mich schlecht ausgedrückt. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Hi,
ich denke mal, das wenn man so eine Datenmenge hat, es nicht im Sekunden Bereich liegen kann. Damit muss man wohl leben. Trotz i7 mit 4,4Ghz im Turbomode. Ich habe das nun so abgewandelt das ich einen 32Bit hash errechne und dann mit TIntegerlist arbeite. Das ist annehmbar schnell. ![]() Vielen dank an alle die geholfen haben. :thumb: |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Ich habe gerade einmal mit FireDAC eine Speichertabelle erstellt mit ebenfalls 2 Millionen Einträgen. Dort dauert die Filterung nur Millisekunden...
Es gibt ja sicher auch Fremdimplementierungen für solche Speichertabellen, die auch unter Delphi 2007 funktionieren. |
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Zitat:
Delphi-Quellcode:
doch auch schaffen.
TClientDataSet
|
AW: Muss viele Strings vergleichen. Geschwindigkeit...
Das ist aber um Größenordnungen langsamer, weshalb wir davon auch weg sind.
Die schnellste Lösung wäre allerdings wahrscheinlich ein eigener Datenbankserver, der entsprechende Cache Möglichkeiten und so weiter hat. Wenn das denn in Frage kommt. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 22:03 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz