![]() |
Re: String in 3 MB großen Dateien suchen
Zitat:
Es ganz bestimmt nichts mit der Größe der Datei zu tun. Kann ich mir Deine Datei irgendwo downloaden. Ich würde sehr gerne mal probieren. Wie oft muss denn xxx darin vorkommen? |
Re: String in 3 MB großen Dateien suchen
Moin Uncle Cracker,
Du hast Recht. Es liegt aber nicht der Größe der Datei, sondern an der Häufigkeit des Wortes. :shock: Die Datei wird über TFileStream in 4096 Byte Blöcken bearbeitet. Bevor ein neuer Block eingelesen wird, wird am Ende der Blockverarbeitung geguckt, ob die aktuelle Stream Position + der Textlänge kleiner ist als Stream.Size. Ja, wird Stream.Positon von der aktuellen Position um die Textlänge zurückgesetzt. Dadurch wird verhindert, dass das gesuchte Wort durch eine Blockgrenze zerschnitten wird. Wenn das gesuchte Wort den Block abschließt wird es dadurch aber zweimal gezählt. Das müsste der Fehler sein. Arbeite gerade dran |
Re: String in 3 MB großen Dateien suchen
Liste der Anhänge anzeigen (Anzahl: 2)
Moin Uncle Cracker,
vielen Dank für Deinen Hinweis. Ich war fest davon überzeugt, dass die Komponente einwandfrei funktioniert. Ich habe sie nämlich gründlich getestet (Das habe ich gedacht). Aber wohl nie mit Dateien, die den einen oder anderen Grenzfall enthielten. Ich habe die Komponente überarbeitet und jetzt verschiedene Grenzfälle bei den Tests berücksichtigt. Mir ist kein Fehler mehr aufgefallen. Mit der Komponente habe ich eine 19 MB Testdatei nach der Häufigkeit der Zeichenkette 'xxx' durchsucht. Das hat unter 1 Sekunde gedauert. |
Re: String in 3 MB großen Dateien suchen
Danke das du dir eine solche Mühe machst, werde mal testen.
Könnte man deine Komponente vielleicht noch so ändern, dass nicht nach einem String sondern nach Hexwerten gesucht wird? |
Re: String in 3 MB großen Dateien suchen
Glückauf,
Ich hoffe es macht hier nichts, eine derart alte Diskussion auszugraben, aber ich habe gerade eine Anmerkung zu ![]() Und zwar vergleiche ich gerade diverse Pascal-Implementierungen des Boyer-Moore-Algos, bzw. deren unterschiedlichen Laufzeiten in Delphi einerseits und FreePascal andererseits, und dabei hab ich den hier aus dem Forum (TJsTextSearch aus der Code-Libary) mitverglichen. So in der Form, wie er dort in der Code-Library steht, ist leider immer noch ein Fehler drin: der Algo funktioniert so leider nur für Wörter, in denen sich keine Buchstaben wiederholen, zuverlässig ("Delphi"). Sobald ein Buchstabe mehrfach im Suchbegriff vorkommt, gehts manchmal daneben, weil die SkipTable falsch aufgebaut wird ("Delphi Praxis" mit zwei "i"). Damit der Algo richtig funktioniert, muss die SkipTable andersrum aufgebaut werden (also for iCnt := 1 to Length(SubStr) do). Wollte ich nur mal anmerken, falls sich noch jemand anders mal wundern sollte, warum der Algo je nach Start-Offset mal etwas findet, mal nichts. Vielleicht kanns ja jemand bestätigen und dann in der Code-Library verbessert werden ;) |
Alle Zeitangaben in WEZ +1. Es ist jetzt 21:31 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz