![]() |
Umgang mit großen Textdateien
Hallo,
wir hatten am WE das Problem, große (>1GB) Textdateien editieren zu müssen. Da mussten bestimmte Stellen gesucht werden, an denen dann ein paar zusätzliche Zeilen oder eingefügt wurden. Oder ein bestimmtes Wort musste ersetzt werden. Vllt. max 10 Ersetzungen / Vorgänge pro Datei, also nicht viel. Es handelte sich um Exporte aus einer Datenbank, die vor dem Import in eine andere Datenbank angepasst werden mussten. Dabei hatten wir echt Probleme einen Editor zu finden mit dem das ging. Unsere üblichen Verdächtigen (Word,PSPad,Notepad++) gingen dabei in die Knie. Zum Glück hatte ein Kollege noch einen Uralteditor auf seinem PC rumfliegen, mit dem das dann ging. Der hat aber ewig zum laden und speichern gebraucht, die Ersetzungen gingen dafür halbwegs schnell (hieß K-Edit oder so mein ich). Es kam nun die Idee auf, ein kleines Delphi-Programm selber zu schreiben, das man mit den 3-4 verschiedenen Vorgängen die wir so brauchen auf die Datei los läßt. Wir würde man sowas den effektiv machen? Das ganze in eine TStringlist zu laden, diese Zeile für Zeile durchzugehen und zu editieren und dann wieder zu speichern, kommt mir nicht effektiv vor. |
AW: Umgang mit großen Textdateien
Wäre aber der richtige Weg, weil Du das sehr einfach aus dem TStream (den Du zum lesen/schreiben der Datei verwendest) rausbekommst.
Sherlock |
AW: Umgang mit großen Textdateien
Wirklich Delphi 6? Aber gut.
TStringList kommt nicht wirklich in Frage, da du für das Laden der 1Gb sicher auch eine ganze Weile brauchst. Außerdem wäre da auch bei 2GB spätestens Schluss. Ein ausreichend fragmentierte Speicher macht da schon vorher dicht. Bei neueren Delphi würde man vielleicht auf TTextReader/TTextWriter setzen. Bei den Editoren würde ich ![]() |
AW: Umgang mit großen Textdateien
Zitat:
Delphi-Quellcode:
Manchmal sollte man vielleicht doch erst die neu erstellten Beiträge lesen, bevor man postet :oops:
MyList.LoadFromFile(Datei);
MyList.Text := System.SysUtils.StringReplace(MyList.Text, OldWord, NewWord, rfReplaceAll); |
AW: Umgang mit großen Textdateien
Vielleicht kannst du irgendwo die Quelle von 'sed' ('Stream EDitor' Bestandteil von Unix) auftreiben. Nach meiner Erinnerung arbeitete das Teil selbst auf den damals noch recht gemächlichen Rechnern wirklich schnell.
|
AW: Umgang mit großen Textdateien
Ich hatte mal mit der Suche gesucht, bevor ich hier den Thread eröffnet habe, aber nix gefunden. Hab mich wahrscheinlich vertippt oder so. Gerade mal mit anderem Stichwort 2 ähnl. Beiträge gefunden, die mir vllt. helfen:
![]() ![]() Da wird u.a. auch Franks Vorschlag gehandelt. @Uwe: Statt D6 hätte ich ggf. noch die Möglichkeit D2010 zu benutzen. UltraEdit schau ich mir mal an wie damit die Performance ist. Noch hab ich die Dateien ja hier liegen. Eigenes Tool hätte natürlich den Charme, das bestimmte Suchstrings schon vorbereitet sein könnten. Da in mindestens einem Fall auch ein CR und/oder LF innerhalb des Suchstrings war, war das auch schon wieder kompliziert sich den Suchstring im Suchen/Erstzen Dialog zusammenzubasteln. |
AW: Umgang mit großen Textdateien
Wenn es nur ums Suchen und Ersetzen (non visuell) geht würde ich die Datei mit Sebastians TSJMmfFileReader in eine von TList ableitete Klasse einlesen (Capayity setzen !). Stringreplace ist auch ziemlich langsam und bei IgnoreCase wird erst mal noch eine Kopie erstellt. Deshalb würd' ich auch eine eigene Stringreplace schreiben, da du vermutlich auch "nur ganze Wörter ersetzen" brauchst?
|
AW: Umgang mit großen Textdateien
Vor paar Jahren hatte ich mal eine kleine Klasse geschrieben, welche große Textdateien Stückchenweise bearbeiten konnte.
Genauer konnte man da z.B. Ausschnitte aus der Datei als TStringList rausholen, diese bearbeiten und wieder einfügen, wobei die nachfolgenden Bereiche entsprechend verschoben werden. War irgendwo um die Zeit, wo auch das da ![]() Find es jetzt nur auf die schnelle nicht (hieß wohl TPart.... oder so) und mein Server ist leider auch noch ![]() Wenn du Zeilen einfügst, entfernst oder deren Länge änderst, dann darfst du nicht vergessen, daß dann auch der komplette Speicher dahinter ebenfalls betroffen ist. Aus diesem Grund gehen "viele" da den einfachen Weg. Sie lesen die Datei zeilenweise ein, verarbeiten dabei die Zeilen, schreiben das Ergebnis in eine neue Datei und tauschen am Ende die Dateien aus. Wenn man genügend "virtuellen" Arbeitsspeicher hat (64-Bit-Programm), dann kann man diese großen Dateien auch als MMF laden (dabei sorgt Windows dafür, welche Teile im wirklich RAM liegen) und kann dann alles, wie in einem großen PChar suchen und bearbeiten. Bei weniger "virtuellem" Arbeitsspeicher, kann man die Datei nur stückchenweise in den Speicher mappen, da man keinen Bereich finden wird, wo das als ein Stück reinpaßt. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 07:44 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz