Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   Umgang mit großen Textdateien (https://www.delphipraxis.net/177434-umgang-mit-grossen-textdateien.html)

Jumpy 6. Nov 2013 14:28

Umgang mit großen Textdateien
 
Hallo,

wir hatten am WE das Problem, große (>1GB) Textdateien editieren zu müssen. Da mussten bestimmte Stellen gesucht werden, an denen dann ein paar zusätzliche Zeilen oder eingefügt wurden. Oder ein bestimmtes Wort musste ersetzt werden. Vllt. max 10 Ersetzungen / Vorgänge pro Datei, also nicht viel.

Es handelte sich um Exporte aus einer Datenbank, die vor dem Import in eine andere Datenbank angepasst werden mussten.

Dabei hatten wir echt Probleme einen Editor zu finden mit dem das ging. Unsere üblichen Verdächtigen (Word,PSPad,Notepad++) gingen dabei in die Knie. Zum Glück hatte ein Kollege noch einen Uralteditor auf seinem PC rumfliegen, mit dem das dann ging. Der hat aber ewig zum laden und speichern gebraucht, die Ersetzungen gingen dafür halbwegs schnell (hieß K-Edit oder so mein ich).

Es kam nun die Idee auf, ein kleines Delphi-Programm selber zu schreiben, das man mit den 3-4 verschiedenen Vorgängen die wir so brauchen auf die Datei los läßt.
Wir würde man sowas den effektiv machen? Das ganze in eine TStringlist zu laden, diese Zeile für Zeile durchzugehen und zu editieren und dann wieder zu speichern, kommt mir nicht effektiv vor.

Sherlock 6. Nov 2013 14:37

AW: Umgang mit großen Textdateien
 
Wäre aber der richtige Weg, weil Du das sehr einfach aus dem TStream (den Du zum lesen/schreiben der Datei verwendest) rausbekommst.

Sherlock

Uwe Raabe 6. Nov 2013 14:42

AW: Umgang mit großen Textdateien
 
Wirklich Delphi 6? Aber gut.

TStringList kommt nicht wirklich in Frage, da du für das Laden der 1Gb sicher auch eine ganze Weile brauchst. Außerdem wäre da auch bei 2GB spätestens Schluss. Ein ausreichend fragmentierte Speicher macht da schon vorher dicht.

Bei neueren Delphi würde man vielleicht auf TTextReader/TTextWriter setzen.

Bei den Editoren würde ich UltraEdit empfehlen. Der lädt bei großen Dateien immer nur einen Teil in den Editor. Ist jetzt nicht soooo teuer.

Perlsau 6. Nov 2013 14:45

AW: Umgang mit großen Textdateien
 
Zitat:

Zitat von Jumpy (Beitrag 1234711)
Das ganze in eine TStringlist zu laden, diese Zeile für Zeile durchzugehen und zu editieren und dann wieder zu speichern, kommt mir nicht effektiv vor.

Vielleicht geht's ja schneller, wenn du statt der einzelnen Zeilen den kompletten Text durchsuchst?

Delphi-Quellcode:
MyList.LoadFromFile(Datei);
MyList.Text := System.SysUtils.StringReplace(MyList.Text, OldWord, NewWord, rfReplaceAll);
Manchmal sollte man vielleicht doch erst die neu erstellten Beiträge lesen, bevor man postet :oops:

Mikkey 6. Nov 2013 14:57

AW: Umgang mit großen Textdateien
 
Vielleicht kannst du irgendwo die Quelle von 'sed' ('Stream EDitor' Bestandteil von Unix) auftreiben. Nach meiner Erinnerung arbeitete das Teil selbst auf den damals noch recht gemächlichen Rechnern wirklich schnell.

Jumpy 6. Nov 2013 15:38

AW: Umgang mit großen Textdateien
 
Ich hatte mal mit der Suche gesucht, bevor ich hier den Thread eröffnet habe, aber nix gefunden. Hab mich wahrscheinlich vertippt oder so. Gerade mal mit anderem Stichwort 2 ähnl. Beiträge gefunden, die mir vllt. helfen:

http://www.delphipraxis.net/124270-s...rchsuchen.html

http://www.delphipraxis.net/168618-s...n-dateien.html

Da wird u.a. auch Franks Vorschlag gehandelt.

@Uwe: Statt D6 hätte ich ggf. noch die Möglichkeit D2010 zu benutzen.

UltraEdit schau ich mir mal an wie damit die Performance ist. Noch hab ich die Dateien ja hier liegen.

Eigenes Tool hätte natürlich den Charme, das bestimmte Suchstrings schon vorbereitet sein könnten. Da in mindestens einem Fall auch ein CR und/oder LF innerhalb des Suchstrings war, war das auch schon wieder kompliziert sich den Suchstring im Suchen/Erstzen Dialog zusammenzubasteln.

Bjoerk 6. Nov 2013 15:48

AW: Umgang mit großen Textdateien
 
Wenn es nur ums Suchen und Ersetzen (non visuell) geht würde ich die Datei mit Sebastians TSJMmfFileReader in eine von TList ableitete Klasse einlesen (Capayity setzen !). Stringreplace ist auch ziemlich langsam und bei IgnoreCase wird erst mal noch eine Kopie erstellt. Deshalb würd' ich auch eine eigene Stringreplace schreiben, da du vermutlich auch "nur ganze Wörter ersetzen" brauchst?

himitsu 6. Nov 2013 16:05

AW: Umgang mit großen Textdateien
 
Vor paar Jahren hatte ich mal eine kleine Klasse geschrieben, welche große Textdateien Stückchenweise bearbeiten konnte.

Genauer konnte man da z.B. Ausschnitte aus der Datei als TStringList rausholen, diese bearbeiten und wieder einfügen, wobei die nachfolgenden Bereiche entsprechend verschoben werden.

War irgendwo um die Zeit, wo auch das da http://www.delphipraxis.net/151481-t...inlesen-5.html entstand.
Find es jetzt nur auf die schnelle nicht (hieß wohl TPart.... oder so) und mein Server ist leider auch noch nicht wieder da, isses grad etwas umständlich in den alten Quellcodes zu suchen.




Wenn du Zeilen einfügst, entfernst oder deren Länge änderst, dann darfst du nicht vergessen, daß dann auch der komplette Speicher dahinter ebenfalls betroffen ist.
Aus diesem Grund gehen "viele" da den einfachen Weg.
Sie lesen die Datei zeilenweise ein, verarbeiten dabei die Zeilen, schreiben das Ergebnis in eine neue Datei und tauschen am Ende die Dateien aus.


Wenn man genügend "virtuellen" Arbeitsspeicher hat (64-Bit-Programm), dann kann man diese großen Dateien auch als MMF laden (dabei sorgt Windows dafür, welche Teile im wirklich RAM liegen) und kann dann alles, wie in einem großen PChar suchen und bearbeiten.
Bei weniger "virtuellem" Arbeitsspeicher, kann man die Datei nur stückchenweise in den Speicher mappen, da man keinen Bereich finden wird, wo das als ein Stück reinpaßt.


Alle Zeitangaben in WEZ +1. Es ist jetzt 07:44 Uhr.

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz