Ab dem Schritt 2 läuft dann alles auf der Datenbank selber und sollte erheblich schneller funktionieren.
Sollte (wenn die Zieltabellen einen vernünftigen Index haben) sich dann nur um Stunden handeln
Indizes,Import und Geschwindigkeit vertragen sich nicht gut.
Import ohne Index oder Indizes läuft schneller. Am Ende - Insert der aufbereiteten Daten- lässt sich natürlich ein Index in der Zieltabelle selten vermeiden. Ausnahme wäre bspw. ein einmaliger Import, bei dem zuvor die Indizierung deaktiviert / gelöscht und nach dem Import wieder restauriert
wird.
Ich verwende gerne "Raw" Importe, also 1:1 Import Altdaten in
DB. Dort habe ich per
SQL elegante Aufbereitungsmöglichkeiten. Der reine Import der Altdaten läuft dabei nur in Texttypen rein. Die Importtabelle wird dann gereinigt, plausibilisiert und typkonvertiert in die Zieltabelle eingetragen.
Das ist umgekehrt zu ETL, das Extrakt, Transform kommt erst nach dem Load. Ich hab aber nie so große Datenmengen importieren müssen, dass ich mir / dem System das nicht erlauben konnte.