Delphi-Quellcode:
WaitForSingleObject(Thread1, INFINITE);
WaitForSingleObject(Thread2, INFINITE);
könntest du zumindest schon mal ersetzen durch
WaitForMultipleObjects.
Desweiteren würde ich schauen, nicht für
jede „Ebene“ 2 neue Threads anzulegen, sondern z.B. nur, wenn die Anzahl der Elemente eine bestimmte Schwelle überschreitet. Im Prinzip müsstest du einen Dualcore sogar schon ausreizen können, wenn du nur die aller erste „Ebene“ aufsplittest (einen Quadcore respektive mit den ersten zwei Ebenen).
Das Erzeugen und Verwalten von Threads bedeutet einen nicht zu unterschätzenden Overhead. Wahrscheinlich ist dein Programm deshalb so langsan. Es gibt/gab sogar mal eine Richtlinie, dass ein Prozess nicht mehr als 16 Threads haben sollte – ob das noch aktuell ist, weiß ich nicht. Aber man sollte jedenfalls nicht übertreiben.