Das mit der gröberen Aufteilung sollte man probieren.
Eventuell könnte man mit den Vektoreinheiten (SSE) noch was heraushole. Das wird dann aber haariger (kA. wie weit Delphi von alleine vektorisiert).
Edit:
Doch damit steigt die Komplexität wieder an und es wird so ein unschönes unleserliches Ungetüm draus. Und ob es schneller ist?[...] Insofern wäre mir eine Standard-Lösung lieber, z.B. per
ASM.
Frei nach Herb Sutter "Free lunch is over". Parallelisieren
ist die Standard-Lösung.
Und dein Problem ist wirklich noch einfach zu parallelisieren