Soweit ich mich noch erinnern kann und du richtig geschrieben hast, verwenden die Klassen von Horiyuki wüste
ASM Routinen, die die Transparenz berechnen. Die Klassen sind schon recht alt und nur bis Delphi 7 verfügbar. Auf der GPU wird hier nichts berechnet und ist auch so ohne weiteres nicht möglich. Es gibt glaub ich in den Komponenten die Möglichkeit auf Systemspeicher umzuschalten. Wenn das Bild auf der Grafikkarte liegt, dann muss die auch noch zuerst übertragen werden. Eventuell wird es ein wenig schneller hier den Systemspeicher zu verwenden? Man könnte die
ASM Routinen auch noch an MMX oder SSE anpassen, wird aber auch keinen immensen Geschwindigkeitsvorteil bringen.
Da ein Projekt von mir auch darauf angewiesen war, habe ich damals die Struktur der Klassen nachgebaut, aber auf DirectX9 mit 3D Funktionen die eine 2D Oberfläche imitieren, umgeschrieben. Somit wurden alle Berechnungen auf die GPU ausgelagert. Vorteil war den eigentlich Code kaum ändern zu müssen. Das ist aber auch schon Jahre her und inzwischen haben die kaum noch was damit gemeinsam.