Man sollte auch nicht ganz vergessen, dass der Prozessor selbst auch noch eine Rolle spielt. Eine Assembleranweisung hat ja bei modernen Mikroprozessoren nicht immer die selbe Ausführungsgeschwindigkeit. Stichworte sind Pipelining, Out-of-order execution, Branch Prediction und Caching.
Der Vergleich mit 0 ist üblicherweise deshalb schneller, weil man keine Variable zusätzlich ins Register laden muss.
Einige Schlüsse kann man auch aus
diesem Wikipedia Eintrag ziehen.
Insgesamt kann man aber sagen, dass eine Optimierung auf Assemblerebene oder die Auswahl der "schnellsten" Schleife heute kaum noch nenneswerte Vorteile bringt.
Für rechenintensive Dinge ist heute eher Multithreading oder GPU processing angesagt. Für andere Dinge vielleicht ein intelligentes Caching oder ganz allgemeine Ablauf-Optimierungen.
PS: Solltet ihr neben den Intel Prozessoren auch andere targets haben, müsstet ihr die Optimierung sowieso für jeden Prozessortyp einzeln planen.