Ich gebe euch mal einen anderen Lösungsansatz:
Wie wäre es mit folgendem Vorschlag. Von Bildverarbeitungsprogrammen kenne ich die sogenannte Differenz-Berechnung zwischen 2 Bildern. Dabei entsteht aus 2 Bildern ein neues Bild das nur die Differenzen enthält. Wenn du diese Differenz-Berechnung bei den abfolgenden Bildern machst und die Kamera sich nicht bewegt, hast du eine ziemlich hohe Wahrscheinlichkeit heraus zu finden was sich bewegt hat in dem Differenz-Bild.
Um Fehlerquellen auszuschließen würde ich evtl. das ganze auf Schwarz-Weiss und bestimmte Formen begrenzen.
Vielleicht gibt dir das frischen Wind