Ein (relativ) einfacher Ansatz (wenn auch nicht sehr performant) wäre die
Hough-Transformation.
Das funktioniert vor allem dann, wenn das Männchen ein starres Bild (Sprite), d.h. wenn es nicht z.B. animiert ist.
Ein etwas anderer Ansatz ist eine zweidimensionale, diskrete
Kreuzkorrelation, d.h. das Produkt des isolierten Männchens mit allen Teilflächen an potentiellen Positionen des Männchens auf dem Screenshot. Da wo das Produkt maximal ist, ist die Chance am größten, dass sich das Männchen befindet.
Bei beiden Ansätzen müssen die Farbkanäle einzeln verarbeitet werden, da die Algorithmen einen eindimensionalen Funktionswert erwarten.
lg Caps
ps. Eine gewisse Art, Toleranz ("Unschärfe") beim Suchen anzuwenden, stellt in den beiden Verfahren der Funktionswert der Transformierten bzw. der Korrelationsfunktion dar - je höher desto besser ist der Treffer. Wenn mal ein Pixelchen fehlt, klappt die Erkennung meist trotzdem.
Edit:
Für die Hough-Transformation sollte das Männchen parameterisiert sein (Vektorgrafik), sonst geht's nicht, sorry.