Wenn man sich so anguckt was Google so bei seiner Bildersuche bietet - und die ist schon gut - dann könnte man sich da paar Ideen rauspicken.
Das was die Google-Suche bietet, würde ich klar als Multimedia-Retrieval einstufen ... wenn man da ein Stichwort für die weitere Recherche sucht.
Die Frage von Finki würde ich eher als maschinelles Lernen einordnen (obwohl die Themen durchaus Berührungspunkte haben).
Allerdings ist die Aufgaben-Stellung ("Finde etwas, was auf beiden Bildern vorhanden ist und nenne es 'Baum'.") auch für einen Menschen nicht wirklich einfach