Gerade bei derart generischen Begriffen wie "Baum", "Haus", "Auto" usw. wird es eher etwas für einen Science Fiction Autor als einen Entwickler. Namenlosers dritter Punkt erledigt dabei einen sehr wesentlichen Beitrag: Es stellt einen Kontext zu einem Bild her, ohne dass Objekte im Bild direkt erkannt werden müssen. Eine riesige Hürde die dort via Datamining geschickt genommen wird, für einen Nicht-Googleaner aber kaum erreichbar ist.
Das best mögliche, was man ohne Forschungsteam im Rücken
imho noch ganz gut schaffen könnte, wäre eine Ähnlichkeitsanalyse zweier Bilder (bzw. Teilbilder). Das alleine ist schon richtig übel harter Tobak. Den Schwung zum gesprochenen/geschriebenen Wort würde ich mir weit hinten ans ToDo packen, noch hinter Doktor der Mathematik werden und solchen Dingen
Zu Fourierdeskriptoren: Die sind auch nicht immer so einfach einsetzbar. Man braucht schon einen gewaltigen Pre-Processing Schritt um gewünschte Objekte vorab zu isolieren, da man sie dann noch vektorisieren muss. Und aus Bitmaps dann noch z.B. einen generischen Baum heraus zu bekommen... ich glaube das ist nicht wirklich ein Königsweg, weil das Pre-Processing ja dann schon das erledigen müsste, was man mit dem FD erreichen will.
"When one person suffers from a delusion, it is called insanity. When a million people suffer from a delusion, it is called religion." (Richard Dawkins)