Der übliche Weg bei 3D Krams ist es, einen Strahl an der Mausposition in Kamerarichtung in die (fertig transformierte) Szene zu schicken, und zu prüfen mit welchem Dreieck (und damit mit welchem Objekt) sich der Strahl zuerst schneidet. Die genannte Farbindizierung wäre ein ebenfalls öfter anzutreffender Weg.
Die wesentlichen Fragen sind hier wohl: Auf was für eine Grafik
API setzt du auf? In welcher Art und Weise liegt deine Szene vor? Wie sind "Gebäude" definiert (Bitmaps mit Alpha, Meshes, Voxel)? Davon (mindestens) wird wohl abhängen was du a) machen kannst und b) das performanteste ist.
Edit: Sekunde! Das Problem ist scheinbar nicht, wie man Dinge in der Szene auswählt, sondern wie du herausbekommst auf welchem Feld deines Welt-Rasters sich die Maus befindet oder? Was hast du für ein Raster? Gibt da unterschiedliche Strategien für verschiedene Raster, und es wäre auch wichtig ob der Boden komplett eben ist, oder ob du Hügel/Täler dabei hast, die die Regelmäßigkeit in 2D zerstören.
"When one person suffers from a delusion, it is called insanity. When a million people suffer from a delusion, it is called religion." (Richard Dawkins)