Fertige FFT-Implementierungen gibt es zuhauf, unter anderem eine hier in der Codelib. Die FFT schlüsselt dir dein Signal in die einzelnen Frequenzen auf. Das machst du natürlich nicht nur einmal, sondern Abschnittsweise über die ganze Audio-Datei. Damit kriegst du einen Frequenzverlauf.
Das kann man sogar graphisch darstellen wie im Anhang. Die Visualisierung stammt aus dem Musikplayer Foobar2000, auf der X-Achse ist die Zeit und auf der Y-Achse die Frequenzen. Je stärker eine Frequenz zu einem bestimmten Zeitpunkt präsent ist, desto heller das Pixel...
Als Distanzmaß würde sich vielleicht die
Earth mover’s distance eignen.