Falls du ne FFT brauchst: Ich hab eine geschrieben, sie steht in der CL.
Allerdings ist ein großes Problem, dass du dadurch eine hohe Fehlerrate hast und, wie bereits gesagt, die Geschwindigkeit variieren kann, eventuell sogar bei jeder einzelnen Silbe.
Spracherkennung ist etwas, was selbst teure, kommerzielle Software nicht perfekt kann.
Tonerkennung könntest du machen, ist viel einfacher. (Aber auch relativ nutzlos.
)