Du könntest eine FFT machen (mit BASS, Beispiele dazu gibts ja hundertfach hier im Forum) und dann den Ausschlag in verschiedenen Frequenzen Sample für Sample messen, bis eben eine Grenze überschritten wird. Dabei kannst du ja verwenden, dass gesprochene Sprache meist andere Frequenzen nutzt, als Umgebungsgeräusche oder das "rumgerappeln". Kannst du ja dann testen und entsprechend gewichten