Was, egal welchen Weg man nachher nimmt,
unbedingt allen Beteiligten klar sein muss: Die Bewertung wird objektiv extrem schwierig sein. Gerade da die üblichen Kompressionsverfahren ziemlich adaptiv sind, und unterschiedlich gut auf die Menschliche Stimme zugeschnitten, wird man mit synthetischen Tests auch nur recht synthetische Aussagen treffen können, die zwar böse Patzer aufdecken dürften, jedoch sicherlich keine Nuancen, und kaum eine nachvollziehbare in Zahlen ausgedrückte Bewertung eines subjektiven Höreindrucks.
Die FFT erlaubt prinzipiell Analysen im Frequenzraum, aber gerade bei Stimmen sind auch diese noch ziemlich aufwendig. Da die Stimme eine irre Fülle an Frequenzen beinhaltet, ist es fast schon unmöglich für das gute Verständnis wichtige oder hilfreiche Anteile von bloßem Rauschen zu unterscheiden. Für den Höreindruck macht das Welten aus, in Zahlen wird man kaum signifikante Unterscheidungsmekrmale für manche Fälle finden. Ausser eben die offensichtlichen, die stehen aber wohl am Ende von "auf dieser Leitung wird es mit der Zeit schlechter".
Ich bin mal so frei zu behaupten, dass man nicht viel weiter als bis zur Erkennung von kompletten Aussetzern und extremen Abweichungen vom Original damit kommt. Bevor man da allzuviel Arbeit rein steckt, könnte es am Ende gar günstiger kommen, wenn sich wirklich mal einer einen Tag hinsetzt und die Testanrufe mit eigenen Ohren bewertet.
Warum komme ich zu so einer Aussage? Ich habe mich für meine Bachelorarbeit mit dem Thema Bildkompression beschäftigt, wofür ich Mechanismen gesucht habe, diverse Algos in ihren Ergebnissen miteinander bzgl. des wahrgenommenen Bildeindrucks zu vergleichen. Eine einfache mittlere quadratische Abweichung z.B. hatte sowohl im Bild- als auch im Frequenzraum fast die gleiche Signifikanz wie eine Zufallsbewertung. Bei meinen Recherchen bin ich u.a. auch auf eine Seite des JPEG-Kommitees gestoßen (leider finde ich sie nicht mehr, so oft gesucht
), bei dem sogar die zu dem Ergebnis gekommen sind: In gewissen sehr engen Grenzen, und für Spezialfälle an Bildinhalten lieferten manche Methoden tendenzielle Aussagen, jedoch war keine allgemeingültig für eine subjektiv signifikante Eindrucksbewertung tauglich.
Da Bild und Ton was die reine Signalverarbeitung (und auch die Kompressionsmethoden) angeht gar nicht soooo verschieden voneinander sind, glaube ich hier durchaus Rückschlüsse ziehen zu dürfen.
Was man z.B. denken könnte, was aber dank der Kompression genau 0 Aussagekraft hat ist: Man nehme ein Testsignal, dass einfach nacheinander eine Reihe von Sinuswellen verschiedener Frequenz abspielt. Jetzt könnte man die Aufnahme mit dem Original vergleichen, und so Dinge versuchen wie: "Aha, Frequenz X und Y sind tendenziell leiser als sie sollten." - Trugschluss. Das sog. Psycho-Akustische Modell der meisten modernen Kompressionsverfahren nutzt eben gerade eine Bandfiltermethode, mit der die "vermutlich weniger relevanten" Frequenzbänder aus einem Signal entfernt werden. Oft sogar alle paar Millisekunden auf das konkrete Signal genau zugeschnitten und neu gewichtet. In der Hoffnung, dass deren Fehlen für den Höreindruck kaum einen Unterschied macht. In Zahlen lassen sich zuweilen riesige Abweichungen ausmachen, aber wirklich deutlich hören würde die keiner. Und gerade die Voice-Codecs sind hier ausgeprochen trickreich unterwegs.
Um also ein zumindest näherungsweise relevantes Ergebnis zu bekommen, ist mathematisch echt schon was los. Zudem müsste man exakt wissen mit welchem Codec übertragen wurde, mit welchen Settings, und man müsste im Detail wissen wie er arbeitet. Und selbst dann müsste man sich noch auf den Fall Sprache beschränken. (Manch eine Stimme kommt ganz prima durch eine Kompression, die ein Pop-Lied völlig verhackstücken würde, und umgekehrt. Je nach dem.)
Ich würde den Auftraggeber zumindest mal über die potenzielle Tragweite seiner Anforderung informieren, und ich würde mir - der zumindest ein Basiswissen (wirklich nicht mehr) von Signalverarbeitung hat - nicht zutrauen hier eine (eigene) Lösung anzubieten, die ich guten Gewissens verkaufen kann.
"When one person suffers from a delusion, it is called insanity. When a million people suffer from a delusion, it is called religion." (Richard Dawkins)