AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Multimedia Audio Files vergleichen und Qualität bewerten
Thema durchsuchen
Ansicht
Themen-Optionen

Audio Files vergleichen und Qualität bewerten

Ein Thema von jensw_2000 · begonnen am 28. Aug 2013 · letzter Beitrag vom 3. Sep 2013
 
Medium

Registriert seit: 23. Jan 2008
3.688 Beiträge
 
Delphi 2007 Enterprise
 
#7

AW: Audio Files vergleichen und Qualität bewerten

  Alt 28. Aug 2013, 22:51
Was, egal welchen Weg man nachher nimmt, unbedingt allen Beteiligten klar sein muss: Die Bewertung wird objektiv extrem schwierig sein. Gerade da die üblichen Kompressionsverfahren ziemlich adaptiv sind, und unterschiedlich gut auf die Menschliche Stimme zugeschnitten, wird man mit synthetischen Tests auch nur recht synthetische Aussagen treffen können, die zwar böse Patzer aufdecken dürften, jedoch sicherlich keine Nuancen, und kaum eine nachvollziehbare in Zahlen ausgedrückte Bewertung eines subjektiven Höreindrucks.
Die FFT erlaubt prinzipiell Analysen im Frequenzraum, aber gerade bei Stimmen sind auch diese noch ziemlich aufwendig. Da die Stimme eine irre Fülle an Frequenzen beinhaltet, ist es fast schon unmöglich für das gute Verständnis wichtige oder hilfreiche Anteile von bloßem Rauschen zu unterscheiden. Für den Höreindruck macht das Welten aus, in Zahlen wird man kaum signifikante Unterscheidungsmekrmale für manche Fälle finden. Ausser eben die offensichtlichen, die stehen aber wohl am Ende von "auf dieser Leitung wird es mit der Zeit schlechter".

Ich bin mal so frei zu behaupten, dass man nicht viel weiter als bis zur Erkennung von kompletten Aussetzern und extremen Abweichungen vom Original damit kommt. Bevor man da allzuviel Arbeit rein steckt, könnte es am Ende gar günstiger kommen, wenn sich wirklich mal einer einen Tag hinsetzt und die Testanrufe mit eigenen Ohren bewertet.

Warum komme ich zu so einer Aussage? Ich habe mich für meine Bachelorarbeit mit dem Thema Bildkompression beschäftigt, wofür ich Mechanismen gesucht habe, diverse Algos in ihren Ergebnissen miteinander bzgl. des wahrgenommenen Bildeindrucks zu vergleichen. Eine einfache mittlere quadratische Abweichung z.B. hatte sowohl im Bild- als auch im Frequenzraum fast die gleiche Signifikanz wie eine Zufallsbewertung. Bei meinen Recherchen bin ich u.a. auch auf eine Seite des JPEG-Kommitees gestoßen (leider finde ich sie nicht mehr, so oft gesucht ), bei dem sogar die zu dem Ergebnis gekommen sind: In gewissen sehr engen Grenzen, und für Spezialfälle an Bildinhalten lieferten manche Methoden tendenzielle Aussagen, jedoch war keine allgemeingültig für eine subjektiv signifikante Eindrucksbewertung tauglich.
Da Bild und Ton was die reine Signalverarbeitung (und auch die Kompressionsmethoden) angeht gar nicht soooo verschieden voneinander sind, glaube ich hier durchaus Rückschlüsse ziehen zu dürfen.


Was man z.B. denken könnte, was aber dank der Kompression genau 0 Aussagekraft hat ist: Man nehme ein Testsignal, dass einfach nacheinander eine Reihe von Sinuswellen verschiedener Frequenz abspielt. Jetzt könnte man die Aufnahme mit dem Original vergleichen, und so Dinge versuchen wie: "Aha, Frequenz X und Y sind tendenziell leiser als sie sollten." - Trugschluss. Das sog. Psycho-Akustische Modell der meisten modernen Kompressionsverfahren nutzt eben gerade eine Bandfiltermethode, mit der die "vermutlich weniger relevanten" Frequenzbänder aus einem Signal entfernt werden. Oft sogar alle paar Millisekunden auf das konkrete Signal genau zugeschnitten und neu gewichtet. In der Hoffnung, dass deren Fehlen für den Höreindruck kaum einen Unterschied macht. In Zahlen lassen sich zuweilen riesige Abweichungen ausmachen, aber wirklich deutlich hören würde die keiner. Und gerade die Voice-Codecs sind hier ausgeprochen trickreich unterwegs.
Um also ein zumindest näherungsweise relevantes Ergebnis zu bekommen, ist mathematisch echt schon was los. Zudem müsste man exakt wissen mit welchem Codec übertragen wurde, mit welchen Settings, und man müsste im Detail wissen wie er arbeitet. Und selbst dann müsste man sich noch auf den Fall Sprache beschränken. (Manch eine Stimme kommt ganz prima durch eine Kompression, die ein Pop-Lied völlig verhackstücken würde, und umgekehrt. Je nach dem.)

Ich würde den Auftraggeber zumindest mal über die potenzielle Tragweite seiner Anforderung informieren, und ich würde mir - der zumindest ein Basiswissen (wirklich nicht mehr) von Signalverarbeitung hat - nicht zutrauen hier eine (eigene) Lösung anzubieten, die ich guten Gewissens verkaufen kann.
"When one person suffers from a delusion, it is called insanity. When a million people suffer from a delusion, it is called religion." (Richard Dawkins)

Geändert von Medium (28. Aug 2013 um 22:56 Uhr)
  Mit Zitat antworten Zitat
 


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:50 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz