Zitat:
Problematisch sehe ich noch den Einstiegspunkt der "Zeitscheiben". Dieser darf ansich nicht rein zufällig erfolgen um Varianzen durch das clipping (weglaufen der Tonspur und damit verschiebung der Hüllkurve) zu vermeiden. Ist natürlich auch davon abhängig wie lang so eine Zeitscheibe ist. Dafür bietet sich ansich der Takt als Segmentstartindikator (schönes Wort ) an.
Das dürfte sich bei größeren Zeitscheiben, zb. 3 Sekunden, wieder relativieren, eben auch auf grund der Eigenschaften der FFT selber. Desweiteren würde man zwar eine zb. 1024 Spektren FFT anwenden, aber nur sehr markante Einzelbänder dieser Spektren benutzen. Zb. geht man von 22KHz Samples aus, so ergibt das bei 1024 Punkte FFT's pro Frequenzband ca. 21 Hz. Statt nun 1024 "Frequenzspuren" zu benutzen würde man sich auf die Bänder 1000Hz bis 3000Hz als 1 Band festlegen, somit also den menschlichen Sprachbereich selektieren. Dann noch die Spektren in den Bereichen 50Hz-100Hz, 100Hz-1Khz und die oberen Frequenzen 10Khz usw. zusammenfassen. Statt also 16 gleichverteilte Frequenzspektren, erzeugt mit einer 16 Punkte FFT, zu benutzen, werden ganz spezielle Spektren einer 1024 Punkte FFT ausgewählt. Die
große Frage dabei ist nur
welche Frequenzbereiche am eindeutigsten einen Durchschnittssound markieren.
Die anschließenden DFT's über die so erzeugten Frequenzspuren dürfen natürlich nicht so bearbeitet werden.
Zitat:
Meine Befürchtung ist nur, dass sich die Fingerabdrücke duch das viele normalisieren viel zu sehr ähneln.
Naja, Ähnlichkeit ist ja im Grunde auch ein Ziel der Übung. Nachdem man ähnliche Songs gefunden hat kann man ja nochmals mit höherer Auflösung einen Vergleich starten. In der
DB werden ja nicht nur der Fingerabdruck und der Interpret/Name gespeichert sondern auch das Musikstück.
Gruß Hagen