Ist im Prinzip was ich meinte, nur von der Anderen Seite aufgezogen...
Ob FFT nun die richtige Methode ist (vermutlich ja) vermag ich nicht zu sagen. Ich bin da nicht soooo firm wie du anscheinend, Hagen. Aber auf jeden Fall die Richtige Richtung. Denn ansich macht sie nichts weiter als die Werte, wie ich versucht habe es zu umschreiben, relativ eindeutig zu analysieren (bewerten ist wohl eher das richtige Wort).
Problematisch sehe ich noch den Einstiegspunkt der "Zeitscheiben". Dieser darf ansich nicht rein zufällig erfolgen um Varianzen durch das clipping (weglaufen der Tonspur und damit verschiebung der Hüllkurve) zu vermeiden. Ist natürlich auch davon abhängig wie lang so eine Zeitscheibe ist. Dafür bietet sich ansich der Takt als Segmentstartindikator (schönes Wort
) an.
Meine Befürchtung ist nur, dass sich die Fingerabdrücke duch das viele normalisieren viel zu sehr ähneln. Es ist nun müßig auszurechnen wieviele Kombinationsmöglichkeiten es geben mag weil sicherlich das was Menschen als "angenehme Musik" empfinden doch alles in eine bestimmte Richtung geht. Will sagen: Startender Düsenjäger gehört nicht dazu. und wenn man das wieder und wieder normalisiert doch immer was ähnliches rauskommen kann. Ausserdem wird von 2-4k pro Minute gesprochen und ich immernoch davon ausgehe, dass längere "Zeitscheiben" verlässlichere Werte ergeben - wie auch immer sich die berechnen.
@Robert: Ich glaube garnichtmal, dass man da viel komprimieren muss, dass es etwas bringt viel wegzulassen. schliesslich geht es ja nicht mehr um audiodaten sondern um die Geometrie des Stückes, wenn man es so sagen kann.
Der frühe Vogel fängt den Wurm, richtig.
Aber wird nicht auch der frühe Wurm vom Vogel gefressen?