Registriert seit: 10. Sep 2003
Ort: Cuxhaven
559 Beiträge
RAD-Studio 2009 Ent
|
Re: Grundsätzliche Funktionsweise von Musikerkennungssoftwar
14. Jun 2005, 11:49
Markant ist unter Anderem (oder vor allem) der Rhythmus. Der Zieht sich durch den ganzen Titel auch die melodie zieht sich in offensichtlicher Form oder Hintergründig (z.B. als Baseline) durch den ganzen Titel. Und grade darum macht es mehr als nur Sinn die unterschiedlichen Frequenzbereiche einzeln zu betrachetn.
Kennst du das Gefühl, dass dich ein Musiktitel mehr anspricht als ein Anderer, oder dass zwei völlig unterschiedliche Titel dir irgendwie gleichermaßen in die Beine gehen? Dafür sind u.A. Rhythmusfolgen und Frequenzen verantwortlich, die eher unterschwellig zu dir gelangen. Es würde jetzt zu Weit führen das hier auszubreiten. Aber diese Tatsache machen sich Produzenten zu Nutze um immer die gleiche Zielgruppe wieder aufs Neue zu gewinnen. ABBA klingt eben wie ABBA und alls was so ähnlich klingt, klingt wie ABBA und nicht wie was Eigenes. *schwafel*
Wie dem auch sei, sowas kann man messen. Und den Refrain (oder einen X-beliebigen anderen markanten Teil eines Songs) kann man relativ leicht identifizieren. Nichts anderes wird gemacht bei manchen komprimierungsverfahren. Tritt eine Sequenz mehrfach auf ist die Information darin redundant und ein Verweis, dass an der Stelle wieder der Teil "von vorhin" kommt, reicht aus. Um wieder den Weg in die Informatik zu lenken: Wenn du an Drei Stellen ein Objekt benötigst reicht ein Objekt und drei Pointer darauf. Diverse Komprimierungsverfahren arbeiten nach diesem Prinzip.
Mit markantem Teil muss ja nicht ein Teil gemeint sein, den der Mensch als markant empfindet, sondern eine sich ständig wiederholende Sequenz. Was ich also sagen will: Auch wenn du es nicht hörst (oder nur unterbewusst siehe mein 2. Absatz) ist es trotzdem da. Und dieser Umstand reicht aus um es zu errechnen und abzulegen zu können.
Nehmen wir als Beispiel ein Techno-Stück und betrachten wir nur den unteren Frequenzbereich. Was sehen wir? Wir sehen ein rhytmisches Pulsieren im Abstand von exakt 0,46784 Sekunden Da dieser Impuls eine Bandbreite von meinetwegen 200Hz (oder was auch immer) hat ermitteln wir ihn auch in zwei Weiteren von unseren 16 Frequenzbereichen Der Impuls selbst besteht aus weiteren Frequenzen. Einmal aus einer niedrigen Trägerfrequenz (das dumpfe Bummern, dass wir hören) und aufmodulierten "Klangfrequenzen". Schliesslich klingt die Basedrum von Queen nicht wie die von Scooter oder eben ABBA, auch wenn sie vielleicht alle die gleiche Trägerfrequenz haben. Wir haben also allerhand Anhaltspunkte, die wir in irgendeiner Form mathematisch aufarbeiten können. Wenn wir das für alle 16 Frequenzbänder tun, bekommt man schon ein recht aussagekräftiges Bild würde ich mal sagen.
Ich rede zuviel...
Ich hoffe der Umstand ist klar geworden.
BTW: Ich sage nicht, dass AudioID es so macht.
Nochwas: Auch so eine Software wird natürlich ihre Grenzen haben. 10 Sekunden Stille bei Bolero - um das noch einmal aufzugreifen - werden relativ ähnliche Werte bringen wie 10s Stille in einem Klassik-Stück. Ist jetzt ein überzogenes Beispiel, sicher. Aber ich denke es wird klar was ich meine.
MfG
Tonic
Der frühe Vogel fängt den Wurm, richtig.
Aber wird nicht auch der frühe Wurm vom Vogel gefressen?
|