Man kann zwar eine Audioinformation in ihren Frequenzraum überführen (-> FFT), aber du hast selbst bei nur einem einzigen hörbaren Instrument schon ein großes Problem - das sog. Obertonspektrum. Bei einem Klavier z.B. klingt mit dem C' auch das C'' und C''' usw. Zudem klingt (wenn auch leise) sogar der ganze C-Dur Akkord mit! Je nach Charateristik und Spielweise und Art des Instrumentes sind diese Obertöne derart prägnant, dass du u.U. fälschlicherweise auch sie als gespielte Noten identifizierst. Nun stell dir dieses Chaos mal mit mehreren Instrumenten übereinander vor
. Ein PC kann zudem nicht wie der Mensch einfach die Instrumente voneinander trennen. Gitarre und Flöte sind für ihn zunächst mal ein und die selbe Art von Information. Kommt noch ein Schlagzeug dazu wird's ganz ungemütlich, da es eher rauschige Charakteristika hat, die die Erkennung böse irritieren können. Hat man dann noch Gesang dabei hört's eigentlich ganz auf, da die menschliche Stimme derart komplex ist dass es nahezu unmöglich ist sie einigermaßen auf diese Weise brauchbar zu verarbeiten.
An diesem Problemkomplex versuchen sich seit Jahren große Firmen und Unis, aber eine zufriedenstellende Variante - trotz aller irrer Mathematik und toller Thoerien - ist mir zumindest nicht bekannt. Es gibt Systeme die es näherungsweise einigermaßen sinnvoll hinbekommen, aber die nötige Nachbearbeitung der extrahierten Daten ist meist noch so aufwändig dass es schneller ist sich die gewünschten Parts mit der Klampfe eben selbst rauszuhören
.
Gruss,
Fabian
Fabian K.
INSERT INTO HandVonFreundin SELECT * FROM Himmel