Method for acoustic object-oriented analysis and note object-oriented processing of polyphonic sound recordings
Kind Code:

Neubäcker, Peter (Valleystrasse 25, 81371 München, DE)
Application Number:
Publication Date:
Filing Date:
Neubäcker, Peter (Valleystrasse 25, 81371 München, DE)
International Classes:
View Patent Images:

Foreign References:
6057502Apparatus and method for recognizing musical chords
Other References:
M. EVERY AND AL.: "Separation of synchronous pitched notes by spectral filtering of harmonics" IEEE Transactions on Audio, Speech and Language Processing IEEE USA, Bd. 14, Nr. 5, September 2006 (2006-09), Seiten 1845-1856, XP002533838 ISSN: 1558-7916
RÉMI GRIBONVAL ET AL: "Harmonic Decomposition of Audio Signals With Matching Pursuit" IEEE TRANSACTIONS ON SIGNAL PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, US, Bd. 51, Nr. 1, 1. Januar 2003 (2003-01-01), XP011080322 ISSN: 1053-587X
CHRIS DUXBURY, NICOLAS CHÉTRY, MARK SANDLER, D MIKE DAVIES: "Efficient Two stage implementation of the Harmonic Maching Pursuit" EUSIPCO 2004, [Online] 2004, XP002533839 Gefunden im Internet: URL:http://www.eurasip.org/Proceedings/Eus ipco/Eusipco2004/defevent/papers/cr1814.pd fs1VF1g> [gefunden am 2009-06-24]
KLAPURI A P: "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness" IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, US, Bd. 11, Nr. 6, 1. November 2003 (2003-11-01), Seiten 804-816, XP011104552 ISSN: 1063-6676
VIRTANEN T ET AL: "Separation of harmonic sounds using linear models for the overtone series" 2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). ORLANDO, FL, MAY 13 - 17, 2002; [IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)], NEW YORK, NY : IEEE, US, Bd. 2, 13. Mai 2002 (2002-05-13), Seiten II-1757, XP010804234 ISBN: 978-0-7803-7402-7
Attorney, Agent or Firm:
Hausfeld, Norbert (Meissner Bolte & Partner GbR Beselerstraße 6, 22607 Hamburg, DE)
1. A method for sound-object-oriented analysis and note-object-oriented processing of a polyphonic digitised sound recording which is provided as a time signal F(A, t), comprising the following analysis and processing steps: - reading the time signal F(A, t) section by section, with use being made of a window function and overlapping windows, - Fourier transform of the read signal to the frequency domain, more particularly by executing a discrete Fourier transform, - calculating an energy value E for each bin (4) from the frequency amplitude resulting from the Fourier transform, more particularly by squaring the real and imaginary contents or forming an energy value derived therefrom, - generating a three-dimensional function F(t, f, E), - identifying event objects (1, 3) which are characterised in that they have an abrupt amplitude rise and are not periodic at this point and which, in most of the cases, are quickly fading, - identifying note objects the main property of which is that they have a tone pitch or a tone pitch pattern for a perceivable duration and that the curve shape of their time signal, in essence, has a periodic or quasi-periodic behaviour, - comparing the point in time of the occurrence of event objects (1, 3) and note objects and allocating event objects (1, 3) to note objects in case of an occurrence that is plausible in relation to time, - calculating spectral content factors for each note object, - allocating signal contents of the frequency signal F(f, t, E) to found note objects by means of the calculated content factors, - reverse transforming the frequency signal contents allocated to a note object into a time signal, - graphical representation of the note objects and/or event objects (1, 3) in a time/frequency graph on a monitor, - processing one or a plurality of note objects under user control or in an automated manner, - storing the time signals of processed note objects, - reproducing the stored time signals of processed note objects together with the time signal that is reduced by the time signal allocated to a note object.

2. The method according to Claim 1, characterised in that a function F'(t, f, E') is calculated from the function F(t, f, E) with energy values E' that are the sum total of all energy values E at a time t and at a fundamental frequency f and all multiples thereof.

3. The method according to Claim 2, characterised in that the energy values with the multiples of the fundamental frequency are added after weighting with a factor other than 1.

4. The method according to Claim 2 or 3, characterised in that the following method steps are carried out to identify the note objects: - determining an energy maximum in function F'(f, t, E'), - determining a coherent value field belonging to the maximum, - allocating the found value field to one note object each.

5. The method according to Claim 4, characterised in that the energy values E of the value field allocated to the note object are subtracted from function F(t, f, E).

6. The method according to Claim 5, characterised in that the energy values E are only subtracted at the level G*E, wherein 0 < G < 1 is applicable to factor G.

7. The method according to Claim 6, characterised in that factor G is a parameter that can be modified by the user.

8. The method according to Claim 5, 6 or 7, characterised in that the search for the maximum is continued at a function from which the energy values have been subtracted and at a function calculated therefrom.

9. The method according to any one of the preceding claims, characterised in that the search for the maximum is carried out iteratively until a termination criterion is reached.

10. The method according to Claim 9, characterised in that a total energy value Etot is calculated for function F(t, f, E) and the iteration is terminated as soon as a certain content H * Etot of this total value has been allocated to the found note objects, in particular when this content is in excess of 90 per cent.

11. The method according to Claim 10, characterised in that factor H is a parameter that can be modified by the user.

12. The method according to any one of the preceding claims, characterised in that, in a subsequent automated rectification process, an identified note object is discarded when one or a plurality of the following criteria is fulfilled: - the energy of the found note object is very low as compared with the total energy, - the tone pitch and amplitude pattern of the note object essentially corresponds to that of another note object of lower frequency, in particular when the lower frequency is possible as the fundamental frequency, - the frequency spacing of a note object from the other note objects is very large.

13. The method according to any one of the preceding claims, characterised in that, in a post-processing step, a user separates, connects and/or deletes automatically identified note objects.

14. The method according to any one of the preceding claims, characterised in that an instantaneous frequency is calculated for each bin (4) from the phase differences of neighbouring bins (4), said instantaneous frequency being used as the frequency of the bin (4) in function F(t, f, E) or F'(t, f, E').

15. The method according to any one of the preceding claims, characterised in that a tonality value and/or a noise value is calculated for each bin (4) in order to find the event objects (1, 3).

16. The method according to Claim 15, characterised in that the energy values of each bin (4) are weighted with the tonality value.

17. The method according to any one of the preceding claims, characterised in that filed notes are accessed for identification of the note objects.

18. The method according to any one of the preceding claims, characterised in that the found event objects (1, 3) are extracted from the time signal F(A, t) and the sound decomposition is carried out at the remaining signal.

19. The method according to Claim 18, characterised in that the event objects (1, 3) are stored separately.

20. The method according to any one of the preceding claims, characterised in that the spectral content factors of a note object are calculated from a filed spectral content function.

21. The method according to Claim 20, characterised in that the filed spectral content function is the mathematical image of a sound model of the note object, the sound model formulating one or a plurality of the following postulates: - there are spectral components on integer multiples of the fundamental tone frequency, i.e., harmonics on harmonic frequencies, the spectral components being associated with a fundamental tone having a fundamental tone frequency, - the amplitude pattern of the harmonics associated with a fundamental tone follows principles which result from a harmonic model or a harmonic amplitude pattern that has been determined empirically, - the harmonic amplitudes have a fixed ratio to the pattern of the fundamental tone energy.

22. The method according to Claim 20, characterised in that the filed spectral content function is the mathematical image of the sound of a note played with a specific instrument.

23. The method according to Claim 20, characterised in that a plurality of spectral content functions is filed, more particularly different content functions for a plurality of instruments, in particular such content functions according to Claim 22.

24. The method according to Claim 23, characterised in that one out of the plurality of content functions is selected by the user.

25. The method according to Claim 23, characterised in that one out of the plurality of content functions is automatically allocated to a note object when the user enters the instrument with which the note was played or when the user automatically detects such an instrument.

26. The method according to any one of Claims 20 to 25, characterised in that, using a window function, the spectral content function carries out a weighting within the frequency range at a predefined frequency width.

27. The method according to any one of the preceding claims, characterised in that a residual signal is calculated by subtracting all of the time signals allocated to the note objects and the event objects (1, 3) from the original time signal.

28. The method according to Claim 27, characterised in that the residual signal is subjected to a further identification of note or event objects (1, 3).

29. The method according to any one of the preceding claims, characterised in that, for the purpose of sound reproduction after a note object has been processed, the sound content of the note object is subtracted from the total sound and the differential signal thus obtained is played together with the sound content of the note object.

30. The method according to Claim 27, characterised in that, during sound reproduction after a note object has been processed, the residual signal is also reproduced by a user.

31. A computer programme with a programme code for applying the method according to any one of the preceding claims if the computer programme is running on a computer.


Die vorliegende Erfindung betrifft ein Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung von polyphonen Klangaufnahmen nach Anspruch 1.

Es ist seit langem bekannt, Tonaufnahmen mit musikalischem Inhalt einer klanglichen Nachbearbeitung zu unterziehen. Fand dies in der Studiotechnik früherer Jahre noch unter Zuhilfenahme von kostspieligen Hardwarekomponenten statt, wie z.B. mit komplexen Filterbänken, so werden dazu heutzutage Computer und spezielle Computerprogramme eingesetzt, die weit weniger kostenintensiv sind und daher eine größere Verbreitung gefunden haben. Ein Übriges zu dieser Entwicklung hat der Einzug digitaler Aufnahmetechnik getan. Ziel solcher Nachbearbeitungen ist es in der Regel, den Klang der Aufnahmen zu verbessern oder Klangeffekte einzuarbeiten. Dieser Art von klanglicher Nachbearbeitung ist gemein, dass sie rein effektorientiert arbeitet und den musikalischen Gehalt des Signals nicht zu erkennen vermag, sondern das Audio-Signal nur als eine sich in der Zeit verändernde Signalamplitude versteht.

Im Stand der Technik sind z.B. aus der

EP 0 750 776 B1 bzw. der

DE 696 14 938 T2 ein Verfahren und eine Vorrichtung zur Änderung des Klanges und der Tonhöhe von Audio-Signalen bekannt. Es wird als nachteilig angesehen, dass dort nicht mit komplexem Klangmaterial gearbeitet werden kann, wie es bei einer üblichen Musikproduktion aber vorliegt.

Wünschenswert ist eine Bearbeitung von Audio-Material auf der Ebene der Einzelnoten, aus dem die Klangaufnahme besteht. Es ist im Stand der Technik bekannt, aus einer Audio-Aufnahme Einzelnoten im Hinblick auf deren Notenhöhe, Notenlänge und Auftrittszeitpunkt zu extrahieren. Eine solche Notenextraktion ist z.B. aus der

DE 10 2004 049 477 A1 bekannt, um eine Melodielinie aus einem Audio-Signal zu bestimmen. Aus der

WO 02/084641 A1 ist die Überführung eines Audio-Signals in eine notenbasierte Beschreibung bekannt, um das Audio-Signal in einer Datenbank referenzieren zu können. Eine Bearbeitung der extrahierten Noten, z.B. durch Änderung in der Frequenz oder Verschieben in der Zeit, findet nicht statt. In diesen Schriften wird weiterer Stand der Technik genannt.

Ein besonders kritischer Punkt bei Bearbeitungen von Audio-Material ist, dass der ursprüngliche Klangeindruck z.B. einer Gesangsstimme auch nach der Bearbeitung erhalten bleiben soll. Dies gelingt in hervorragender Weise in der zum Stand der Technik gehörenden Software "Melodyne" der Celemony Software GmbH, die auf einer notenbasierten Herangehensweise fußt. Allerdings setzt diese Software voraus, dass einstimmiges Material vorliegt. Akkord-Instrumente wie Gitarre, Klavier oder Chorgesang lassen sich bisher nicht zufriedenstellend tonbasiert bearbeiten. Bisher konnten solche Akkordaufnahmen nur akkordweise geschnitten oder per Timestretching in der Zeit oder Tonhöhe bearbeitet werden, allerdings ohne Zugriff auf die einzelnen Töne eines Akkords. So war es bisher nicht möglich, einen einzelnen Akkordton (z.B. das E eines C-Dur-Akkords) zu verändern (z.B. auf Es für C-Moll), ohne gleichzeitig die anderen Töne des Akkords mit zu bearbeiten.

Akkord-Erkennung und Ansätze zur Identifikation von Einzelnoten sind im Stand der Technik allerdings bereits bekannt, z.B. um Noten drucken zu können (Software WIDI) oder automatisch Titel erkennen zu können (

DE 10 2004 049 477 A1).

M. Every and John E. Szymanski: Separation of Synchronous Pitched Notes by Spectral Filtering of Harmonics, IEEE Transactions on Audio, Speech and Language Processing, Vol. 14, No. 5 September 2006, zeigt die Zerlegung eines Gesamtklanges in Einzelklänge, die Noten zugeordnet werden können (Abschnitt II. C, Seite 1847, rechte Spalte Mitte bis Ende des ersten Absatzes). Es wird beschrieben, dass in einem Spektrum (spektrale Amplitude über die Frequenz, Fig. 1) Peaks gesucht werden ("peak picking"), die zu Noten gehören. Mit einigem mathematischen Aufwand wird aus der Fülle der Peaks eine begrenzte Anzahl von Noten herausgerechnet. Nach diesem Notenbestimmungsschritt wird ein Filter vorgegeben, mittels dem aus dem Gesamtsignal den Noten zugeordnete Signalanteile herausgelöst werden. Nach der Herauslösung der Notenanteile verbleibt ein Restsignal, in dem verschiedene Anteile enthalten sind. Eine Ermittlung von Ereignisobjekten und eine Verknüpfung solcher Ereignisobjekte mit Notenobjekten erfolgt hier nicht. Generell geht es einzig um eine Analyse und untergeordnet auch um eine Zerlegung des Gesamtsignals in einzelne Noten. Eine Bearbeitung einzelner Notenobjekte erfolgt nicht.

Chris Duxbury, Nicolas Chetry, Mark Sandler and Mike Davies: An Efficient two-stage implementation of Harmonic Matching Pursuit, EUSIPCO 2004, XP-002533839 erläutert, dass bei der Notenextraktion aus einem Gesamtklang unbedingt Obertöne zu berücksichtigen sind. Es wird deshalb eine so genannte harmonische Energie berechnet, indem zu einer bestimmten Frequenz auch Energien zu Vielfachen dieser Frequenz mit einbezogen werden. Diese harmonische Energie wird für verschiedene Grundfrequenzen errechnet und diejenige Grundfrequenz als die eigentliche Notenfrequenz genommen, die den höchsten harmonischen Energiewert liefert. Das Klanggesamtsignal wird nachfolgend um ein der Note zuzuweisendes Signal reduziert. Es erfolgt keine Identifizierung perkussiver Objekte und keine Zuordnung zu zeitlich koinzidierenden Notenobjekten. Eine Bearbeitung von Notenobjekten durch einen Benutzer erfolgt nicht. Es sollen lediglich Notenobjekte für monophone Klangaufnahmen identifiziert werden.

Es ist die Aufgabe der vorliegenden Erfindung einen Weg aufzuzeigen, wie eine notenobjektorientierte Bearbeitung polyphonen Klangmaterials erfolgen kann. Diese Aufgabe wird mit einem Verfahren nach Anspruch 1 gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.

Das erfindungsgemäße Verfahren identifiziert in einem ersten Schritt automatisch in einem aufgenommenen Audio-Material musikalische Objekte im Sinne von Noten. Diese Objekte werden dann in einem zweiten Schritt aus der Gesamtaufnahme klanglich extrahiert und dadurch ohne merklichen Klangverlust oder merkliche Klangverfälschung manipulierbar gemacht. Diese klangliche Extraktion ist im Stand der Technik nicht zu finden und bedeutet, daß einem identifizierten Notenobjekt ein Teil des Gesamtklanges zugeordnet wird. Dadurch kann die ursprüngliche Aufnahme sogar musikalisch in der Weise frei verändert werden, dass die Noten ihre relative Position zueinander in Tonhöhe und Zeit ändern können, der ursprüngliche Klangeindruck bleibt aber erhalten. Das Verfahren sieht weiter vor, daß die identifizierten Notenobjekte dem Anwender zur Bearbeitung zur Verfügung gestellt werden. Der Anwender kann dann einzelne oder mehrere musikalische Objekte verändern, z.B. in der Tonhöhe verschieben. Nach einer solchen Bearbeitung durch einen Anwender erfolgt die klangliche Wiedergabe, die Resynthese, indem das veränderte Objekt zusammen mit den nicht veränderten Objekten bzw. mit dem um das veränderte Objekt verminderten Gesamtsignal wiedergegeben wird. Das Ausgangsmaterial kann dabei bereits in digitaler Form oder auch als analoges Signal vorliegen. Vor der Analyse eines analogen Signals muß dann ggf. eine Digitalisierung durchgeführt werden.

Das Verfahren kann verschiedene Anwendungen finden. Es lassen sich z.B. gezielt einzelne Verspieler beseitigen: ein Pianist hat versehentlich einen Ton zuviel angeschlagen, der in der Nachbearbeitung entfernt wird. Eine andere Anwendung betrifft das Nachstimmen, also die Korrektur für eine verstimmte Gitarre oder einen unsauberen Streichersatz. Temperierte Aufnahmen können auf reine Stimmung übertragen werden. Es lassen sich Aufnahmen Umharmonisieren, etwa das Riff einer Gitarre von C-Dur in F-Moll. Bisher konnte ein Akkord nur insgesamt in der Tonhöhe verschoben, nicht aber die harmonische Beziehung seiner Einzeltöne verändert werden. Die Möglichkeiten reichen sogar bis hin zu einer Neukomposition, denn es besteht Zugriff auf die Einzeltöne.

Das erfindungsgemäße Verfahren richtet sich vorwiegend an aufgenommene Einzelspuren während der Musikproduktion. Es ist aber auch anwendbar auf fertig gemischte Titel, um diese in einem neuen musikalischen Gewand erscheinen zu lassen.

Mit der bisherigen Technik war das oben Gesagte nur für klanglich monophones Material realisierbar, d.h. zur Bearbeitung von beispielsweise isoliert aufgenommenen Gesangs- oder Bläserstimmen, bei denen nur je eine Note mit identifizierbarer Tonhöhe gleichzeitig erklingt. Mit dem erfindungsgemäßen Verfahren wird das Ziel der Einzelnotenbearbeitung realisierbar für polyphon gespielte Instrumente, also solche, bei denen in der Regel mehrere Noten oder ganze Akkorde gleichzeitig erklingen, wie Klavier, Gitarre usw., wobei nicht nur der Akkord als Ganzes transponierbar wird (d.h. Veränderung der Tonhöhe unter Beibehaltung der relativen Tonhöhenbezüge innerhalb eines Akkordes), sondern auch und besonders die Noten innerhalb eines Akkordklanges relativ zueinander verändert werden können, wie etwa die Veränderung eines Akkordklanges von Dur zu Moll.

Das Verfahren bezieht sich vordringlich auf bereits aufgenommenes musikalisches Material, also nicht auf die Analyse und Bearbeitung in "Echtzeit", d.h. im Moment der musikalischen Aufführung. Das hat damit zu tun, dass das erfindungsgemäße Verfahren eine sinnvolle Erkennung von "Noten" im Sinne von abgeschlossenen Objekten in einem gewissen Kontext voraussetzt. Daher kann die Analyse zwar bei einer laufenden Aufnahme im Hintergrund durchgeführt werden, es muss dabei aber auf einen bereits aufgenommenen Zeitzusammenhang in der Größenordnung z.B. von einigen Sekunden zugreifen können.

Das Verfahren ist dazu ausgelegt, einzelne Tonhöhen oder Tonhöhenverläufe im Gesamtsignal zu finden und zu unterscheiden, nicht aber einzelne Klangquellen zu trennen. Es geht also nicht darum, z.B. aus einer Aufnahme der Geräusche an einer Straße oder mehrerer Sprecher in einem Raum die einzelnen Quellen der Geräusche oder Stimmen zu trennen. Es werden in der Regel zwei Noten, die auf gleicher Tonhöhe von zwei verschiedenen Instrumenten gleichzeitig gespielt wurden, als ein einziges Objekt identifiziert, ebenso der Klang von vielen Ersten Geigen im Orchester, die dieselbe Note spielen, als eine einzige Note. Der hier überwiegend verwendete Begriff des Notenobjektes unterstreicht, dass mit "Noten" im Sinne dieser Erfindung nicht Noten im eigentlichen musikalischen Sinne gemeint sein müssen, wenngleich ein identifiziertes Notenobjekt einer Note im eigentlichen musikalischen Sinn entsprechen kann, aber nicht muß.

Zu findende Noten müssen nicht, wie z.B. eine Klavierton, eine über die Zeit konstante Tonhöhe haben, sondern können auch, wie z.B. eine Singstimme mit Vibrato und/oder Portamento, über die Zeit einen beliebigen Tonhöhenverlauf haben. Wenn solche Tonhöhenverläufe in sich konsistent sind bleiben die Noten bei Zeitverfolgung des Signals erkennbar. Insofern können auch zwei Töne, die sich bei unterschiedlichem Verlauf in der Tonhöhe kreuzen, als zwei verschiedene Noten identifiziert werden.

Das Verfahren besteht im wesentlichen aus den beiden Hauptschritten a) Identifizierung der am Gesamtklang beteiligten Einzelobjekte, also der Noten und ggf. auch der mehr ereignishaft/perkussiven Klangereignisse, und b) klangliche Zerlegung des Gesamtklanges in die gefundenen Einzelobjekte, deren Summe den Gesamtklang ergibt, deren jedes dadurch aber separat manipulierbar wird, ohne den Klang der übrigen Objekte bzw. des Gesamtklanges im Sinn von unerwünschten hörbaren Artefakten zu beeinflussen. Gerade im Schritt b) unterscheidet sich die vorliegende Erfindung vom Stand der Technik.

Das Ergebnis des Identifizierungsschrittes a) kann auch für sich genommen ohne den Klangzerlegungsschritt b) verwendet werden, wenn es nur um die Erkenntnis und Darstellung des musikalischen Inhaltes geht, ohne dass in den Klang selbst eingegriffen werden soll. Das kann der Fall sein, wenn man von einer bestehenden Aufnahme eine musikalische Notation erzeugen will oder den musikalischen Inhalt auf andere Weise graphisch veranschaulichen will. Oder es kann dazu dienen, die Folge der musikalischen Harmonien zu erkennen und zu benennen, um z.B. die Musik mit weiteren Instrumenten anzureichern.

Die Qualität des Ergebnisses von Identifizierungsschritt a) beeinflusst auch die Qualität der klanglichen Zerlegung in Schritt b). Wenn Schritt a) nur wie erwähnt zur Ermittlung des musikalischen Inhaltes dienen soll, genügt es in der Regel zu ermitteln, dass zu einer bestimmten Zeit ein Klangobjekt auftritt, das z.B. die Tonhöhe der Note "Cis" hat, und wie lange dieses Objekt klingt. Wenn hingegen die klangliche Zerlegung in Schritt b) das Ziel ist, dann ist es vorteilhaft so viele Informationen wie möglich über den Verlauf und die Parameter der gefundenen Notenobjekte auszuwerten, wie z.B. den genauen Verlauf der Tonhöhenkurve in der Zeit, die Amplitude des Objektes und ihre Änderung in der Zeit, die Art des Einsetzens einer Note, die Konsistenz des Gemisches ihrer Teiltöne im Verhältnis zu Noten mit ähnlicher Tonhöhe in derselben Aufnahme, usw.. Je nach Anspruch kann man aber auch auf bestimmte Informationen verzichten.

Wie beschrieben ist die Haupteigenschaft der im Audio-Material zu findenden Einzelobjekte, dass sie eine konsistente Tonhöhe bzw. einen konsistenten Tonhöhenverlauf haben. Des Weiteren sollten sie einen konsistenten Verlauf ihrer einzelnen Teiltöne aufweisen. Das heißt, dass angenommen wird, dass ein zu findendes Klangobjekt aus dem Verlauf eines Grundtones besteht, sowie aus einer im Prinzip unbegrenzten Zahl von Obertönen, die annähernd ganzzahlige Vielfache der Grundtonfrequenz sein sollen. Weiter sollte der Verlauf der zu einem Klangobjekt gehörenden Teiltöne keine unmotivierten Sprünge aufweisen. Diese Annahmen sind aus den Eigenschaften der von natürlichen Instrumenten erzeugten Klänge abgeleitet. Daher hat das erfindungsgemäße Verfahren möglicherweise dort seine Grenzen, wo Musik auf beliebige willkürliche Weise synthetisch erzeugt wurde.

Die im Audio-Material zu identifizierenden und oben beschriebenen Objekte kann man als "klanghafte" Objekte bezeichnen, in den Ansprüchen werden sie als Notenobjekte benannt. Deren Haupteigenschaft es ist, eine Tonhöhe oder einen Tonhöhenverlauf über eine wahrnehmbare Dauer zu haben, und die Kurvenform ihres Zeitsignals verhält sich im Wesentlichen periodisch oder quasiperiodisch. Es werden davon die nicht klanghaften Objekte unterschieden, die geräuschhaften Objekte. Ereignishafte Objekte sind eine Untermenge der geräuschhaften Objekte.

Die Ereignisobjekte zeichnen sich dadurch aus, dass sie im Zeitsignal einen sprunghaften Amplitudenanstieg aufweisen und schon deshalb an dieser Stelle nicht periodisch sind. Außerdem klingen Sie meist schnell aus. Diese Objekte werden musikalisch auch meist von einem plötzlichen Ereignis erzeugt, wie vom Anschlagen oder Anzupfen einer Saite, oder dem Anschlagen eines Schlaginstrumentes wie einer Trommel. In diesem Zusammenhang können sie vom erfindungsgemäßen Verfahren auch noch weiter unterschieden werden: falls auf ein ereignishaftes Objekt sofort der Amplitudenanstieg eines klanghaften Objektes folgt, kann angenommen werden, dass das Ereignis den Anschlag einer Note darstellt und kann deshalb dieser Note zugeordnet werden. In diesem Fall können das klanghafte und das ereignishafte Objekt zur Darstellung und Handhabung zu einem einzigen Objekt zusammengefasst werden, das ebenfalls als Notenobjekt zu bezeichnen ist. Zur Klangerzeugung bei der Resynthese, d.h. bei der Klangwiedergabe nach der Bearbeitung eines Notenobjektes oder mehrerer Notenobjekte, kann es aber sinnvoll sein, die beiden genannten Teilobjekte aus klanglichen Gründen getrennt zu verarbeiten.

Wenn das ereignishafte Objekt nicht einem folgenden klanghaften Objekt zugeordnet werden kann, kann angenommen werden, dass es sich um eine rein perkussiv-rhythmisch verstandene Note ohne Tonhöhenbedeutung handelt, wie etwa ein Trommelschlag. Dieses kann in der weiteren Bearbeitung dementsprechend anders behandelt werden.

Die geräuschhaften Objekte haben mit den ereignishaften Objekten gemeinsam, dass sie keinen periodischen Klanganteil haben, unterscheiden sich aber von diesen dadurch, dass sie nicht plötzlich anfangen und auch nicht schnell ausklingen, sondern zeitlich ausgedehnter sein können. Solche Objekte können z.B. Zischlaute der Konsonanten im Gesang, Atemgeräusche, Nebengeräusche des Spielers wie ein Fingerrutschen auf der Gitarrensaite, oder auch gar nicht zur eigentlichen Musik gehörende Nebengeräusche sein. Solche geräuschhaften Objekte könnten z.B. dem Anwender separat zur weiteren Manipulation zur Verfügung gestellt werden oder einfach pauschal als "Restsignal" behandelt werden.

Nachfolgend soll das erfindungsgemäße Verfahren an einem Ausführungsbeispiel erläutert werden unter Bezugnahme auf die Figuren, in denen Ergebnisse einzelner Verfahrensschritte dargestellt sind. Das Verfahren wurde durchgeführt an einem 6-Sekunden-Ausschnitt aus einer Klavieraufnahme der Invention No. 1, C-Dur von J.S. Bach. Es zeigen:

Fig. 1
das Audio-Signal F(A,t) als Amplitude A über die Zeit t;
Fig. 2
einen vergrößerten Zeitausschnitt aus der Fig. 1 über 0.5 Sekunden;
Fig. 3
nach Transformation des Audio-Signals der Fig. 1 in den Frequenzbereich die grautonkodierten Energien der einzelnen Bins in ihrer Augenblicksfrequenz, wobei dunkle Bereiche hohe Energie bedeuten, in einer Darstellung der Frequenz f in Cent über der Zeit t: F(f, t, E);
Fig. 4
eine Darstellung gemäß Fig. 3 mit einem Schnitt in x- und y-Richtung, der die errechneten Energien E bei dieser Frequenz f1 und der Zeit t1 zeigt;
Fig. 5
eine Energielandschaft F(f, t, E) ähnlich der in Fig. 4 gezeigten, bei der die Energiewerte über eine Fensterfunktion aufsummiert und in Zeitrichtung geglättet wurden, mit einem Schnitt in x- und y-Richtung bei der Frequenz f1 und der Zeit t1;
Fig. 6
eine Relevanzlandschaft zu der Energielandschaft der Fig. 5 mit einem Schnitt in x- und y-Richtung mit dem ersten gefundenen Maximum; und
Fig. 7
alle gefundenen Notenobjekte nach Abschluss einer iterativ ausgeführten Identifizierung.

Es werden zur Erläuterung der Erfindung Begriffe verwendet die zunächst in ihrer Bedeutung definiert werden sollen.

Die Begriffe "Zeitbereich" bzw. "Frequenzbereich" entsprechen dem üblichen Gebrauch von time domain und frequency domain im Englischen, und betreffen also Untersuchungen oder Berechnungen entweder im ursprünglichen Zeitsignal F(A, t) selbst (= Zeitbereich) oder in seiner Repräsentation F(f, t) in der über eine diskrete Fourier-Transformation, speziell FFT, überführten Form (= Frequenzbereich).

"Fensterfunktionen" dienen zum Ein- und Ausblenden eines Signals bei seiner Bearbeitung an einem Zeit- oder Frequenzort. Sie können sich also auf die Zeit oder auf das Frequenzspektrum beziehen. Die Fensterform ist nicht festgelegt und kann in einem einfachen Fall ein Dreiecksfenster sein. Bessere Ergebnisse ergeben z.B. ein von-Hann-Fenster. Die Wahl der Fensterform kann für den jeweiligen Zweck optimiert werden. Für das nachfolgend beschriebene Ausführungsbeispiel eines erfindungsgemäßen Verfahrens werden sich überlappende Fenster verwendet.

Als "Bins" werden die Frequenzbänder bezeichnet, die sich aus der FFT ergeben. Damit werden auch die möglicherweise geänderten Frequenzen eines Bandes bezeichnet, wenn die Methode der Augenblicksfrequenz angewendet wird.

Die Augenblicksfrequenz eines Bins ergibt sich aus der Berücksichtigung des Phasenwertes des jeweiligen Bins. Wenn die Analysefenster sich überlappen, kann aus der Differenz zwischen dem durch den Zeitfortschritt erwarteten und dem tatsächlich vorhanden Phasenwert des Bins die Augenblicksfrequenz des jeweiligen Bins ermittelt werden. Je häufiger die Überlappung ist, desto mehr benachbarte Bins können eine bestimmte Frequenz repräsentieren, die nicht mit der rechnerischen Frequenz des Bins selbst übereinstimmen muss.

Es werden für das erfindungsgemäße Verfahren für die Bins energiehafte Größen berechnet, die die Kurznotation E erhalten und nachfolgend als "Energie" und "Magnitude" bezeichnet werden sollen. Nach der FFT werden jedem Bin jeweils eine Energie zugeordnet, die sich aus Real- und Imaginärteil der Fourier-Reihe nach (Re*Re) + (Im*Im) errechnet, so dass ein mit der Amplitude der Frequenz zusammenhängender Wert entsteht. Die Magnitude ist die Wurzel daraus. Zur optimalen Skalierung des jeweiligen Wertes in der Auswertung kann aber der Magnitudenwert ggf. mit einem geeigneten Wert zwischen 1 und 2 potenziert werden, so dass die dann erhaltene Größe etwas zwischen Energie und Magnitude darstellt. Der Begriff Energie wird also hier in einem allgemeineren Sinn verwendet, und nicht im Sinne von Schallenergie oder anderer Energiebegriffe.

Das Cent ist ein im musikalischen Zusammenhang verwendetes Maß für Frequenzverhältnisse, also Intervallgrößen, definiert als Cent = log(f1/f2) / log(2) * 1200. Deshalb ist in dieser Einheit ein musikalisches Intervall unabhängig von seiner absoluten Tonhöhe immer gleich groß, nämlich Halbton = 100 Cent, Oktave = 1200 Cent.

Zur Identifizierung von Notenobjekten bedient sich das beschriebene Verfahren bildhaft gesprochen einer Energielandschaft, worunter ein dreidimensionales mathematisches Gebilde F (t, f, E) verstanden wird, bei dem die x-Achse die Zeit t, die y-Achse die Frequenz f und die z-Achse eine Energie E am jeweiligen Zeit/Frequenz-Ort darstellen. Dabei ist zweckmäßig die Frequenzachse nach Cent skaliert, damit Tonintervalle in jedem Frequenzbereich immer gleich groß sind. Die Energielandschaft ist im weiter zu beschreibenden Verfahren durch diskrete Punkte repräsentiert, die Zeitachse durch die Messpunkte in der Zeit in z.B. ca. 0.01 s Abstand, die Frequenzachse durch Punkte im Intervallabstand von z.B. je 5 Cent. In einigen Verfahrensschritten werden die diskreten Punkte über Fensterfunktionen in kontinuierliche Spektrogramme gewandelt, was aber als optional zu betrachten ist.

Das untersuchte Audiomaterial liegt nach Aufnahme und Analog-DigitalWandlung z.B. als Audiodatei im PCM-Format vor (Pulse-Code-Modulation, werte- und zeitdiskretes Signal). Größenangaben im weiteren Text, wie z.B. für Analysefenster, beziehen sich auf ein digitales Signal, das mit einer Samplerate von 44100 Samples/s vorliegt. Für andere Sampleraten wären die Größen entsprechend anzupassen.

a) Identifizierung von Notenobjekten und Ereignisobjekten

Das exemplarisch beschriebene Verfahren arbeitet sowohl bei der Analyse als auch bei der Klangextraktion für bestimmte Teilaufgaben direkt im Zeitbereich (Fig. 1 und 2), für andere im Frequenzbereich (Fig. 3 bis 7). Dabei eignet sich die Behandlung im Zeitbereich besser für die ereignishaften Objekte, die Behandlung im Frequenzbereich besser für die klanghaften Objekte. Da nach diskreten Notenobjekten in der Zeit gesucht wird, wird das Signal nicht kontinuierlich verarbeitet, sondern es wird sowohl im Zeitbereich als auch im Frequenzbereich immer ein Zeitabschnitt zwischengespeichert, der dann untersucht wird.

Fig. 1 zeigt einen Signalverlauf F(A, t) zu einer Audio-Aufnahme. Figur 2 zeigt einen vergrößerten Ausschnitt dazu. Mit 1 ist in diesen Figuren ein Ereignisobjekt bezeichnet, daß sich an einem Amplitudensprung festmachen läßt. Der mit 2 bezeichnete Bereich zeigt demgegenüber einen deutlich periodischeren Verlauf.

Für die Bearbeitung im Frequenzbereich wird das Signal mit gleichmäßig aufeinander folgenden und sich überlappenden Fensterfunktionen ausgelesen und zunächst über eine FFT in ein komplexes Array für die jeweilige Zeitscheibe überführt. Die Größe der FFT kann z.B. 2048 Samples betragen, die Überlappung sollte mindestens 4-fach sein. Es ergeben sich so Abstände der Zeitscheiben von z.B. 512 Samples oder rund 0.01 sec.

Ein Beispiel für ein weiter bearbeitetes Transformationsergebnis zeigt Figur 3. Es ist dort eine Funktion F(f, t, E) dargestellt, die sich aus der Fourier-Transformation des in den Figuren 1 und 2 gezeigten Zeitsignals F(A, t) dadurch ergibt, dass zu den Bins die Augenblicksfrequenzen und Energien ermittelt werden. Als Grautöne kodiert sind die Energien der einzelnen Bins in ihrer Augenblicksfrequenz über der Zeit aufgetragen. Ereignisobjekte 3 zeichnen sich in dieser Darstellung durch die gleichmäßige Aufteilung der Augenblicksfrequenzen aus, die die Geräuschhaftigkeit dieses Objektes anzeigt. Notenobjekte zeichnen sich durch die Konzentration der Energie auf wenige Augenblicksfrequenzen aus. Dieser Unterschied ist dadurch bedingt, dass ein im Grunde nicht-periodischer Signalverlauf nur durch eine Überlagerung einer großen Zahl von periodischen Funktionen adäquat dargestellt werden kann, während sich periodische Bereiche gut durch einige wenige periodische Funktionen abbilden lassen. Periodische Bereiche im Zeitsignal führen deshalb zu einer energiestarken Überlagerung benachbarter Bins 4 auf einer gemeinsamen Augenblicksfrequenz.

Zu dem Signal F(f, t, E) im Frequenzbereich werden die folgenden Werte bestimmt: die Magnituden aller Bins, die Augenblicksfrequenzen aller Bins, die Tonalitätswerte aller Bins. Der Tonalitätswert ist dabei eine rechnerische Größe, die für den Grad der Periodizität in der Binfrequenz steht. Er wird für je ein Bin berechnet, indem ermittelt wird, wie nah die Augenblicksfrequenzen der Nachbarbins an der Augenblicksfrequenz des in Frage stehenden Bins liegen. Die Anzahl der einbezogenen Nachbarbins ist dabei gleich der Anzahl der Fensterüberlappungen, da diese bestimmt, wie viele Bins eine Frequenz repräsentieren können. Der Tonalitätswert eines Bins wird umso höher, je näher die Augenblicksfrequenzen der Bins in seiner Umgebung zusammen liegen. Dabei bedeutet ein hoher Tonalitätswert, dass tendenziell ein Notenobjekt vorliegt, während ein niedriger Tonalitätswert tendenziell für ein Ereignisobjekt spricht. Die Tonalitätswerte werden auf einen Wertebereich zwischen 0 und 1 skaliert. Zusätzlich wird jedem Bin ein Geräuschhaftigkeitswert zugewiesen, der direkt aus dem Tonalitätswert abgeleitet wird, und sich berechnet als 1 - Tonalitätswert. Ein plötzlicher Anstieg der Geräuschhaftigkeitswerte spricht für ein Ereignisobjekt.

Es wird dann eine Energielandschaft erzeugt, die exemplarisch in Fig. 4 als Schnitt entlang der Zeit t1 und der Frequenz f1 dargestellt ist, und die die Verteilung der Energie E in der Zeit t und Frequenz f repräsentiert und dem eigentlichen Finden der Notenobjekte als Höhenzüge in dieser Landschaft dient. Eine Glättung in Zeitrichtung kann durchgeführt werden. Weiterhin wird für die weiteren Berechnungen bevorzugt eine durch Einblenden der Energiewerte über eine Fensterfunktion aus der Energielandschaft der Figur 4 gewonnene modifizierte Energielandschaft verwendet. Es ergibt sich dann eine in Fig. 5 dargestellte geglättete Funktion F(f, t, E). In beiden Figuren treten Objekte 5 deutlich hervor, denen hohe Energiewerte zukommen.

Da es zunächst um das Auffinden klanghafter Objekte geht, werden die errechneten Energien der Bins zusätzlich mit den ermittelten Tonalitätswerten gewichtet: für jede Zeitscheibe wird für jedes Bin seine Energie mit seinem Tonalitätswert multipliziert. Diese vorgenommene Wichtung verändert das Ergebnis nur graduell, kann deshalb auch weggelassen werden. Gemäß der Augenblicksfrequenz des Bins wird dann seine Cent-Position (= y-Position) in der Landschaft ermittelt und von diesem Punkt ausgehend das Energie-Tonalitätsprodukt mit einer gewissen Verteilungsbreite in Cent-Richtung über eine Fensterfunktion auf die Landschaft aufsummiert. Die Breite des Verteilungsfensters in Cent liegt zweckmäßig etwa in der Größenordnung von einem Halbton. Der Darstellung der Fig. 4 lag eine solche Gewichtung mit den Tonalitätswerten bereits zu Grunde. Wenn alle Zeitscheiben in der Landschaft aufsummiert sind, kann die Landschaft in Zeitrichtung mit einem Tiefpassfilter geglättet werden (siehe Figur 5). Dadurch wird das Auffinden von zusammenhängenden Notenobjekten als Höhenzüge erleichtert. Die Gesamtenergie der Landschaft wird aufsummiert und steht als Wert für das Abbruchkriterium der nachfolgenden Iteration zur Verfügung.

Das Identifizieren der Notenobjekte geschieht durch eine Iteration in der Weise, dass das jeweils am deutlichsten hervortretende Objekt im Sinne des Maximums als Höhenzug verfolgt wird und dessen Energie anschließend aus der Landschaft subtrahiert wird, worauf das nächste am deutlichsten hervortretende Objekt gesucht wird, usw. Das klanglich am deutlichsten hervortretende Objekt ist aber nicht identisch mit dem höchsten Höhenzug in der Energielandschaft F(f, t, E). Das ist dadurch bedingt, dass ein klanghaftes Objekt nicht definiert ist durch einen einzelnen Höhenzug in der Energielandschaft, sondern dass angenommen werden muss, dass die Energie in Höhenzügen auf den ganzzahligen Vielfachen einer Grundfrequenz auch zu eben diesem gesuchten klanghaften Objekt gehören, weil sie Obertöne zu dem Grundton mit der Grundfrequenz sind. Dabei kann es durchaus sein, dass die Energie des Grundtons schwächer ist als die der höheren Teiltöne, trotzdem aber das Objekt auf der Frequenz des Grundtons gefunden und verfolgt werden soll. Hintergrund dieser Überlegungen ist, daß die Grundfrequenz zwar die Tonhöhe eines Tones bestimmt, der Klang eines Tones wird aber maßgeblich von den Obertönen geprägt.

Um dem Rechnung zu tragen wird bildhaft gesprochen eine zweite Landschaft erzeugt, die sogenannte Relevanzlandschaft, die exemplarisch in Fig. 6 dargestellt ist, und die in ihren x- und y-Achsen und ihrer Größe mit der Energielandschaft F(f, t, E) identisch ist, ihre z-Werte E' aber aus dieser ableitet: dazu wird für jeden x-y-Koordinatenpunkt der Relevanzlandschaft F'(f, t, E') als z-Wert E' die Summe aller z-Werte E gebildet, die sich in der Energielandschaft F(f, t, E) an diesem x-y-Punkt befinden und an allen Punkten, die den ganzzahligen Frequenzvielfachen des Ausgangspunktes entsprechen. Dabei ist es zweckmäßig, mit zunehmender Ordnungszahl der Frequenzvielfachen den dort vorhandenen Energiewert mit abnehmendem Gewicht zu addieren. Auf diese Weise ergibt sich eine Relevanzlandschaft F'(f, t, E'), in der die möglichen Grundtöne mit ihren Teiltönen berücksichtigt sind, und deren höchster Punkt der klanglich relevanteste Punkt der relevantesten Note ist. Die in Figur 6 gezeigte Relevanzlandschaft F' (f, t, E') zeigt die gleichen energetisch hervortretenden Objekte 5. Es hat sich durch die Berücksichtigung der in den Obertönen enthaltenen Energien gegenüber der Figur 5 eine Verschiebung in den relativen Energiehöhen ergeben.

Das Auffinden der Notenobjekte in der wie eben geschildert erzeugten Relevanzlandschaft, die im Grunde nur eine besondere Energielandschaft ist, nämlich eine die Obertonenergie berücksichtigende, erfolgt durch ein iteratives mathematisches Verfahren. Es wird nachfolgend erläutert, wie das Auffinden der Notenobjekte in dieser Relevanzlandschaft erfolgt, ohne dass die Erfindung sich darauf beschränkt. Denn das Auffinden der Notenobjekte könnte prinzipiell auch in einer der anderen oben geschilderten oder weiter modifizierten Energielandschaften erfolgen, was aber den Nachteil hätte, dass Obertöne als eigene Noten identifiziert würden und z.B. durch Nachbearbeitung mit den Grundtönen zu verbinden wären. Die Aufgabe, Notenobjekte auch klanglich zu separieren, ist dann gut gelöst, wenn die Verknüpfung zwischen Grund- und Obertönen gelingt. Daher ist die Maximumsuche in der Relevanzlandschaft bevorzugt, weil sie zu den besten Ergebnissen führt.

Es wird zunächst der höchste Punkt der Relevanzlandschaft gesucht. In Fig. 6 wurde bei t1 und f1 das Energiemaximum gefunden. Der Grat des zu diesem Maximum gehörenden Höhenzuges wird in Zeitrichtung vorwärts und rückwärts verfolgt. Dazu wird in der jeweils benachbarten Zeitscheibe der Landschaft das dem zuletzt gefundenen Punkt in Tonhöhenrichtung am nächsten gelegene Maximum in der Landschaft gesucht. Wenn der Abstand zum nächstgelegenen Maximum so groß ist, dass eine Fortsetzung der Tonhöhenlinie als dasselbe Objekt nicht plausibel ist, z.B. bei einem Sprung von mehr als 50 Cent von einer Zeitscheibe zur folgenden, wird die Suche in der aktuellen Richtung abgebrochen. Ebenso wird die Suche abgebrochen, wenn ein bestimmter Höhenwert des gefundenen Maximums unterschritten wird, wie z.B. 10% des Anfangswertes. Die Verfolgung des Höhenzuges geschieht zweckmäßig in der Relevanzlandschaft, weil dessen Verlauf infolge der Mitgewichtung der Teiltöne dem Tonhöhenverlauf des gesuchten Objektes besser entspricht. Wenn die Suche in beide Richtungen abgebrochen ist, wird ein neues Notenobjekt erzeugt und diesem alle Punkte des gefundenen Grates als seinem Tonhöhenverlauf entsprechend hinzugefügt. In den Ansprüchen ist in diesem Zusammenhang davon die Rede, daß ein zum Maximum gehörendes Wertefeld ermittelt wird. Die Art der Ermittlung dieses Wertefeldes kann dabei auch anders als vorab beschrieben erfolgen, indem z.B. andere mathematische Verfahren angewendet werden. Es könnte z.B. in alle Richtungen vom Maximum weg Punkt für Punkt das Wertefeld abgefragt werden, bis in jeder Richtung ein Schwellenwert unterschritten wird. Alle oberhalb der Schwelle liegenden Punkte wären dem Maximum als Wertefeld zuzuweisen.

Anschließend wird der Energielandschaft E (f, t, E) die rechnerische Energie des gefundenen Notenobjektes entzogen, und zwar an den Orten des Verlaufes seines Grundtones sowie dem aller Teiltöne, also der ganzzahligen Vielfachen der Grundtonfrequenz. Prinzipiell könnte das auch in der Relevanzlandschaft E'(f, t, E') erfolgen, was aber eine schlechtere Ausführungsvariante wäre, weil die mögliche Überlagerung von Obertönen, die zu verschiedenen Grundtönen gehören, bei Energieentzug aus der Energielandschaft besser aufgehoben wird.

Mit Vorteil wird aber nicht die gesamte dort vorhandene Energie entzogen, sondern nur ein festgelegter Anteil, z.B. 50%. Dieser Anteil kann z.B. als Parameter vom Anwender auf andere Werte gesetzt werden, weil je nach Audio-Material andere Anteile bessere Ergebnisse ergeben können. Bei starker Überlagerung in den Obertönen kann z.B. eine Herabsetzung auf 25% zu besseren Ergebnissen führen. Der Entzug nur eines Anteils der Energie ist sinnvoll, da zunächst nicht bekannt ist, ob nicht andere gleichzeitig klingende Notenobjekte Teiltöne haben, die nahe an den Teiltönen des zuerst gefundenen Notenobjektes liegen. Durch den nur teilweisen Energieabzug können weitere Notenobjekte in den folgenden Iterationen noch gefunden werden.

Das Reduzieren der Energie an den gegebenen Frequenzorten in der Energielandschaft E(f, t, E) geschieht vorteilhaft wieder in Form einer in Frequenzrichtung nach oben und unten ausblendenden Fensterfunktion, deren Breite in der Größenordnung von einem Halbton liegt. Falls ein Modell des Obertonspektrums des Klanges bekannt ist, z.B. weil zu dem den Klang erzeugenden Instrument ein Referenzspektrum vorliegt oder modellhaft bekannt ist, kann der Energieentzug in den Obertönen diesem Referenzspektrum oder Modell entsprechend erfolgen. Das Notenobjekt "merkt sich" den durch sie entzogenen Energieanteil für ihre spätere Bewertung, indem ihr dieser Energieanteil zugeschrieben wird.

In dem Zeitbereich, der durch das neu gefundene Notenobjekt betroffen ist, wird die Relevanzlandschaft wie weiter oben beschrieben neu berechnet, da sich in diesem Zeitbereich die Energielandschaft als Grundlage für die Relevanzlandschaft durch das Entziehen der Energie geändert hat.

Für das neu gefundene Notenobjekt wird ermittelt, ob es sich in der Zeit und im Verlauf seiner Grundfrequenz mit einem anderen vorher bereits gefundenen Notenobjekt überschneidet. Falls es sich mit einem solchen so überschneidet oder es direkt daran anschließt, dass es plausibel ist, dass es sich um dasselbe Notenobjekt handelt, wird es diesem zugeschlagen (ggf. unter Verlängerung dessen Tonhöhenverlaufes). Anderenfalls wird es als neues Notenobjekt in die Menge der gefundenen Notenobjekte aufgenommen. Da in jedem Iterationsschritt nur z.B. 50% der Energie für das Notenobjekt entzogen werden, wird in der Regel jedes Notenobjekt im Laufe der Iteration mehrfach gefunden.

Die Iteration wird fortgesetzt, indem in der veränderten Relevanzlandschaft wieder der höchste Punkt gesucht wird. Die Iteration wird bis zum Erreichen eines Abbruchkriteriums fortgesetzt. Ein vorteilhaftes Abbruchkriterium für die Iteration ist die Reduktion der Energie im Verhältnis zur ursprünglichen Energie in der Energielandschaft. Die Iteration kann z.B. abgebrochen werden, wenn nur noch 10% der ursprünglichen Energie in der Energielandschaft vorhanden ist. Auch dies kann dem Anwender als zu verändernder Parameter zur Verfügung gestellt werden.

Das Auffinden der ereignishaften Objekte, die sich durch ein plötzliches Ansteigen des geräuschhaften Anteils im Signal auszeichnen, kann entweder im Zeitbereichssignal erfolgen, indem das Ansteigen vor allem hochpassgefilterter Signalanteile verfolgt wird, oder im Frequenzbereich mit Hilfe der Geräuschhaftigkeitswerte der Bins, die dazu, gewichtet mit den Energien der jeweiligen Bins, für jede Zeitscheibe aufaddiert werden. In beiden Fällen erhält man eine Verlaufskurve des geräuschhaften Anteils im Gesamtsignal. An den Punkten der größten Steigungen dieser Kurve, ggf. durch einen Schwellenwert für die Steigung definiert, sind die ereignishaften Objekte anzunehmen.

Die im vorhergehenden Schritt gefundenen ereignishaften Objekte können entweder isoliert für sich selbst im Signal vorkommen, wie es bei rein perkussiven Ereignissen der Fall sein wird, oder sie können die Anschlaggeräusche der Notenobjekte sein, die zuvor in der Iteration gefunden worden sind, wie es bei gezupften oder angeschlagenen tonalen Instrumenten wie Gitarre, Klavier etc. der Fall sein wird. Um das zu unterscheiden, wird für jedes gefundene ereignishafte Objekt am Zeitpunkt seines Auftretens untersucht, ob an einer oder an mehreren der dort befindlichen Notenobjekte unmittelbar nach dem Auftreten des Ereignisses ein signifikanter Anstieg ihrer Energie auftritt. Falls dies der Fall ist, wird das ereignishafte Objekt als Anschlag des Notenobjektes verstanden und diesem zugeordnet. Falls der Energieanstieg bei mehreren Noten der Fall ist, wird das ereignishafte Objekt allen diesen Noten zugeordnet. Falls der Energieanstieg mitten in einem Notenobjekt auftritt, wird das Notenobjekt dort getrennt und ab dort als neues Notenobjekt verstanden. Wenn zum Zeitpunkt des ereignishaften Objekts kein korrespondierendes Notenobjekt gefunden wird, wird das ereignishafte Objekt als isoliertes perkussives Ereignis verstanden. Figur 7 zeigt die im vorliegenden Beispiel gefundenen Notenobjekte zusammen mit den als senkrechte Striche gekennzeichneten ereignishaften Objekten, die diesen Notenobjekten zugeordnet werden konnten.

Dem Auffinden der notenhaften Objekte sollte mit Vorteil ein Bewertungsschritt folgen. Bei der Suche nach Notenobjekten in der beschriebenen Iteration werden in der Regel mehr Objekte gefunden, als musikalisch plausibel vorhanden sind. Deshalb wird die Menge der gefundenen Notenobjekte am Ende noch nach verschiedenen Plausibilitätskriterien überprüft und ggf. nicht ausreichend plausible Notenobjekte entfernt. Ein Plausibilitätskriterium ist z.B. die relative Energie und die Verdeckung. Im Allgemeinen werden bei dem geschilderten iterativen Vorgehen zu viele kleine Notenobjekte mit zu wenig Energie gefunden. Deshalb wird untersucht, wie viel Energie die Note im Verhältnis zur gesamten Energie in ihrem Zeitbereich hat. Wenn sie zuwenig relative Energie besitzt, kann sie entfernt werden.

Manchmal werden auch Objekte als eigenständige Noten identifiziert, die eigentlich Obertöne einer anderen vorhandenen Note sind. Hier kann z.B. untersucht werden, ob die höhere Note einen eigenständigen Verlauf in Tonhöhe, Amplitude und Dauer aufweist, oder ob sie in diesen Parametern im Wesentlichen wie eine tiefere Note verläuft. Wenn letzteres der Fall ist, kann das Objekt entfernt werden oder der tieferen Note zugeschlagen werden.

Weitere Bewertungen können nach musikalischen Gesichtspunkten erfolgen. Wenn z.B. ein Notenobjekt in ihrer Tonhöhengegend sehr isoliert steht (sehr hoch oder sehr tief, wenn sich dort keine anderen Noten befinden), ist sie musikalisch unwahrscheinlich. Wenn z.B. eine Note sich mit anderen Noten in ihrer tonhöhen- und zeitlichen Nachbarschaft zu einer aufsteigenden oder absteigenden Linie verbindet, ist sie musikalisch sehr wahrscheinlich, auch wenn sie sonst eher schwach ist, usw. All diese Kriterien lassen sich mathematisch abbilden und z.B. gewichten, um zu einer möglichst plausiblen Menge von Notenobjekte zu gelangen.

Diesem geschilderten Identifizierungsschritt kann auch noch ein Eingreifen durch den Anwender folgen, dem die aufgefundenen Notenobjekte in geeigneter Weise graphisch dargestellt werden, z.B. in der in Fig. 7 dargestellten Art, und der z.B. maus- und/oder menügesteuert als eine Note identifizierte Objekte noch aufteilen kann oder getrennte Noten zu einem Objekt vereinen kann. Der Anwender kann natürlich auch einzelne Objekte löschen oder weitere zu berücksichtigende Objekte hinzufügen. Dazu können ihm die Objekte zur Aktivierung angeboten werden, die zuvor bei der automatischen Bewertung als zu wenig relevant bewertet wurden.

Die automatische Identifizierung kann optional dadurch optimiert werden, dass die Noten des aufgenommen Musikstück hinterlegt werden, so dass in dem oben genannten Verfahren anhand der hinterlegten Noten gezielt versucht wird, dort Grundtöne aufzufinden, die den Frequenzen der hinterlegten Noten entsprechen. Dies kann z.B. geschehen durch Auswertung einer hinterlegten MIDI-Datei, die die Noten der aufgenommenen Komposition enthält. Es können alternativ auch gleichzeitig mit der Aufnahme des eigentlich verwendeten Gesamtsignals Stützspuren aufgenommen werden, wie z.B. durch Einzelmikrofonierung der beteiligten Instrumentalisten oder Sänger, oder bei einer Gitarre durch Einzelabnahme der Saiten. In dem dann ausgeprägter monophonen Signal der Einzelstimmen können die gewünschten Noten des Gesamtsignals eindeutiger identifiziert und somit der Gesamtklang besser zur Bearbeitung separiert werden.

b) Klangzuordnung zu Notenobjekten

Nachdem die Identifizierung der am Gesamtklang beteiligten Einzelobjekte abgeschlossen ist, kann in einem nächsten Schritt die klangliche Zerlegung des Gesamtklanges erfolgen. Dabei ist die möglichst genaue Bestimmung der vorhandenen Notenobjekte, ihres Tonhöhen- und Amplitudenverlaufes und des Charakters ihres Einsetzens eine Einflussgröße für die Qualität des Ergebnisses der klanglichen Zerlegung. Bei der nachfolgend beschriebenen klanglichen Zerlegung wird der Gesamtklang nur so weit in einzelne klangliche Objekte zerlegt, wie es zur Resynthese des neuen Gesamtklanges notwendig ist. Wenn also z.B. in einem gefundenen komplexen Akkord vom Anwender nur eine einzelne Note angefasst und in ihrer Tonhöhe verändert wird, so muss auch nur das Signal dieser einen Note extrahiert und von dem ursprünglichen Signal subtrahiert werden. Es werden also um so mehr einzelne Signale erzeugt, je mehr Noten verändert werden. Jedes ist dann jeweils ein monophon-periodisches Signal und kann mit bereits bekannten Verfahren zur zeit- und tonhöhenunabhängigen Wiedergabe verändert, summiert und abgespielt werden.

In einem ersten Schritt der Klangzerlegung werden die ereignishaften Objekte aus dem Originalsignal extrahiert. Wenn das Originalsignal in zu den einzelnen Notenobjekten gehörende Einzelsignale zerlegt wird, werden dabei durch die Aufteilung des Frequenzspektrums die ereignishaften Orte im Zeitsignal verschmiert. Deshalb ist es sinnvoll, zunächst die Orte der ereignishaften Objekte aus dem Zeitsignal zu separieren und die Zerlegung in die Einzelsignale der Notenobjekte an dem so entstehenden Restsignal durchzuführen. Gleichwohl kann dieser optionale Verfahrensschritt auch weggelassen werden.

Zur Separation der ereignishaften Objekte wird zunächst ein modifiziertes Zeitsignal erzeugt, in dem die klanghaften Anteile möglichst vollständig abgezogen sind. Dazu werden im Frequenzbereich die Magnituden aller Bins mit den Geräuschhaftigkeitswerten der Bins multipliziert und mit diesen neuen Magnituden und den Originalphasen über die FFT wieder ein Zeitsignal erzeugt. Optional können in die Faktoren für die Magnituden noch Faktoren zur Dämpfung der tieferen Signalanteile eingehen, da für die ereignishaften Objekte oft die höheren Anteile relevanter sind. Aus diesem neuen geräuschhaften Zeitsignal wird an den Stellen, an denen in dem weiter oben beschriebenen Identifizierungsschritt ereignishafte Objekte gefunden worden sind, das Zeitsignal der ereignishaften Objekte mit einer geeigneten Fensterfunktion herausgetrennt, z.B. mit einer kurzen Anstiegszeit von etwa 0.005 s und einer Ausklingzeit von etwa 0.05 s. Diese kurzen Zeitsignale der ereignishaften Objekte werden vom Original-Zeitsignal abgezogen und z.B. separat gespeichert.

Es folgt dann eine Separation der Notenobjekte aus dem Originalsignal. Die Aufteilung des Originalsignals (von dem die ereignishaften Anteile abgezogen wurden) in die Einzelklänge der Notenobjekte geschieht im Frequenzbereich. Dazu wird das Originalsignal nach seiner Modifizierung durch die Separation der Ereignisobjekte (siehe oben) zunächst neu in den Frequenzbereich transformiert.

Die Aufteilung in die Einzelklänge der Notenobjekte beruht darauf, dass jedes Notenobjekt in jeder Zeitscheibe einen "Anspruch" auf einen spektralen Anteil des Gesamtsignals F(f, t, E) anmeldet. Dieser Anspruch wird mathematisch dargestellt durch spektrale Anteilsfaktoren, die errechnet werden für jedes Notenobjekt aus einer spektralen Anteilsfunktion, welches z.B. aus einem Modell des Klanges einer einzelnen Note gewonnen wird. Dieses Modell kann einfach vorgegeben werden, oder es kann dem realen Klang eines Instrumentes nachgebildet sein, wenn das Instrument bekannt ist, auf das das Notenobjekt zurückgeht. Das Modell beruht im vorliegenden Beispiel auf den folgenden Komponenten: Es wird angenommen, dass zum Grundtonverlauf des Notenobjektes Obertöne als spektrale Komponenten in ganzzahligen Vielfachen der Grundtonfrequenz existieren. Es wird weiter angenommen, dass die Amplituden der Obertöne zu einem Grundton einem Obertonmodell folgen. Das kann im einfachsten Fall die Abnahme der Amplitude mit dem Kehrwert der Obertonnummer sein. Das Obertonmodell kann aber auch den Obertonamplitudenverlauf abbilden, der aus einem empirischen Klang abgeleitet wurde. Es wird schließlich angenommen, dass die Obertonamplituden in einem Verhältnis zum Verlauf der Grundtonenergie des Notenobjektes stehen. Dies kann im einfachsten Fall als proportional zur Grundtonenergie angenommen werden, es kann aber auch ein anderer Zusammenhang aus einem empirischen Klang abgeleitet werden.

Basierend auf diesen Annahmen wird eine spektrale Anteilsfunktion vorgegeben, die z.B. für unterschiedliche Instrumente unterschiedlich sein kann, und es werden für jedes Notenobjekt in jeder Zeitscheibe die spektralen Anteilsfaktoren errechnet, also die Ansprüche, die dieses Objekt an jedem Bin hat.

Wenn mehrere Anteilsfunktionen hinterlegt sind, kann z.B. vorgesehen sein, daß der Anwender eine der Anteilsfunktionen auswählt. Es kann auch eine automatische Auswahl erfolgen, z.B. wenn der Anwender eingibt, mit welchem Instrument das Notenobjekt gespielt wurde, oder wenn automatisch erkannt wird, daß das Notenobjekt auf einem bestimmten Instrument gespielt wurde, was sich z.B. daraus ergeben kann, daß die Obertonamplitudenverhältnisse eines Notenobjektes einer hinterlegten Anteilsfunktion entsprechen.

Die Höhe der errechneten Anteilsfaktoren hängt ab von den Teiltonfrequenzen und den Amplituden der Teiltöne, die z.B. aus dem zugrunde gelegten Modell des Klanges einer einzelnen Note folgen. Weiter hängt die Höhe der Anteilsfaktoren ab von der Nähe oder Entfernung der Teiltonfrequenz zur Augenblicksfrequenz des jeweiligen Bins. Die Höhe der Anteilsfaktoren in Abhängigkeit von der Entfernung kann z.B. über eine Gewichtungskurve im Frequenzbereich eingehen, die z.B. breit genug sein sollte, dass auch leichte Abweichungen von der gegebenen Frequenz zugelassen werden. Andererseits sollte die Gewichtungskurve im Zentralbereich so schmal sein, dass die Obertonanteilsfaktoren von unterschiedlichen gleichzeitig erklingenden Noten mit unterschiedlicher Grundtonhöhe ausreichend gut getrennt und die Obertöne der richtigen Note zugewiesen werden können. Eine geeignete Gewichtungskurve zur Bewertung der Entfernung der Frequenzen kann z.B. ein zur vierten Potenz erhobenes von-Hann-Fenster sein, das in seiner Gesamtbreite z.B. zwei Halbtönen entspricht.

Wenn in der jeweils aktuellen Zeitscheibe alle dort als klingend gefundenen Notenobjekte ihre Ansprüche über die Anteilsfaktoren an allen Bins angemeldet haben, wird die Summe der Anteilsfaktoren aller Noten für je ein Bin auf 1 normiert. Für jedes Notenobjekt wird ein eigenes Zeitsignal mit der Dauer dieses Notenobjektes angelegt. Für jede Zeitscheibe werden die Magnituden oder ein anderer geeigneter energiehafter Wert aller Bins gemäß den normierten Anteilsfaktoren auf die Notenobjekte aufgeteilt. Diese Anteile der einzelnen Notenobjekte im Frequenzbereich werden mit den Originalphasen über die FFT in den Zeitbereich zurücktransformiert und die Zeitsignale auf die einzelnen Zeitsignale der Notenobjekte akkumuliert.

Da die Magnitudenanteile oder andere energiehafte Anteile zuvor verändert wurden, sind die Enden des Signals in den Zeitfenstern nach Rücktransformation in den Zeitbereich nicht mehr auf 0 ausgeblendet, was zu unerwünschten Artefakten führt. Deshalb sollte das Ergebnis der Rücktransformation nochmals gefenstert werden. Dazu ist es zweckmäßig, aus den Werten der eigentlich vorgesehenen Fensterfunktion die Wurzel zu ziehen und dieses Fenster dann vor der FFT und nach der inversen FFT anzuwenden.

Schließlich werden die Notenobjekte mit den ereignishaften Anteilen zusammengeführt. Weiter oben war bereits beschrieben worden, dass den Notenobjekten die ereignishaften Objekte zugeordnet wurden, und dass für die ereignishaften Objekte ein Zeitsignal erzeugt wurde. Jetzt kann den Notenobjekten, denen ereignishaften Objekte zugeordnet wurden, dieses Zeitsignal an ihren Anfang aufaddiert werden. Wenn einem ereignishaften Objekt mehrere Notenobjekte zugeordnet worden sind, weil angenommen wurde, dass diese gleichzeitig angeschlagen wurde, wird das Zeitsignal des ereignishaften Objekts in seiner Amplitude auf die zugeordneten Notenobjekte verteilt. Dies kann zweckmäßig im Verhältnis der Energien der Notenobjekte selbst geschehen oder aufgrund des angenommenen Instrumenten-Modells erfolgen..

Ereignishafte Objekte, denen keine Notenobjekte zugeordnet wurden, können mit ihrem extrahierten Zeitsignal als eigenständige perkussive Objekte zur Verfügung stehen.

Wenn für alle gefundenen Notenobjekte und den diesen zugeordneten Ereignisobjekten ihr Zeitsignal erzeugt wurde, werden diese Zeitsignale aller Noten vom Originalsignal abgezogen. Weil im der Klangaufteilung zugrunde gelegten Klangmodell vorausgesetzt wurde, dass die Notenobjekte im wesentlichen aus Teiltönen bestehen, die annähernd ganzzahlige Vielfache einer Grundfrequenz sind, wird nicht der gesamte Klang und damit nicht das gesamt Zeitsignal auf die Einzelobjekte verteilt worden sein. Deshalb verbleibt nach Abzug der Zeitsignale aller Einzelobjekte vom Originalsignal ein Restsignal, das die eher geräuschhaften Anteile enthält. Dieses Restsignal kann bei des Resynthese einfach mit wiedergegeben werden, oder es kann dem Anwender, als ganzes oder zerlegt in weitere Einzelobjekte, zur weiteren Bearbeitung zur Verfügung gestellt werden.

Die zeitliche Abfolge der oben genannten einzelnen Verfahrensschritte kann auch anders gewählt werden. So kann z.B. die Zuordnung von Ereignisobjekten zu Notenobjekten auch erst unmittelbar vor der Resynthese vorgenommen werden. Das gilt in analoger Weise für andere Verfahrensschritte, wie z.B. die Identifizierung der Ereignis- und Notenobjekte oder das Errechnen von Anteilsfaktoren.