Title:
Method for processing audio data of e.g. guitar, involves removing spectral property from spectrum of audio data, and impressing another spectral property on audio data, where another spectrum is formed corresponding to latter property
Kind Code:
A1


Abstract:
The method involves removing a spectral property from a spectrum of audio data. Another spectral property is impressed on the audio data, where another spectrum is formed corresponding to the latter spectral property. A minimal-phase filter is generated with cepstral-transformation of a linear-phase filter. The spectrums are determined by analyzing the audio data by interpolating maxima of a spectral representation of the audio data. A power intensity spectrum is generated from the spectral representation of the audio data before the interpolation. Independent claims are also included for the following: (1) an arrangement for processing audio data, comprising a chip (2) a computer program comprising a set of instructions to perform a method for processing audio data.



Inventors:
Elting, Frank (Berlin, 10997, DE)
Eisenberg, Gunnar (Brieselang, 14656, DE)
Application Number:
DE102009029615
Publication Date:
03/31/2011
Filing Date:
09/18/2009
Assignee:
NATIVE INSTRUMENTS GmbH (Berlin, 10997, DE)
International Classes:
Domestic Patent References:
DE60031812T2N/A2007-09-13



Foreign References:
70031202006-02-21
200800752922008-03-27
Attorney, Agent or Firm:
Anwaltskanzlei Gulde Hengelhaupt Ziebig & Schneider (Berlin, 10179)
Claims:
1. Verfahren zur Verarbeitung von Audiodaten, wobei
in einem ersten Schritt mindestens ein erstes Spektrum mindestens einer ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten entfernt und
in einem zweiten Schritt den Audiodaten mindestens eine zweite spektrale Eigenschaft aufgeprägt wird, wobei der mindestens einen zweiten spektralen Eigenschaft mindestens ein zweites Spektrum entspricht.

2. Verfahren zur Verarbeitung von Audiodaten, wobei mindestens ein erstes Spektrum mindestens einer ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten entfernt,
nach Entfernung des mindestens einen ersten Spektrums das Audiosignal, das dem aus der Entfernung des mindestens einen ersten Spektrums resultierenden Spektrum der Audiodaten entspricht, transformiert, und
dem transformierten Audiosignal eine oder mehrere der mindestens einen ersten spektralen Eigenschaft und/oder mindestens eine zweite spektrale Eigenschaft aufgeprägt wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das Audiosignal in zeitliche Abschnitte unterteilt und für zumindest einen Teil der zeitlichen Abschnitte jeweils ein abschnittspezifisches erstes und/oder zweites Spektrum der ersten bzw. zweiten spektralen Eigenschaft definiert wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass sich die zeitlichen Abschnitte überlappen.

5. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass zum Entfernen des mindestens einen ersten Spektrums das invertierte mindestens eine erste Spektrum als Filterspektrum verwendet wird.

6. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass zum Aufprägen des zumindest einen ersten Spektrums und/oder des mindestens einen zweiten Spektrums die entsprechenden Spektren als Filterspektren verwendet werden.

7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass das Filter erzeugt wird, indem das invertierte mindestens eine erste Spektrum und/oder das mindestens eine erste Spektrum und/oder das mindestens ein zweites Spektrum in den Zeitbereich transformiert werden.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass es sich bei dem Filter um ein linearphasiges Filter handelt.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass ein minimalphasiges Filter erzeugt wird durch Cepstraltransformation des linearphasigen Filters.

10. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass zumindest ein Teil der aufzuprägenden Spektren gewichtet wird.

11. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass das mindestens eine erste Spektrum und/oder das mindestens eine zweite Spektrum durch Analysieren von Audiodaten ermittelt wird.

12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass die Analyse eine Detektion von Obertönen umfasst.

13. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass die Analyse eine Analyse im Spektralbereich umfasst.

14. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass die Ermittlung des mindestens einen ersten und/oder des mindestens einen zweiten Spektrums eine Interpolation von Maxima einer Spektraldarstellung der Audiodaten umfasst.

15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass vor der Interpolation aus der Spektraldarstellung der Audiodaten mindestens ein Leistungsdichtespektrum erzeugt wird.

16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass eine Mittelung des mindestens einen Leistungsdichtespektrums oder eines Teils der Leistungsdichtespektren erfolgt.

17. Verfahren nach einem der Ansprüche 14 bis 16, dadurch gekennzeichnet, dass die Spektraldarstellung vor oder nach der Detektion der Obertöne in ein Constant-Q-Spektrum überführt wird.

18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Überführung in das Constant-Q-Spektrum nach einer Rücküberführung des mindestens einen Leistungsdichtespektrums in ein mittleres Spektrum erfolgt.

19. Verfahren nach einem der Ansprüche 5 bis 18, dadurch gekennzeichnet, dass die Filterung wenigstens zum Teil mittels schneller Faltung im Overlap-Add- und/oder Overlap-Save-Verfahren erfolgt.

20. Anordnung mit mindestens einem Chip und/oder Prozessor, wobei die Anordnung derart eingerichtet ist, dass ein Verfahren gemäß einem der Ansprüche 1 bis 19 ausführbar ist.

21. Anordnung nach Anspruch 20. dadurch gekennzeichnet, dass die Anordnung mindestens ein Filter zum Entfernen des mindestens einen ersten Spektrums und/oder mindestens ein Filter zum Aufprägen des zumindest einen ersten Spektrums und/oder des mindestens einen zweiten Spektrums umfasst.

22. Anordnung nach Anspruch 21. dadurch gekennzeichnet, dass die Ausgänge des mindestens einen Filters zum Entfernen des mindestens einen ersten Spektrums und die Eingänge des mindestens einen Filters zum Aufprägen des zumindest einen ersten Spektrums und/oder des mindestens einen zweiten Spektrums über einen Bus verbunden sind.

23. Anordnung nach einem der Ansprüche 20 bis 22. dadurch gekennzeichnet, dass die Anordnung einen Sampler umfasst.

24. Anordnung nach Anspruch 23. dadurch gekennzeichnet, dass in dem Sampler erste und/oder zweite Spektren der ersten bzw. zweiten spektralen Eigenschaft abgelegt sind, welche Samples des Samplers zugeordnet sind.

25. Computerprogramm, das es einer Datenverarbeitungseinrichtung ermöglicht, nachdem es in Speichermittel der Datenverarbeitungseinrichtung geladen worden ist, ein Verfahren gemäß einem der Ansprüche 1 bis 19 durchzuführen.

26. Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einer Datenverarbeitungseinrichtung ermöglicht, nachdem es in Speichermittel der Datenverarbeitungseinrichtung geladen worden ist, ein Verfahren gemäß einem der Ansprüche 1 bis 19 durchzuführen.

27. Verfahren, bei dem ein Computerprogramm nach Anspruch 25 aus einem elektronischen Datennetz, wie beispielsweise aus dem Internet, auf eine an das Datennetz angeschlossene Datenverarbeitungseinrichtung heruntergeladen wird.

Description:

Die Erfindung betrifft ein Verfahren und eine Anordnung zur Verarbeitung von Audiodaten sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium, welche insbesondere einsetzbar sind auf dem Gebiet der Audiosoftware und des Samplings.

Die Klänge von natürlichen Instrumenten bilden in Abhängigkeit von der Anspielstärke ihre Lautstärke sowie ihre Klangfarbe aus. Je stärker ein Ton angespielt wird, desto lauter und heller erklingt er. Dieses wesentliche Merkmal der Expression trägt deutlich zum Klangeindruck eines Instruments bei.

In bisherigen Samplern werden Klänge abhängig von ihrer Anspielstärke oftmals lediglich in ihrer Lautstärke variiert, was zu einem statischen und daher sehr unnatürlichen Klangeindruck führt. Teilweise werden auch einfache Filterstrukturen verwendet, die beispielsweise bei leisen Tönen über Tiefpassfilter Obertöne ausfiltern. Auch dies verbessert den Klangeindruck jedoch nur unwesentlich.

Andere herkömmliche Verfahren arbeiten mit einer Vielzahl von Samples, die jeweils für unterschiedliche Anspielstärken verwendet werden. Beim Übergang zwischen diesen Samples entstehen im Allgemeinen allerdings hörbare Klangunterschiede. Um diese zu vermeiden wird häufig zwischen den Samples übergeblendet, was allerdings den Nachteil hat, dass zwei Samples zur gleichen Zeit erklingen. Dies erzeugt Schwebungen, was ebenfalls einen unnatürlichen Klangeindruck erzeugt.

Natürliche Instrumente prägen allen mit ihnen erzeugbaren Klängen eine bestimmte Formantstruktur auf, die durch bestimmte Resonanzen vorgegeben ist. Diese Resonanzen bleiben unabhängig von der Grundfrequenz eines gespielten Tons erhalten und stellen eine wesentliche Charakteristik des Instruments dar. Werden natürliche Instrumente gesamplet, schlägt sich diese Charakteristik in jedem einzelnen Audiosample wieder. Der Einfluss dieser Charakteristik wird im folgenden als spektraler Fingerprint bezeichnet.

Wird ein Klang innerhalb eines Samplers direkt transponiert, so wird die Formantstruktur mittransponiert, was zu unnatürlichen Klangergebnissen führt. Um dies zu verhindern muss mit einer Formantkorrektur gearbeitet werden. Diese sorgt bei der Erfindung dafür, dass die Formantresonanzen vor der Transponierung über Filter nivelliert und nach der Transponierung wieder eingebracht werden.

Auf dem Gebiet der Erfindung werden im Stand der Technik auch Verfahren eingesetzt, um innerhalb eines Samplers die Klangfarben der einzelnen Samples zu manipulieren und ineinander zu überführen. Ein Teil dieser Verfahren verwendet eine Filterbank aus EQ-Filtern (EQ = Equalizer). Diese sind in IIR-Technologie (IIR = Infinite Impulse Response) implementiert und stellen weitestgehend eine klassische Filterbank dar, wie sie auch aus Mischpulten oder Effektgeräten bekannt ist. Das Einstellen der Filter wird bei dieser Lösung durch den Nutzer vorgenommen.

Des weiteren sind Anwendungen bekannt für das Mastering komplexer Musiksignale, wobei einem fertigen Mix eine EQ-Kurve eines anderen Signals aufgeprägt wird. Als Filter wird hierbei auch ein FFT-basiertes FIR-Filter (FFT = Fast Fourier Transformation, FIR = Finite Impulse Response) verwendet, wobei bei dieser Lösung nur ein einzelnes Filter genutzt wird. Die Analyse bei diesen Anwendungen geht von komplexen Musiksignalen aus und analysiert deshalb keine Obertöne und damit verbundene Formantstrukturen. Eine alternative Lösung für das Mastering komplexer Musiksignale sieht vor, ein Spektrum, das über eine FFT analysiert wurde, in eine 30 Band Filterbank zu überführen.

Die Aufgabe der Erfindung besteht somit darin, ein Verfahren und eine Anordnung zur Verarbeitung von Audiodaten sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium bereitzustellen, welche die Nachteile der bekannten Lösungen beheben sowie insbesondere einen natürlichen Klangeindruck bei synthetischen Instrumenten erzeugen.

Diese Aufgabe wird erfindungsgemäß durch die Merkmale in den Ansprüchen 1, 2, 20 und 25 bis 27 gelöst. Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen enthalten.

Ein besonderer Vorteil der Erfindung besteht unter anderem darin, dass die Variationsbreite der Klangfarbe abhängig von der Anspielstärke abgebildet wird, ohne die oben genannten Nachteile in Kauf zu nehmen. Dies wird dadurch erreicht, dass bei dem Verfahren zur Verarbeitung von Audiodaten erfindungsgemäß mindestens ein erstes Spektrum mindestens einer ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten entfernt wird. Vorzugsweise wird das mindestens eine erste Spektrum der ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten herausgefiltert. Nachdem das mindestens eine erste Spektrum der ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten entfernt wurde, wird in einer ersten Alternative der Erfindung dem Spektrum der Audiodaten mindestens ein zweites Spektrum mindestens einer zweiten spektrale Eigenschaft aufgeprägt. Auch dieses Aufprägen erfolgt vorzugsweise unter Verwendung eines Filters.

Bei der mindestens einen ersten und/oder zweiten spektralen Eigenschaft kann es sich beispielsweise um die Klangfarbe eines bestimmten Instruments handeln. Auf diese Weise kann den Audiodaten die Klangfarbe eines anderen Klanges aufgeprägt werden, ohne dass, wie in den herkömmlichen Lösungen, z. B. Schwebungen durch das Überblenden von zwei Samples entstehen.

Eine andere Alternative der Erfindung sieht vor, dass nach dem Entfernen des mindestens einen ersten Spektrums der mindestens einen ersten spektralen Eigenschaft das Spektrum der Audiodaten verändert wird, z. B. indem die Frequenz bzw. Tonhöhe der Audiodaten verändert wird. Nach einer solchen Veränderung des Spektrums der Audiodaten wird dem veränderten Spektrum wenigstens ein Teil des mindestens einen ersten Spektrums der mindestens einen ersten spektralen Eigenschaft und/oder mindestens ein zweites Spektrum mindestens einer zweiten spektrale Eigenschaft aufgeprägt. Damit wird erreicht, dass ein Audiosample hinsichtlich der Tonhöhe, Lautstärke oder anderer Klangparameter verändert werden kann, wobei jeweils die natürliche Klangfarbe durch das aufgeprägte Spektrum der spektralen Eigenschaft erzielt wird, so dass ein natürlicher Klangeindruck entsteht. Mit demselben Verfahren kann auch beispielsweise einem Audiosample eines Pianos die Klangfarbe (Klangcharakteristik) einer Gitarre aufgeprägt werden.

Bei der ersten und zweiten spektralen Eigenschaft kann es sich beispielsweise um die spektrale Eigenschaft am Anfang bzw. Ende einer gewünschten oder realisierbaren Variationsbreite der Audiodaten handeln. So kann beispielsweise die erste spektrale Eigenschaft die Klangfarbe von sehr leisen oder sehr tiefen Klängen und die zweite spektrale Eigenschaft die Klangfarbe von sehr lauten oder sehr hohen Klängen repräsentieren. Beim Aufprägen der ersten und zweiten spektralen Eigenschaft werden die Spektren vorzugsweise gewichtet in Abhängigkeit davon, an welcher Position der Variationsbreite der Audiodaten das Zielsample liegt. Liegt das Zielsample beispielsweise nahe am leisen Ende der Variationsbreite, so wird das mindestens eine Spektrum, welches die Klangfarben leiser Klänge repräsentiert, höher gewichtet, das mindestens eine Spektrum, welches die Klangfarben lauter Klänge repräsentiert, geringer gewichtet. Die Wichtung kann beispielsweise durch Vorgabe einer entsprechenden Anspielstärke erfolgen.

Wie erwähnt, werden in einer bevorzugten Ausführungsform die Spektren der (mindestens einen) ersten spektralen Eigenschaft durch Filterung aus dem Spektrum der Audiodaten entfernt und die Spektren der (mindestens einen) zweiten spektralen Eigenschaft dem Spektrum der Audiodaten aufgeprägt. In einer vorteilhaften Ausführungsform der Erfindung wird zum Entfernen des mindestens einen ersten Spektrums das invertierte mindestens eine erste Spektrum als Filterspektrum verwendet. In einer anderen vorteilhaften Ausführungsform der Erfindung ist vorgesehen, dass als Filterspektrum zum Aufprägen das, gegebenenfalls gewichtete, Spektrum der aufzuprägenden spektralen Eigenschaft direkt verwendet wird. Eine bevorzugte Ausführungsform der Erfindung sieht vor, dass die Filterspektren in den Zeitbereich transformiert werden, beispielsweise durch eine IFFT. Die in den Zeitbereich transformierten Spektren bilden die Impulsantwort. Als vorteilhaft erweist es sich, wenn die Impulsantwort ein linearphasiges Filter darstellt. Es kann sich weiter als vorteilhaft erweisen, wenn zum Entfernen und/oder Aufprägen des mindestens einen ersten oder zweiten Spektrums der ersten bzw. zweiten spektralen Eigenschaft ein minimalphasiges Filter verwendet wird. Ein solches minimalphasiges Filter kann aus dem linearphasigen Filter durch Cepstraltransformation gewonnen werden.

Eine bevorzugte Ausführungsform der Erfindung sieht vor, dass das mindestens eine erste Spektrum der mindestens einen ersten spektralen Eigenschaft und/oder das mindestens eine zweite Spektrum der mindestens einen zweiten spektralen Eigenschaft gewonnen wird, indem Audiodaten analysiert werden. Bei den zu analysierenden Audiodaten kann es sich beispielsweise um die bereits erwähnten Samples am Anfang bzw. Ende der Variationsbreite der Audiodaten handeln. In diesem Falle würde man z. B. durch die Analyse die Klangfarbe von sehr leisen und/oder sehr tiefen (Anfang der Variationsbreite) bzw. sehr lauten und/oder sehr hohen (Ende der Variationsbreite) erhalten. Vorzugsweise umfasst die Analyse die Ermittlung von Obertönen.

In einer bevorzugten Ausführungsform ist vorgesehen, dass zumindest ein Teil der Analyse im Spektralbereich erfolgt. Vorzugsweise erfolgt die Analyse im Spektralbereich unter Verwendung einer Fourier-Transformation, insbesondere einer Short-Time-Fourier-Transformation (STFT). Dabei können Teile der Audiodaten (Sample) dieser Analyse unterzogen werden, vorzugsweise aber wird die STFT auf das gesamte Sample angewandt.

Eine weitere bevorzugte Ausführungsform der Erfindung sieht vor, dass die Ermittlung der Obertöne anhand von (lokalen) Maxima (Peaks bzw. Spitzen) im Spektrum der Audiodaten erfolgt. Als vorteilhaft erweist es sich, wenn durch zumindest einen Teil der (lokalen) Maxima eine Interpolationskurve gelegt wird. Vorzugsweise bleiben dabei die (lokalen) Maxima auch als (lokalen) Maxima der Interpolationskurve erhalten. Da durch die Maxima die Harmonischen abgebildet werden, wird durch diese Interpolationskurve der Formantcharakter des analysierten Samples erfasst. Zur Gewinnung einer Klangfarbe beispielsweise einer Gitarre können somit Samples von Gitarrenklängen analysiert werden.

Die solcherart gewonnenen Spektren der Klangfarbe, d. h. die ersten oder zweiten Spektren der ersten bzw. zweiten spektralen Eigenschaft, können nun genutzt werden, um, wie oben beschrieben, beispielsweise einem Pianosample die Klangfarbe einer Gitarre aufzuprägen, indem beispielsweise dem Pianosample die Klangfarbe des Pianos entzogen wird durch Entfernen des ersten Spektrums, welches in diesem Falle die spektrale Eigenschaft ,Klangfarbe des Pianos' darstellt, und anschließendem Aufprägen des zweiten Samples, welches die spektrale Eigenschaft ,Klangfarbe der Gitarre' darstellt.

Für jedes Sample lassen sich beliebig viele Spektrale Figerprints definieren, die jeweils den spektralen Charakter eines festgelegten zeitlichen Abschnitts beschreiben.

Für die Gewinnung des normierten Quellsignals kann das Quellsignal, abhängig von seiner Abspielposition, durch eine als jeweils zugehörig definierte gewichtete Kombination der Normierungsfilter der verschiedenen zeitlichen Abschnitte geschickt werden, deren Ausgänge auf einem Normierungsbus zusammengefasst sind. Eine vorteilhafte Ausführung sieht dabei die kontinuierliche Überblendung zwischen zwei benachbarten Abschnitten vor. Vom Normierungsbus aus kann das so normierte Quellsignal in eine beliebige Kombination verschiedener Denormierungsfilter geschickt werden. Die Denormierungsfilter können aus anderen Zielsignalen stammen, jedoch auch aus dem Quellsignal selbst. Kombinationen der Denormierungsfilter können beispielsweise den zeitlichen spektralen Verlauf des Zielsignals abbilden. Dabei ist, wie bei der Normierung, eine zeitliche Überblendung zwischen benachbaren Abschnitten von Vorteil.

Als Beispielanwendung kann hier ein Saxophonklang dienen, mit dem ein Decrescendo gespielt wird. Hier könnten die folgenden vier Fingerprints definiert werden:

  • 1. Direkt am Anfang des Signals bildet sich ein prägnanter Rauschcharakter beim Einschwingen der stationären Grundschwingung aus.
  • 2. Direkt nach dem Einsetzen der lauten, stationären Grundschwingung ist die Klangfarbe recht hell und obertonreich.
  • 3. In der Mitte des Signals zeigt sich die Klangfarbe aufgrund der durch das Decrescendo nachlassenden Lautstärke weniger obertonreich.
  • 4. Kurz vor dem Ende des Klangs ist die Klangfarbe aufgrund der durch das Decrescendo nachlassenden Lautstärke recht dumpf und hat kaum noch Obertöne.

Um ein optimal angepasstes, normiertes Quellsignal zu erhalten, kann das Quellsignal zeitabhängig gewichtet in die zu den verschiedenen Fingerprints gehörenden Normierungsfilter geleitet werden.

Für die Denormierung könnte das Signal nun aus dem Normierungsbus in Echtzeit je nach gewünschtem Effekt zeitabhängig gewichtet zurück in die Denormierungsfilter geleitet werden. Somit könnte beispielsweise mitten im Signal wieder kontinuierlich in den Klangeindruck der Einschwingphase übergeblendet werden.

Statt das Signal in einige wenige Abschnitte zu unterteilen (wie im vorangegangenen Beispiel die Hüllkurvenabschnitte) kann das Signal auch lückenlos über seine gesamte Laufzeit erfasst werden. Dazu werden für alle aneinander grenzenden Zeitabschnitte eigene Spektren erzeugt. Auch kann diese „Spektralabtastung” mit überlappenden Zeitbereichen erfolgen, was eine zeitliche Auflösung weiter erhöht.

In einer weiteren bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass die aus der Fourier-Transformation resultierenden Samples, insbesondere die aus der STFT resultierenden Samples in Leistungsdichtespektren überführt werden. Als vorteilhaft erweist es sich, wenn die Leistungsdichtespektren gemittelt und in ein gemitteltes Spektrum zurück überführt werden. Weiter erweist es sich als vorteilhaft, wenn die Spektraldarstellung der Audiodaten vor der Auswertung der Peaks zur Detektion der Obertöne in ein Constant-Q-Spektrum gewandelt wird. Vorzugsweise erfolgt die Wandlung aus dem gemittelten Spektrum, d. h. dem Ergebnis der Rücküberführung aus den gemittelten Leistungsdichtespektren. Weiter vorzugsweise erfolgt die Wandlung energieerhaltend.

Eine Anordnung nach der Erfindung weist mindestens einen Chip und/oder Prozessor auf und ist derart eingerichtet, dass ein Verfahren zur Verarbeitung von Audiodaten ausführbar ist, wobei mindestens ein erstes Spektrum mindestens einer ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten entfernt und dem Spektrum der Audiodaten mindestens ein zweites Spektrum mindestens einer zweiten spektrale Eigenschaft aufgeprägt wird.

Eine bevorzugte Ausführungsform der Erfindung sieht vor, dass die Anordnung mindestens ein Filter zum Entfernen des mindestens einen ersten Spektrums und/oder mindestens ein Filter zum Aufprägen des zumindest einen ersten Spektrums und/oder des mindestens einen zweiten Spektrums umfasst.

Eine weitere bevorzugte Ausführungsform der Erfindung sieht vor, dass die Ausgänge des mindestens einen Filters zum Entfernen des mindestens einen ersten Spektrums und die Eingänge des mindestens einen Filters zum Aufprägen des zumindest einen ersten Spektrums und/oder des mindestens einen zweiten Spektrums über einen Bus verbunden sind.

Als vorteilhaft erweist es sich ebenfalls, wenn die Anordnung derart eingerichtet ist, dass die Filterung wenigstens zum Teil mittels schneller Faltung im Overlap-Add- und/oder Overlap-Save-Verfahren erfolgt.

Ein Computerprogramm zur Verarbeitung von Audiodaten ermöglicht es einer Datenverarbeitungseinrichtung, nachdem es in den Speicher der Datenverarbeitungseinrichtung geladen worden ist, ein Verfahren zur Verarbeitung von Audiodaten durchzuführen, wobei mindestens ein erstes Spektrum mindestens einer ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten entfernt und dem Spektrum der Audiodaten mindestens ein zweites Spektrum mindestens einer zweiten spektrale Eigenschaft aufgeprägt wird.

In einer weiteren bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass das erfindungsgemäße Computerprogramm modular aufgebaut ist, wobei einzelne Module auf verschiedenen Datenverarbeitungseinrichtungen installiert sind.

Vorteilhafte Ausführungsformen sehen zusätzlich Computerprogramme vor, durch welche weitere in der Beschreibung angegebene Verfahrensschritte oder Verfahrensabläufe ausgeführt werden können.

Solche Computerprogramme können beispielsweise (gegen Gebühr oder unentgeltlich, frei zugänglich oder passwortgeschützt) downloadbar in einem Daten- oder Kommunikationsnetz bereitgestellt werden. Die so bereitgestellten Computerprogramme können dann durch ein Verfahren nutzbar gemacht werden, bei dem ein Computerprogramm nach Anspruch 25 aus einem elektronischen Datennetz, wie beispielsweise aus dem Internet, auf eine an das Datennetz angeschlossene Datenverarbeitungseinrichtung heruntergeladen wird.

Um das erfindungsgemäße Verfahren zur Verarbeitung von Audiodaten durchzuführen, ist vorgesehen, ein computerlesbares Speichermedium einzusetzen, auf dem ein Programm gespeichert ist, das es einer Datenverarbeitungseinrichtung ermöglicht, nachdem es in den Speicher der Datenverarbeitungseinrichtung geladen worden ist, ein Verfahren zur Verarbeitung von Audiodaten durchzuführen, wobei mindestens ein erstes Spektrum mindestens einer ersten spektralen Eigenschaft aus dem Spektrum der Audiodaten entfernt und dem Spektrum der Audiodaten mindestens ein zweites Spektrum mindestens einer zweiten spektrale Eigenschaft aufgeprägt wird.

Mit der Erfindung können somit Klänge in ihrer Klangfarbe dynamisch manipuliert werden, indem ihnen die Klangfarben von anderen Klängen aufgeprägt werden. Dies ermöglicht insbesondere eine Expressionskontrolle durch das Überblenden der Klangfarben von Klängen mit unterschiedlicher Lautstärke, sowie eine Formantkorrektur durch das Überblenden der Klangfarben von Klängen mit unterschiedlicher Tonhöhe.

Die Erfindung stellt eine sehr genaue Formantkorrektur dar, die sich von anderen herkömmlichen Verfahren abhebt, da sie Obertöne deutlich exakter behandelt.

Zusammenfassend lässt sich die Erfindung wie folgt beschreiben:
Jedem Sample ist ein oder sind mehrere Spektren einer spektralen Eigenschaft, im folgenden auch als spektrale Fingerprints bezeichnet, zugeordnet, die die Klangfarbe als spektrale Zustände des Samples beschreiben. Die spektralen Fingerprints werden in einem Analyseschritt ermittelt.

Die Klangfarbenmanipulation geschieht dann in einem zweistufigen Prozess unter Verwendung eines Normierungsfilters und eines Denormierungsfilters.

Dem Quellsample (z. B. ein Sample eines ersten Instruments) wird über ein Normierungsfilter die durch einen spektralen Fingerprint beschriebene Klangfarbe entzogen, indem alle Resonanzen nivelliert werden. Somit ergibt sich ein Signal, dessen Obertöne einen Pegel von etwa 0 dB aufweisen. Der Klangeindruck dieses normierten Samples erinnert an weißes Rauschen, das mit einem Kammfilter gefiltert wurde.

Über ein Denormierungsfilter kann diesem normierten Sample anschließend eine durch einen weiteren spektralen Fingerprint beschriebene Klangfarbe eines Zielsamples (z. B. eines Samples mit einer anderen Klangfarbe, die beispielsweise durch eine andere Anspielstärke hervorgerufen wird, oder eines Samples eines zweiten Instruments) aufgeprägt werden. Hierbei werden die Obertöne auf die für den Klangeindruck charakteristischen Pegel gesetzt.

Spektrale Fingerprints:

Die Gewinnung der spektralen Fingerprints geschieht in einer beispielhaften Ausführungsform über den folgenden Analyseprozess:

  • – Short-Time Fourier Transform (STFT) des gesamten Samples;
  • – Überführung der einzelnen Spektral-Frames in Leistungsdichtespektren (LDS);
  • – Mittelung der LDS unter Vernachlässigung von Frames mit zu geringer Gesamtleistung;
  • – Rücküberführung der gemittelten LDS in ein mittleres Spektrum;
  • – energieerhaltende Überführung des linearen Spektrums in ein Constant-Q-Spektrum;
  • – Obertondetektion als Maxima des Spektrums in festgelegten Bereichen rund um die Vielfachen des Grundtons;
  • – Interpolation der einzelnen Peaks, wobei die Stützstellen exakt wiedergegeben werden.

Die durch diesen Prozess gewonnenen spektralen Fingerprints stellen aus technischer Sicht somit klassische Amplitudenspektren dar, die über bekannte Verfahren der FFT oder Filterung weiterverarbeitet werden können.

(De-)Normierungsfilter

Der Aufbau der zum Normieren und Denormieren verwendeten Filter ist bis auf eine Abweichung in der Verarbeitung der spektralen Fingerprints identisch:

Die Abweichung besteht darin, dass

  • – als Filterspektrum für das Denormierungsfilter das Spektrum des Spectral Fingerprints H(jw) direkt verwendet wird, und
  • – als Filterspektrum für das Normierungsfilter hingegen das invertierte Spektrum des spektralen Fingerprints H(jw)–1 verwendet wird.

Die gleichen Verarbeitungsschritte umfassen folgendes:

  • – das (Filter-)Spektrum wird über eine IFFT in den Zeitbereich zurücktransformiert und bildet die Ausgangsimpulsantwort;
  • – die Ausgangsimpulsantwort wird vorzugsweise um die halbe Blocklänge verschoben, um die Energie der Impulsantwort in der Mitte zu konzentrieren.
  • – Soll die Impulsantwort gekürzt werden, geschieht dies vorzugsweise symmetrisch von den Blockgrenzen her, wenn nötig auch mit einer anschließenden, zusätzlichen Fensterung zur Glättung der Blockgrenzen.
  • – Die so entstandene Impulsantwort stellt ein linearphasiges Filter dar und kann über die reellwertige Cepstraltransformation in ein minimalphasiges Filter überführt werden.

Filterung

Durch die Unterteilung der Filterung in die zwei Schritte der Normierung und Denormierung kann die beschriebene Klangfarbentransformation mit vertretbarem Aufwand durchgeführt werden. Dies erlaubt eine Echtzeitverarbeitung, die bei der Verwendung eines einzelnen Filters unmöglich bzw. nur durch das vorhergehende Berechnen aller möglichen individuellen Transformationsfilter möglich gemacht wird. Dies führt allerdings zu einem Rechenaufwand und Speicherbedarf quadratischer oder höherer Ordnung.

In einer bevorzugten Ausführungsform der Erfindung sind die Filter derart verschaltet, dass die Ausgänge aller Normierungsfilter auf einen Normierungsbus gehen. Dieser Normierungsbus ist mit allen Eingängen der Denormierungsfilter verbunden. Die eigentliche Filterung erfolgt in allen Filtern mittels schneller Faltung, beispielsweise im Overlap-Add oder Overlap-Save Verfahren.

Durch den Aufbau mit Denormierungs- und Normierungsfilter liegt zu jedem Zeitpunkt ein idealerweise rauschartiges Signal auf dem Normierungsbus. Dieses lässt sich in Echtzeit anteilig über jedes andere Denormierungsfilter in eine andere Klangfarbe überführen. Diese Echtzeitfähigkeit ist nur durch den Aufbau mit einem Normierungsbus realisierbar. Wäre dieser Bus nicht vorhanden, müsste jede mögliche Klangfarbentransformation im Vorfeld bekannt sein und in einem eigenen Filter realisiert werden. Dies wäre aufgrund des sich potenzierenden Aufwands jedoch nur sehr eingeschränkt möglich.

Die Qualität der Normierung hängt hierbei von der Konstanz der jeweiligen Klangfarbe ab. So hat beispielsweise ein (De-)Crescendo oder ein starkes Vibrato keine einheitliche Klangfarbe bzw. nur näherungsweise eine einheitliche Klangfarbe. Die Erfindung erlaubt jedoch, durch die oben genannte Verwendung von mehreren Fingerprints in der Normierung beliebig genau zu werden.

Innerhalb eines Samplers kann das erfindungsgemäße Verfahren verwendet werden, um die Übergänge zwischen unterschiedlichen Samples hinsichtlich unterschiedlicher Tonhöhen und unterschiedlicher Anspielstärken zu vereinheitlichen. Klassischerweise werden die Samples innerhalb eines Samplers in einer Sample-Map angeordnet, wobei unterschiedliche Tonhöhen horizontal und unterschiedliche Anspielstärken vertikal angeordnet sind. Im Moment des Tastendrucks sind nun die Tonhöhe und die Anspielstärke klar definiert, so dass ein bestimmtes Sample aus der Map abgespielt werden kann.

Soll das angespielte Sample in seiner Klangfarbe nun in ein anderes Sample überführt werden, wird oftmals eine Überblendung der Zeitsignale verwendet. Dies führt allerdings zu Schwebungen. Um die Klangfarbe anzupassen, werden oftmals auch einfache Hoch- oder Tiefpassfilter verwendet, diese sind den erfindungsgemäßen Normierungs- und Denormierungsfiltern jedoch deutlich unterlegen.

Durch das erfindungsgemäße Verfahren kann über die Sample Map eine zusätzliche Fingerprint-Map gelegt werden. Diese besteht aus Fingerprints, wobei jedem Sample ein oder mehrere Fingerprints zugeordnet ist. Ist nur ein Fingerprint zugeordnet, so beschreibt dieser die Klangfarbe des gesamten Samples, sind mehrere Fingerprints zugeordnet, beschreiben sie jeweils die Klangfarbe eines Signalabschnitts oder Zeitpunkts. Jeder Fingerprint wird hierbei im Vorfeld jeweils in ein Normierungs- und ein Denormierungsfilter überführt.

Wird nun eine Note angespielt steht im Moment des Tastendrucks wie beim herkömmlichen Sampler die Tonhöhe und die Anspielstärke fest. Das diesen Parametern zugrundeliegende Sample wird nun jedoch nicht direkt abgespielt. Vielmehr wird das Quellsignal (zeitabhängig) anteilig in die seiner Position innerhalb der Fingerprint-Map entsprechenden Normierungsfilter gespeist, deren Ausgänge auf dem Normierungsbus zusammenlaufen. Das auf dem Normierungsbus liegende Signal wird anschließend anteilig in die Denormierungsfilter geleitet, die einem beliebigen Punkt innerhalb der Fingerprint-Map am nächsten liegen. Dieser Punkt kann in Echtzeit moduliert werden, was direkt die Klangfarbe überblendet und eine große Stärke des erfindungsgemäßen Verfahrens ausmacht.

Die Erfindung wird nachfolgend unter Bezugnahme auf die Figuren der Zeichnungen an verschiedenen Ausführungsbeispielen näher erläutert.

Es zeigen:

1: Veranschaulichung einer beispielhaften Analyse eines Audiosamples zur Ermittlung eines spektralen Fingerprints,

2a: Veranschaulichung einer beispielhaften Bearbeitung eines Audiosamples, dem zur Gewinnung eines normierten Quellsignals ein Quellfingerprint entzogen wird, und

2b: Veranschaulichung einer beispielhaften Bearbeitung eines normierten Quellsignals, dem zur Gewinnung eines transformierten Quellsignals ein Zielfingerprint aufgeprägt wird.

Anhand von 1 soll die Gewinnung eines spektralen Fingerprints 100 durch ein beispielhaftes Analyseverfahren beschrieben werden.

In einem ersten Schritt wird auf das Eingangssignal 104 eine STFT angewandt (Schritt 106), wodurch ein mittleres Spektrum 108 erzeugt wird. In Schritt 110 werden die einzelnen Spektral-Frames des mittleren Spektrums 108 in Leistungsdichtespektren 112 überführt. In einem anschließenden Schritt 114 werden die Einzelspektren gemittelt und in ein mittleres Spektrum zurück überführt, und in Schritt 116 geglättet und in ein Constant-Q-Spektrum 118 überführt.

In einem nächsten Schritt 120 erfolgt die Detektion der Obertöne als Spitzen (Maxima) des Constant-Q-Spektrums 118. Durch diese Maxima wird in Schritt 122 eine Interpolationskurve gelegt, wobei die Interpolationskurve exakt durch die Maxima als Stützstellen verläuft. Diese Interpolationskurve stellt den spektralen Fingerprint 100 dar.

Bei dem Eingangssignal 104 kann es sich um ein Audiosignal eines beliebigen Klanges oder Instruments handeln. Es kann sich insbesondere um sehr leise, sehr laute, sehr tiefe, sehr hohe Klänge handeln oder allgemein um Klänge, die im wesentlichen an den Grenzen eines Variationsbereiches des Audiosignals bzw. Klanges liegen.

Anhand der 2a und 2b soll nun die Änderung einer spektralen Eigenschaft, beispielsweise durch die Änderung der Anspielstärke, eines Quellsignals 200 näher erläutert werden. Bei dem in 2a dargestellten beispielhaften Quellsignal 200 handelt es sich um einen kräftig gespielten Ton mit vielen Obertönen. Dieses Quellsignal 200 wird in eine Spektraldarstellung 202 überführt. Anschließend wird auf dieses Quellsignal 200 ein Normierungsfilter angewendet, wobei als Filterspektrum das Spektrum 206 des invertierten spektralen Fingerprints des Quellsignals 200 verwendet wird (der Fingerprint 204 selbst ist in 2a zusammen mit der Spektraldarstellung 202 des Quellsignals 200 dargestellt).

Aus der Filterung resultiert ein normiertes Quellsignal 208 mit zugehörigem Spektrum 210. Wie aus der zu entnehmen ist, weisen die Obertöne des Spektrums 210 des normierten Quellsignals 208 einen annähernd einheitlichen Pegel von 0 dB auf. Das Spektrum 210 des normierten Quellsignals 208 kann nun transformiert werden, ohne den Effekt, dass die spektralen Eigenschaften in unerwünschter Weise von der Transformation mit betroffen werden, da sie vorher herausgefiltert wurden. Beispielsweise kann die Lautstärke des Quellsignals 200 verringert werden. Das normierte Quellsignal 208 wird nun unter Verwendung eines Denormierungsfilters gefiltert, wobei als Filterspektrum der spektrale Fingerprint 212 des Zielsignals verwendet wird, dessen Spektrum 214 in 2b wiedergegeben ist. Bei dem Zielsignal kann es sich wie in diesem Beispiel um einen nur schwachgespielten Ton handeln. Im Ergebnis dieser Filterung erhält man das transformierte Quellsignal 216 mit dem zugehörigen Spektrum 218. Das transformierte Quellsignal 216 repräsentiert ein Signal, dem die Klangfarbe eines leise gespielten Tones (Zielsignal) aufgeprägt wurde (in der Abbildung durch die vergleichsweise wenigen Obertöne des transformierten Quellsignals 216 verdeutlicht). Anschließend kann unabhängig vom beschriebenen Verfahren zur Veränderung der Klangfarbe die Lautstärke des transformierten Quellsignals 216 verringert werden.

In einer anderen beispielhaften Ausführungsform ist vorgesehen, auf das normierte Quellsignal 208, das gegebenenfalls durch weitere Bearbeitungsschritte (wie z. B. Lautstärke- oder Tonhöhenänderung) verändert wurde, mindestens zwei Filter anzuwenden, wobei als Filterspektren die Spektren verschiedener Fingerprints verwendet werden. Eine bevorzugte Ausführungsform sieht vor, dass diese Spektren gewichtet werden. Wenn es sich bei der Transformation beispielsweise um die Änderung der Klangfarbe entsprechend einer Lautstärkeänderung handelt, und das transformierten Quellsignal 216 in der Mitte des Variationsbereichs liegen soll, könnten als Filterspektren das Spektrum des Fingerprints des leisesten Tons und das Spektrum des Fingerprints des lautesten Tons verwendet werden, jeweils gewichtet mit ca. 50%.

Die Erfindung beschränkt sich in ihrer Ausführungsform nicht auf die vorstehend angegebenen bevorzugten Ausführungsbeispiele. Vielmehr ist eine Anzahl von Varianten denkbar, die von der erfindungsgemäßen Anordnung und dem erfindungsgemäßen Verfahren sowie dem entsprechenden Computerprogramm und dem entsprechenden computerlesbares Speichermedium auch bei grundsätzlich anders gearteten Ausführungen Gebrauch macht.

Bezugszeichenliste

100
spektraler Fingerprint
104
Eingangssignal
106
Schritt
108
mittleres Spektrum
110
Schritt
112
Leistungsdichtespektren
114
Schritt
116
Schritt
118
Constant-Q-Spektrum
120
Schritt
122
Schritt
200
Quellsignal
202
Spektraldarstellung des Quellsignals
204
spektraler Fingerprint des Quellsignals
206
invertierter spektraler Fingerprint des Quellsignals
208
normiertes Quellsignal
210
Spektrum des normierten Quellsignals
212
Spektrum des spektralen Fingerprints des Zielsignals
214
Spektrum des Zielsignals
216
transformiertes Quellsignal
218
Spektrum des transformierten Quellsignals