Title:
Method for the reconstruction of low speech frequencies from mid-range frequencies
Kind Code:
B1
Abstract:
Abstract of EP1130577
The method involves determining at least two adjacent frequency components in the speech signal with increased amplitude above a frequency threshold (w0). The fundamental frequency (wg) of the speech signal is determined as the difference between the two or more adjacent frequency components and the low frequency range is reconstructed below the threshold frequency using the determined fundamental frequency. Independent claims are also included for the following: (1) the use of the method in a moving vehicle (2) an arrangement for reconstruction of low frequency speech components.


Inventors:
Schultz, Jürgen (Stettiner Strasse 4, 38554 Weyhausen, DE)
Schaaf, Dr. Klaus (Dorothea-Erxleben-Strasse 29, 38116 Braunschweig, DE)
Application Number:
EP20010102129
Publication Date:
06/06/2007
Filing Date:
02/01/2001
Assignee:
Volkswagen Aktiengesellschaft (38436 Wolfsburg, DE)
International Classes:
G10L21/038
European Classes:
G10L21/02A4E
View Patent Images:
Foreign References:
4091237Bi-Phase harmonic histogram pitch extractor
4700390Signal synthesizer
Claims:
1. Method for reconstruction of low-frequency speech components from medium-level frequency components, - in which at least two frequency components (ωfa1, wfa2, ...) which are arranged adjacent and have an increased amplitude in the speech signal are determined above a cut-off frequency (ω0), and - in which the fundamental frequency (ωg) of the speech signal is determined as the frequency difference between the at least two adjacent frequency components (ωfa1, ωfa2, ...), and - in which the low-frequency frequency range below the cut-off frequency (ω0) is reconstructed with the aid of the determined fundamental frequency (ωg) and the speech signal.

2. Method according to Claim 1, in which the frequencies (ωh1h2, ...) of the harmonics of the fundamental frequency (ωg) which are arranged below the cut-off frequency (ω0) are determined from the fundamental frequency (ωg), and are used together with the fundamental frequency (ωg) for reconstruction of the low-frequency frequency range.

3. Method according to Claim 1, in which the frequency positions of the band filters, with whose aid the speech signal is filtered in- the range below the cut-off frequency (ω0), are set up with the aid of a comb filter, which has a plurality of band filters, on the basis of the fundamental frequency (ωg) and the frequencies of the harmonics which are arranged below the cut-off frequency (ω0).

4. Method according to one of Claims 1 to 3, in which, at the start of a speech section which contains speech, the fundamental frequency (ωg) is determined from the speech signal, and the fundamental frequency (ωg) is then adaptively readjusted.

5. Method according to Claim 4, - in which the frequency (ωr) of a control harmonic is calculated as the N-th harmonic from the instantaneous value of the fundamental frequency (ωg) for adaptive readjustment of the fundamental frequency (ωg), - in which the difference between the frequency (ωr) of the control harmonic and a fixed mixing frequency (ωm) are formed, - in which a sinusoidal signal (sin(ωd)) is produced using the difference or sum frequency (ωd) resulting from the subtraction process, - in which the sinusoidal signal (sin (ωd)) is mixed with the speech signal and a mixed signal is produced, - in which the frequency-dependent power distribution in the mixed signal is fixed with respect to the fixed mixing frequency (ωm), - in which a correction value (Δω) for the frequency (ωr) of the control harmonic is calculated from the power distribution, - in which the frequency (ωr) of the control harmonic is changed by the correction value (Δω), and is supplied to a mixing process once again, with the fixed mixing frequency (ωm), and - in which the fundamental frequency (ωg) which corresponds to the corresponding fraction 1/N of the frequency (ωr) is emitted.

6. Method according to Claim 5, in which, in order to determine the power distribution, the mixed signal is supplied to a plurality of band filters (BFn), which cover adjacent frequency ranges, centred about the fixed mixing frequency.

7. Method according to one of Claims 1 to 6, in which the amplitude of the at least one frequency signal which is produced below the cut-off frequency is determined as a function of the amplitudes of the frequency signals which are analysed above the cut-off frequency.

8. Method according to one of Claims 1 to 7, in which the cut-off frequency is determined as a function of the noise level.

9. Method according to one of Claims 1 to 8, in which the speech signal is subjected to an interference-signal removal process before conversion to a spectrogram.

10. Use of a method according to one of Claims 1 to 9 for reproduction of a speech signal which has been recorded in a moving motor vehicle.

11. Use of a method according to one of Claims 1 to 9 for reproduction of a speech signal which is transmitted by means of a telephone link.

12. Apparatus for reconstruction of low-frequency speech components from medium-level frequency components, in particular for carrying out a method according to one of Claims 1 to 11, and - having means (4) for determination of frequency components (ωfa1, ωfa2, ...) of maxima in the speech signal above a predetermined cut-off frequency (ω0), - having means (8) for mixing of the frequency components (ωfa1, ωfa2, ...) for determination of the fundamental frequency (ωg) of the speech signal as the difference frequency between two respectively adjacent frequency components (ωfa1, ωfa2, ...), and - having means (12) for reconstruction of the speech signal below the cut-off frequency (ω0) from the determined fundamental frequency (ωg) and the speech signal.

13. Apparatus according to Claim 12, characterized in that the means (12) for reconstruction of the speech signal below the cut-off frequency (ω0) determine the spectrogram from the fundamental frequency (ωg) and the frequencies (ωh1, ωh2, ...) of those harmonics of the fundamental frequency (ωg) which are arranged below the cut-off frequency (ω0) with a predetermined spectral distribution and a predetermined amplitude distribution.

14. Apparatus according to Claim 12, characterized in that the means (12) have a comb filter with a plurality of band filters, with the frequencies of the band filters being variable on the basis of the fundamental frequency (ωg) and, possibly, one or more harmonics of the fundamental frequency (ωg) which are arranged below the cut-off frequency (ω0).

15. Apparatus according to one of Claims 12 to 14, characterized in that the following items are provided for adaptive readjustment of the fundamental frequency (ωg): - a multiply element (24) for production of the N-th harmonic of the fundamental frequency as the frequency (ωr) of a control harmonic, - a mixing element (28) for mixing of the frequency (ωr), of the control harmonic with a fixed mixing frequency (ωm), - a sine-wave generator (30) for' mixing of the difference or sum frequency (ωd) which results from the mixing process, - a mixing element (32) for mixing of the sinusoidal signal (sin (ωd)) with the speech signal and for production of a mixed signal, - a control element (34) for fixing the frequency-dependent power distribution in the mixed signal with respect to the fixed mixing frequency (ωm) and for calculation of a correction value (Δω) for the frequency (ωr) of, the control harmonic from the power distribution, - a mixing element (36) for variation of the frequency (ωr) of the control harmonic by the correction value (Δω), and - having a multiply element (38) for calculation of the fraction 1/N of the frequency (ωr) as the fundamental frequency (ωg).

16. Apparatus according to Claim 15, characterized in that the control element (34) has a plurality of band filters, which cover adjacent frequency ranges centrally with respect to the mixing frequency (ωm).

Description:

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen.

Im Stand der Technik der digitalen Verarbeitung von Sprachsignalen mit einem hohen Lärmpegel im tieffrequenten Bereich wird das Signal dadurch verbessert, daß entweder Störanteile herausgefiltert werden oder sehr stark gestörte Frequenzbereich aus dem Signal vollständig herausgefiltert werden.

Aus der US 5,842,160 A ist ein Verfahren zur Verbesserung der Qualität einer digitalen Sprachübertragung bekannt, bei dem verschiedenen Frequenzbändern je nach Energiegehalt verschiedene Datenmengen zugeordnet werden. Durch die Art der Kodierung und Übertragung entstehen niederenergetische Signalbereiche, die zu Lücken im empfangenen Signalspektrum führen. Diese Lücken werden durch synthetisch aus den vorhandenen Daten gewonnenen Signale gefüllt, so daß ein natürlicher klingendes Sprachsignal erreicht wird.

Aus der US 4,091,237 A ist ein Verfahren zur Ermittlung der Stimmgrundfrequenz eines digitalen Sprachsignals in Echtzeit bekannt. Speziell für Signale mit einem eingeschränkten Frequenzbereich, wie Telefonsignale, und mit einem hohen Störgeräuschanteil wird das Sprachsignale verbessert, indem Störgeräusche ausgefiltert werden. Das Signal wird durch eine Mehrzahl von Bandpaßfiltern aufgesplittet und ein entsprechendes Histogramm gebildet, aus dem die Stimmgrundfrequenz extrahiert wird. Ist die Grundfrequenz bekannt, können Störgeräusche daran erkannt werden, daß sie in keinem harmonischen Verhältnis zur Grundfrequenz stehen. Das zuvor beschriebene Verfahren dient dazu, die für eine Stimme charakteristische Grundfrequenz zu bestimmen.

Weiterhin ist aus der DE 37 33 983 ein Verfahren zum Dämpfen von Störsignalen in einem Hörgerät bekannt, bei dem das Signal digitalisiert und in einzelne Frequenzbereiche aufgeteilt wird. Frequenzbereiche mit bestimmten Charakteristika, wie schnelle oder sehr langsame Spektralverteilungsänderungen, werden gedämpft und/oder es werden die Grenzfrequenzen verschoben. Das so gereinigte Signal wird in synthetische Sprachsignale umgewandelt.

Weiterhin ist aus 4,700,390 A ein Verfahren zur Rekonstruktion tieffrequenter Audioanteile aus einem Audiosignal bekannt.

Den zuvor beschriebenen Verfahren und den damit verbundenen Vorrichtungen liegt der Nachteil zugrunde, daß das Sprachsignal gar nicht oder nur in unzureichender Form rekonstruiert wird, um ein möglichst natürliches Ausgangssprachsignal zu erzeugen.

Die zuvor dargestellten Verfahren können unter anderem bei der digitalen Sprachverstärkung (digital voice enhancement - DVE) eingesetzt werden. Beispielsweise sind oberhalb jeder Sitzreihe in einem Kraftfahrzeug zwei Mikrophone angebracht, so daß es bspw. allen Fahrzeuginsassen ermöglicht wird, sich an einem Telefongespräch zu beteiligen. Das System überträgt dazu die Sprache, die vorn durch das Mikrophon aufgenommen wurde, auf die hinteren Serienlautsprecher und umgekehrt. Das System ist somit voll mit dem Freisprechtelefon und dem Radio/CD/Navigationsgerät gekoppelt. Es verbessert insbesondere bei schneller Fahrt die Verständigung innerhalb des Fahrzeuges deutlich.

Der Pegel des Fahrzeuginnengeräusches steigt zu tiefen Frequenzen sehr stark an, so daß die Sprache dort vom Lärm überdeckt wird. Um durch das DVE-System möglichst wenig Umgebungslärm zu übertragen, denn dadurch würde der Innenlärmpegel unnötig erhöht, werden bei einem Teil der oben beschriebenen Verfahren alle Frequenzen je nach Geschwindigkeit unterhalb von bspw. 200 bis 500 Hz abgeschnitten. Die Folge ist, daß die Sprachgrundfrequenz und die ersten Vielfachen (Harmonischen) im übertragenen Signal fehlen. Die Sprache klingt somit telefonartig, da typischer Weise ein Telefonnetz eine Klangübertragung nur oberhalb von 350 Hz ermöglicht.

Neben der Nutzung eines Freisprechtelefons kann mit den Verfahren auch die Sprachverständigung innerhalb des Fahrzeuges durchgeführt werden. Dabei ist jedoch eine optimale Klangqualität erforderlich, um eine Akzeptanz bei den Käufern zu erzielen.

Insbesondere bei den Verfahren, die die Sprache von Störgeräuschen befreien, z. B. spektrale Subtraktion oder Kohärenzfiltern, kommt es dazu, daß die Varianz der Frequenzkomponete von Rauschen in die Größenordnung der Leistung des Sprachsignals kommt. Somit ist eine effektive Rauschunterdrückung nicht mehr möglich und die angewendeten Verfahren greifen nicht mehr.

Der Erfindung liegt daher das technische Problem zugrunde, das aus dem Stand der Technik bekannte Verfahren sowie die zugehörige Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen dahingehend weiterzubilden und auszugestalten, daß für eine Wiedergabe des gestörten Sprachsignals eine möglichst naturgetreue Wiedergabe ermöglicht wird.

Das zuvor aufgezeigte technische Problem wird durch ein Verfahren mit den Merkmalen des Anspruches 1 gelöst. Zunächst werden oberhalb einer Grenzfrequenz mindestens zwei benachbart angeordnete Frequenzanteile mit erhöhter Amplitude im Sprachsignal bestimmt. Danach wird die Grundfrequenz des Sprachsignals als Frequenzdifferenz zwischen den mindestens zwei benachbarten Frequenzanteilen bestimmt. Schließlich wird mit Hilfe der ermittelten Grundfrequenz und des Sprachsignals der tieffrequente Frequenzbereich unterhalb der Grenzfrequenz rekonstruiert. Das somit erzeugte synthetische Sprachsignal kann dann über eine Wiedergabevorrichtung direkt wieder ausgegeben werden oder für ein späteres Aussenden gespeichert werden.

Mit anderen Worten werden tieffrequente Signalanteile des Sprachsignals synthetisch erzeugt, also rekonstruiert, und den restlichen aufgenommenen Sprachsignal zugemischt. Die Rekonstruktion der tieffrequenten Sprachanteile geschieht dabei auf der Grundlage der nicht ausgefilterten Sprachsignale. Dazu wird ausgenutzt, daß die tieffrequenten Sprachanteile von höherfrequenten Anteilen der Harmonischen begleitet sind, so daß sich die fehlenden Anteile aus dem verbleibenden Signal abschätzen lassen.

In bevorzugter Weise werden neben der Grundfrequenz auch die Frequenzen der unterhalb der Grenzfrequenz angeordneten Harmonischen der Grundfrequenz bestimmt und neben der Grundfrequenz für eine Rekonstruktion des tieffrequenten Frequenzbereiches verwendet. Somit wird aus dem spektral ausgewerteten Abschnitt des Sprachsignals die maximale Information bezüglich des ungestörten Sprachsignals ausgenutzt. Die für die Rekonstruktion herangezogenen Frequenzen werden mit einer jeweiligen Spektralverteilung und einer vorgegebenen Amplitude zu einem synthetischen Spektrum zusammengesetzt, das den Frequenzbereich unterhalb der Grenzfrequenz im Sprachsignal entspricht. Aus diesem Frequenzabschnitt und dem Sprachsignal oberhalb der Grenzfrequenz wird dann das rekonstruierte Sprachsignal zusammengesetzt. Der tieffrequente Sprachanteil weist somit kein Rauschsignal mehr auf, da es ausschließlich aus Frequenzanteilen des Sprachsignals zusammengesetzt ist.

In einer weiteren Ausgestaltung der Erfindung kann der tieffrequente Sprachanteil auch direkt aus dem Sprachsignal ermittelt werden. Dazu wird ein aus mehreren Bandfiltern bestehendes Kammfilter auf der Basis der Grundfrequenz und der Frequenzen der unterhalb der Grenzfrequenz angeordneten Harmonischen eingerichtet, wobei die Frequenzpositionen der einzelnen Bandfilter den Grenzfrequenzen und der Harmonischen entsprechen. Mit Hilfe des Kammfilters wird dann das Sprachsignal im Bereich unterhalb der Grenzfrequenz gefiltert, wodurch die Signalanteile durchgelassen werden, die zum eigentlichen Sprachsignal gehören. Auch in dieser Weise ist eine Rekonstruktion eines weitgehend ungestörten Sprachsignals im tieffrequenten Bereich des Sprachsignals möglich.

Entscheidend für die Qualität der Rekonstruktion des tieffrequenten Sprachanteils ist die Genauigkeit der ermittelten Grundfrequenz des Sprachsignals. Da sich die Grundfrequenz während des Sprechens aufgrund der Satzmelodie laufend verändert, wird eine weitere Verbesserung des Verfahrens dadurch erreicht, daß zu Beginn eines Sprache enthaltenen Sprachabschnittes aus dem Sprachsignal die Grundfrequenz bestimmt wird und anschließend diese adaptiv nachgeführt wird. Somit wird im zeitlichen Verlauf des Sprachsignals jeweils die aktuelle Grundfrequenz bestimmt, so daß die Rekonstruktion des Sprachsignals möglichst genau an den Stimmverlauf angepaßt werden kann. Ein Ausführungsbeispiel einer solchen adaptiven Nachführung wird weiter unten im Detail erläutert.

In weiter bevorzugter Weise wird die Amplitude des mindestens einen unterhalb der Grenzfrequenz erzeugten Frequenzsignals in Abhängigkeit von den Amplituden der oberhalb der Grenzfrequenz analysierten Frequenzsignale bestimmt. In weiter bevorzugter Weise können dabei typische Amplitudenverläufe von Sprachsignalen Anwendung finden, um nicht nur in den Frequenzanteilen, sondern auch in der Amplitudenverteilung der Frequenzanteile eine möglichst genaue Anpassung an ein natürliches Sprachsignal zu erreichen.

Weiter ist bevorzugt, daß die Grenzfrequenz in Abhängigkeit vom Geräuschpegel, also insbesondere von der Größe des Störsignals bestimmt wird. Somit ist es bei niedrigem Störsignalpegeln bspw. nur erforderlich, den Sprachsignalanteil unterhalb von 200 Hz zu rekonstruieren, während es bei hohen Störsignalpegeln notwendig ist, daß Sprachsignal im Frequenzbereich unterhalb von 500 Hz zu rekonstruieren. Bei einer Anwendung des Verfahrens in einem fahrenden Kraftfahrzeug kann die Grenzfrequenz auch in Abhängigkeit von der Fahrgeschwindigkeit bestimmt werden.

Weiterhin besteht eine Weiterbildung darin, daß das Sprachsignal vor einer Umwandlung einer Störsignalbefreiung unterzogen wird. Dabei können die herkömmlichen aus dem Stand der Technik bekannten Verfahren angewendet werden, um eine Vorbehandlung des Sprachsignals durchzuführen. Die Sprachanteile treten dann im Spektrum deutlicher hervor und können eindeutiger und somit genauer erkannt und rekonstruiert werden.

Eine Anwendung des zuvor beschriebenen Verfahrens besteht darin, in einem fahrenden Kraftfahrzeug aufgenommene Sprachsignale wiederzugeben, um dabei einen möglichst natürlichen Spracheindruck wiederzugeben.

Eine weitere Anwendung des erfindungsgemäßen Verfahrens besteht darin, ein mittels einer Telefonverbindung übertragenes Sprachsignal wiederzugeben. Das zugrunde liegende Problem besteht dabei darin, daß die Sprachsignale bei Telefonverbindungen im Frequenzbereich unterhalb von 350 Hz keine Informationen enthalten. Daher muß für eine naturgetreue Wiedergabe des Sprachsignals der tieffrequente Sprachanteil aus dem Frequenzbereich oberhalb von 350 Hz rekonstruiert werden. Dieses kann in besonders vorteilhafter Weise durch das erfindungsgemäße Verfahren durchgeführt werden.

Gemäß einer weiteren Lehre der vorliegenden Erfindung wird das oben dargestellte technische Problem auch durch eine Vorrichtung mit den Merkmalen des Anspruches 12 gelöst, während in den Ansprüchen 13 bis 16 vorteilhafte Ausgestaltungen angegeben werden. Die Vorrichtung und das damit durchgeführte Verfahren werden im folgenden anhand von Ausführungsbeispielen näher erläutert, wobei auf die beigefügte Zeichnung bezug genommen wird. In der Zeichnung zeigen

Fig. 1
eine spektrale Innengeräuschverteilung in einem fahrenden Kraftfahrzeug für unterschiedliche Fahrgeschwindigkeiten,
Fig. 2
ein Spektrogramm eines im tieffrequenten Bereich von einem Störsignal überlagerten Sprachsignals,
Fig. 3
ein Spektrogramm des in Fig. 2 dargestellten Sprachsignals ohne Störsignal,
Fig. 4
ein Spektrogramm des in Fig. 3 dargestellten Sprachsignals ohne Frenquenzanteile unterhalb der Grenzfrequenz von ca. 400 Hz,
Fig. 5
ein Spektrogramm der im Spektralbereich unterhalb der Grenzfrequenz von ca. 400 Hz rekonstruierten Sprachanteile,
Fig. 6
das vollständige rekonstruierte Sprachsignal entsprechend dem in Fig. 3 dargestellten Sprachsignal ohne Störsignalanteil,
Fig. 7
ein Blockschaltbild eines Ausführungsbeispiels einer erfindungsgemäßen Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen,
Fig. 8
eine Einrichtung zur adaptiven Nachführung der Grundfrequenz und
Fig. 9
die spektrale Verteilung der Kennlinien der Bandfilter des Regelelementes zum Feststellen der frequenzabhängigen Leistungsverteilung im Mischspektrum in Bezug auf die feststehende Mischungsfrequenz von 2000 Hz.

In den Fig. 1 und 2 ist der Ausgangspunkt der vorliegenden Erfindung dargestellt.

Fig. 1 zeigt ein Frequenz-Amplituden-Diagramm des Innengeräuschpegels in einem fahrenden Kraftfahrzeug für unterschiedliche Geschwindigkeiten zwischen 60 Km/h und 160 Km/h. Bei dieser Darstellung fällt auf, daß insbesondere bei niedrigen Frequenzen unterhalb von ca. 500 Hz der Innengeräuschpegel im Vergleich zu den sonstigen Frequenzen des Innengeräuschsignals stark ansteigt. Da jedoch bei normaler Stimmlage die Grundfrequenz und die ersten Harmonischen zur Grundfrequenz im Frequenzbereich unter 1000 Hz und insbesondere unterhalb 500 Hz liegen, ist eine Bestimmung, also ein Herausfiltern des Sprachsignals aus dem Innenraumgeräuschsignal erheblich erschwert.

Fig. 2 zeigt ein Sprachsignal, das von einem Untergrundsignal überlagert worden ist, in einer Zeit-Frequenz-Darstellung als Spektrogramm. Dieses Spektrogramm wird bspw. durch eine Fouriertransformations (FFT) aus einem Mikrofonsignal erhalten. In Fig. 2 kennzeichnen unterschiedliche Grauwerte der Einzelsegmente des Spektrogramms unterschiedliche Intensitäten. Man erkennt einerseits deutlich die ansteigende Intensität (hellere Grauwerte) im Bereich kleiner Frequenzen zum Wert gleich Null hin und andererseits schmalbandige Frequenzanteile, die weitgehend parallel zueinander über kurze Zeitabschnitte verlaufen. Diese letztgenannten schmalbandigen Frequenzanteile stellen Harmonische der Grundfrequenz des entsprechenden Sprachsignals dar, die - wie im folgenden beschrieben - erfindungsgemäß ausgewertet werden.

Fig. 3 zeigt ein Spektrogramm des in Fig. 2 dargestellten Sprachsignals ohne das Untergrundgeräusch, so daß auch die tieffrequenzen Sprachanteile als schmalbandige Frequenzanteile im Spektrogramm unterhalb von 500 Hz zu erkennen sind. Diese Sprachanteile gilt es zu rekonstruieren.

Fig. 4 zeigt weiterhin das zuvor dargestellte Sprachsignal, bei dem die Sprachanteile unterhalb einer Grenzfrequenz von ca. 400 Hz abgeschnitten sind. Ein derartiges Signal entspricht ungefähr dem Sprachsignal, wie es bei einer Telefonverbindung übertragen wird.

Fig. 5 zeigt ein Beispiel eines rekonstruierten Sprachsignals im Bereich unterhalb der Grenzfrequenz von ca. 400 Hz und Fig. 6 zeigt das zusammengesetzte rekonstruierte Sprachsignal aus dem in Fig. 5 dargestellten rekonstruierten Sprachanteil und dem in Fig. 4 dargestellten Frequenzanteil oberhalb der Grenzfrequenz des ursprüngliche Spektrums. Wie die rekonstruierten Sprachanteile erhalten werden, wird im folgenden anhand der Fig. 7 bis 9 im Detail beschrieben.

Fig. 7 zeigt in einem Blockschaltbild eine Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen. Das Sprachsignal wird einem Mittel 4 zur Bestimmung von Frequenzanteilen ωfa1, ωfa2, ... von Maxima im Sprachsignal oberhalb einer vorgegebenen Grenzfrequenz ω0 zugeleitet. Dazu wird das Sprachsignal zunächst durch ein Bandfilter 6 geleitet, so daß nur die Frequenzanteile zwischen der Grenzfrequenz ω0 und einer weiteren Frequenz ω1 herausgeschnitten und einer Weiterverarbeitung zugeleitet wird. ω0 liegt dabei beispielsweise im Bereich von 200 bis 500 Hz, insbesondere bei 350 Hz, während die Frequenz ω1 bspw. im Bereich von 800 Hz liegt. Der so ausgefilterte Frequenzabschnitt des Sprachsignals wird im Mischelement 8 gemischt, so daß die Summen- und Differenzfrequenzen der im herausgeschnittenen Abschnitt des Sprachsignals enthaltenen Frequenzanteile gebildet werden. Von Interesse sind dabei die Differenzfrequenzen, so daß das aus dem Mischelement 8 austretende Signal mittels eines Tiefpasses bearbeitet wird, so daß nur Frequenzanteile unterhalb einer einstellbaren Frequenz ω2 durchgelassen werden. Somit läßt sich die kleinste Differenzfrequenz bestimmen, die dem Abstand zweier im Sprachsignal benachbart zueinander angeordneter Spektralanteile entspricht. Da es sich dabei um zwei Harmonische der Grundfrequenz handelt, stellt die Differenzfrequenz die Grundfrequenz ωg dar. Diese Grundfrequenz wird anschließend Mitteln 12 zur Rekonstruktion des Sprachsignals zugeleitet. Über einen weiteren Eingang der Mittel 12 wird das Sprachsignal über eine Verzögerungsstufe 14 und einen Tiefpaß 16 zugeführt. Somit liegt den Mitteln 12 sowohl der Wert der Grundfrequenz ωg als auch ein vorgegebener Frequenzabschnitt des Sprachsignals für eine Rekonstruktion des die Sprache enthaltenden Signals zur Verfügung. Die Verzögerungsstufe 14 dient dabei einem Ausgleich der Zeitspanne Δt, die für die Bestimmung der Grundfrequenz ωg benötigt wird und der Tiefpaß 16 dient einer sinnvollen Verringerung der Datenmenge, die den Mitteln 12 zur Rekonstruktion des Sprachsignals zugeleitet wird.

Die Mittel 12 zur Rekonstruktion des Sprachsignals unterhalb der Grenzfrequenz ω0 weist schaltungstechnisch zwei Alternativen von Verfahrensweisen auf.

Als erste Alternative wird die Grundfrequenz ωg herangezogen, um ein Signal im rekonstruierten Sprachsignal zu erzeugen, das dem Grundton der Sprache entspricht. Darüber hinaus können auch die Frequenzen der Harmonischen zur Grundfrequenz ωg durch einfaches Multiplizieren mit den Zahlen N = 2, 3, 4,... ermittelt werden, so daß für eine Rekonstruktion des Sprachanteils unterhalb der Grenzfrequenz ω0 neben der Grundfrequenz ωg auch die unterhalb der Grenzfrequenz ω0 angeordneten Frequenzen ωh1, ωh2, ... der ersten, zweiten und weiteren Harmonischen verwendet werden. Ziel ist es dabei, sämtliche Harmonischen im zu rekonstruierenden Frequenzabschnitt des Sprachsignals zu erzeugen, also zu simulieren. Für eine spektrale Verteilung um jede dieser Frequenzen wird in Näherung eine Gauß'schen Verteilung oder eine andere mögliche spektrale Verteilung angenommen, die sich über eine Halbwertsbreite und eine Amplitude definieren läßt. Dadurch lassen sich die in Fig. 5 dargestellten spektralen Abschnitte im Spektrogramm erzeugen, die bei dem in Fig. 2 dargestellten verrauschten Signal nicht oder nur ansatzweise zu erkennen sind.

Als weitere Alternative für eine Rekonstruktion des tieffrequenten Sprachanteils besteht die Möglichkeit, daß die Mittel 12 einen Kammfilter aufweisen, der eine Mehrzahl von Bandfiltern aufweist, deren spektrale Durchlaßfunktionen durch die Grundfrequenz ωg und die Frequenzen ωh1, ωh2, ... bestimmt werden. Die spektrale Durchlaßfunktion jedes Bandfilters wird zudem über eine vorgegebene Breite definiert, so daß entsprechende spektrale Abschnitte aus dem Sprachsignal im Bereich tiefer Frequenzen unterhalb der Grenzfrequenz ω0 herausgefiltert werden. Da aus dem Spektrogramm nur die Anteile herausgefiltert werden, die das Sprachsignal enthalten, wird das Sprachsignal aus dem Spektrogramm rekonstruiert. Wird dabei zusätzlich eine Rauschunterdrückung durchgeführt, so werden aus den herausgefilterten Signalanteilen auch die Untergrundgeräusche herausgefiltert, so daß ein nahezu natürliches Sprachsignal erzeugt wird.

Wie weiterhin in Fig. 7 zu erkennen ist, wird das Sprachsignal über eine weitere Verzögerungsstufe 18 um eine Zeitdifferenz Δt verzögert, um eine Anpassung an die für Rekonstruktion des tieffrequenten Sprachanteils notwendige Zeitspanne zu ermöglichen. Nach Durchlaufen einen Hochpasses 20, in dem das Sprachsignal oberhalb der Grenzfrequenz ω0 herausgefiltert wird, laufen sowohl dieses hochpaßgefilterte Signal als auch das rekonstruierte Sprachsignal für Frequenzen ω<ω0 in dem Summenelement 22 zusammen, woraus das in Fig. 6 dargestellte rekonstuierte Spektrogramm erzeugt wird. Dieses Spektrogramm besteht also einerseits aus dem unterhalb der Grenzfrequenz ω0 rekonstruierten Frequenzanteil sowie aus dem ursprünglichen Frequenzspektrum oberhalb der Grenzfrequenz ω0. Das so erzeugte Spektrogramm führt nach einer Umwandlung in ein Lautsprechersignal zu einer nahezu natürlich klingenden Sprachwiedergabe.

Wie bereits oben erläutert worden, bleibt im allgemeinen die Grundfrequenz ωg in einem Sprachsignal aufgrund der Sprachmelodie nicht konstant. Daher ist es erforderlich, ständig die Grundfrequenz ωg neu zu bestimmen. Dieses kann einerseits dadurch geschehen, daß ständig das zuvor beschriebenen Verfahren durchlaufen wird, das anhand der Elemente 4, 6, 8 und 10 zuvor beschrieben worden ist. Zum anderen kann jedoch eine genauere adaptive Nachführung der Grundfrequenz ωg durchgeführt werden. Dieses ist mit einer Vorrichtung möglich, die in Fig. 8 dargestellt ist.

Die zu Beginn eines Sprachsignals zunächst bestimmte Grundfrequenz ωg,0 wird mit Hilfe eines Multiplikationselementes 24 auf den N-fachen Wert multipliziert. Somit wird die (N-1)te Harmonische zur Grundfrequenz berechnet. Die Frequenz dieser Harmonischen wird im folgenden als Regelharmonische bezeichnet und die zugehörige Frequenz mit ωr bezeichnet.

Die Frequenz ωr wird über einen Mehrtorschalter in einen Regelkreis eingebracht. In einer Initialisierungsphase zu Beginn eines Wortes wird der Ausgang des Multiplikationselementes 24 vom Mehrtorschalter 26 an das Mischelement 28 übergeben. Nach kurzer Zeit liegt - wie im folgenden beschrieben - ein Schätzwert ωr, neu vor und der Mehrtorschalter 26 wird so umgeschaltet, daß ωr, neu an das Mischelement 28 weitergegeben wird.

Ziel des Regelkreises besteht darin, die Differenz zwischen der (N-1)ten Harmonischen und einer festen Frequenz von bspw. ωm =2000 Hz zu bestimmen. Im Idealfall ist ωr exakt die Frequenz der (N-1)ten Harmonischen. Das Mischelement 28 bildet die Differenz zwischen ωr und ωm. Ein Sinusgenerator erzeugt ein sinusförmiges Signal mit der Frequenz, die durch sein Eingangssignal ωd vorgegeben wird. Dieses wird einem Mischelement 32 zugeleitet, das das Sprachsignal und dieses sinusförmige Signal mischt. Nach erfolgter Mischung wird aus dem Mischelement 32 das gemischte Signal ausgegeben, das einem Regelelement 34 zum Feststellen der frequenzabhängigen Leistungsverteilung im Mischsignal in Bezug auf die feststehende Frequenz ωm zugeleitet wird.

Unter der Annahme, daß die dem Mischelement 28 zugeführte Frequenz ωr der Regelharmonsichen genau zu einer Harmonischen im aktuellen Sprachsignal paßt, entspricht die Summe aus der Differenzfrequenz ωd, die durch die Differenz mit der feststehenden Mischungsfrequenz ωm und ωr erzeugt worden ist, und einem der Regelharmonischen entsprechenden Frequenzanteils des Sprachsignals genau der Mischungsfrequenz ωm. Dieses spiegelt sich in einer Leistungsverteilung (P-Verteilung) im Leistungsspektrum wider. Die Leistungsverteilung wird bei der Mischungsfrequenz ωm maximal sein.

Entspricht die Frequenz ωr der Regelharmonischen jedoch nicht der aktuellen Frequenz der entsprechenden Harmonischen im Sprachsignal, so wird die Leistungsverteilung ihr Maximum nicht bei der Frequenz ωm, sondern bei einer um einen Differenzwert Δω verschobene Positionen annehmen. Somit läßt sich ein Korrekturwert zu Δω bestimmen, der dem aktuellen Wert der Frequenz ωr der Regelharmonischen hinzu addiert wird. Daraus entsteht der neue Wert der Frequenz ωr,neu, der über den Multiportschalter 26 der Regelschleife erneut zugeführt wird. Anschließend erfolgt erneut eine Mischung im Mischelement 28 mit nachfolgender Regelabfolge, wie sie zuvor beschrieben worden ist. Ändert sich somit im Laufe des Sprachsignals die Grundfrequenz und somit auch die Frequenz der entsprechenden Harmonischen im Sprachsignal, so wird dieses durch die Regelschleife ausgeglichen, so daß ständig ein aktueller, mit der Grundfrequenz ωr weitgehend übereinstimmender Wert ωr erzeugt.

Fig. 9 zeigt dazu die Kennlinien einer Mehrzahl von Bandfiltern, die für eine Bestimmung der Leistungsverteilung im Regelelement 34 vorgesehen sind. Aus Fig. 9 ergibt sich eine Anzahl von 7 Bandfiltern, die um die feststehende Mischfrequenz ωm = 2000 Hz herum angeordnet sind. Fällt also beispielsweise die maximale Leistung in den Durchlaßbereich des mittleren Bandfilters, so wird der Korrekturwert Δω=0 gesetzt. Liegt dagegen das Maximum in einem der benachbart angeordneten Bandfilter, so wird ein entsprechender Korrekturwert Δω≠0 erzeugt, um bei weiter fortgeführter Regelung das Maximum der spektralen Leistungsverteilung in den Durchlaßbereich des mittleren Bandfilters zu verschieben.

Der Wert ωr wird aus der Regelschleife über ein Multiplikationselement 38 abgezweigt und ausgegeben, in dem die aktuelle Frequenz ωr mit dem Faktor 1/N beaufschlagt wird, um den Wert der Grundfrequenz ωg,adapt zu erzeugen. Somit wird der Wert der Grundfrequenz ωg ständig adaptiv nachgeführt, wodurch die Rekonstruktion des tieffrequenten Sprachanteils aus den mittelhohen Frequenzanteilen verbessert und näher an ein natürliches Sprachsignal herangeführt wird.