System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech page

The present invention is a system and method for characterizing human (or animate) speech voiced excitation functions and acoustic signals, for removing unwanted acoustic noise which often occurs when a speaker uses a microphone in common environments, and for synthesizing personalized or modified human (or other animate) speech upon command from a controller. A low power EM sensor is used to detect the motions of windpipe tissues in the glottal region of the human speech system before, during, and after voiced speech is produced by a user. From these tissue motion measurements, a voiced excitation function can be derived. Further, the excitation function provides speech production information to enhance noise removal from human speech and it enables accurate transfer functions of speech to be obtained. Previously stored excitation and transfer functions can be used for synthesizing personalized or modified human speech. Configurations of EM sensor and acoustic microphone systems are described to enhance noise cancellation and to enable multiple articulator measurements.

Die anwesende Erfindung ist ein System und eine Methode für das Kennzeichnen der menschliche (oder beleben Sie), Rede geäußerten Erregungfunktionen und der akustischen Signale, für entfernende unerwünschte akustische Geräusche, die häufig, wenn ein Lautsprecher ein Mikrophon in den allgemeinen Klimas benutzt, und für personifizierte oder geänderte menschliches (oder anderes lebendiges) Rede Synthetisierens nach Befehl von einem Steuerpult auftritt. Ein niedriger Energie EM Sensor wird benutzt, um die Bewegungen der windpipe Gewebe in der glottal Region des menschlichen Redesystems vor zu ermitteln, während, und nach geäußerter Rede wird von einem Benutzer produziert. Von diesen Gewebebewegung Maßen kann eine geäußerte Erregungfunktion abgeleitet werden. Weiter liefert die Erregungfunktion Redeproduktion Informationen, um Geräuschabbau von der menschlichen Rede zu erhöhen und sie ermöglicht genauen Übergangsfunktionen der Rede erhalten zu werden. Vorher gespeicherte Erregung- und Übergangsfunktionen können für personifizierte oder geänderte menschliche Rede Synthetisierens verwendet werden. Konfigurationen des EM Sensors und akustische Mikrophonsysteme werden, um Geräuschannullierung zu erhöhen beschrieben und mehrfachen Artikulatormaßen zu ermöglichen.