Methods and apparatus for text to speech processing using language independent prosody markup

   
   

Techniques are described for employing a set of tags to model phenomena which are smooth and subject to constraints. Tags may be used to model, for example, muscular movement producing speech. In one advantageous application, a set of tags defining prosodic characteristics is developed, and selected tags are placed in appropriate locations of a body of text. Each tag defines a constraint on the prosodic characteristics of speech produced by processing the text. Processing of the body of speech and the tags produces a set of equations which are solved to produce a curve defining prosodic characteristics over the scope of a phrase, and a further set of equations which are solved to produce a curve defining prosodic characteristics of individual words within a phrase. The data defined by the curves is used with the text to produce speech having the prosodic characteristics defined by the tags. A set of tags may be produced by reading of a training text by a target speaker to produce a training corpus reflecting the prosodic characteristics of the target speaker, and then analyzing the training corpus to generate tags modeling the prosodic characteristics of the training corpus.

Le tecniche sono descritte per impiegare un insieme delle modifiche per modellare i fenomeni che sono regolari e conforme ai vincoli. Le modifiche possono essere usate per modellare, per esempio, il movimento muscolare producendo il discorso. In un'applicazione conveniente, un insieme delle modifiche che definiscono le caratteristiche prosodiche è sviluppato e le modifiche selezionate sono disposte nelle posizioni adatte di un corpo di testo. Ogni modifica definisce un vincolo sulle caratteristiche prosodiche di discorso prodotte procedendo il testo. L'elaborazione del corpo di discorso e delle modifiche produce un insieme delle equazioni che sono risolte per produrre una curva che definisce le caratteristiche prosodiche sopra la portata di una frase e un insieme ulteriore delle equazioni che sono risolte per produrre una curva che definisce le caratteristiche prosodiche di diverse parole all'interno di una frase. I dati definiti dalle curve sono usati con il testo per produrre il discorso che fa definire le caratteristiche prosodiche dalle modifiche. Un insieme delle modifiche può essere prodotto da lettura di un testo di addestramento da un altoparlante dell'obiettivo per produrre un corpus di addestramento che riflette le caratteristiche prosodiche dell'altoparlante dell'obiettivo ed allora analizzante il corpus di addestramento per generare le modifiche che modellano le caratteristiche prosodiche del corpus di addestramento.

 
Web www.patentalert.com

< Method and apparatus for generating a sequence of optical wavelength bands

< Apparatus and method of interleaving data to reduce error rate

> Method and system for reconstructing 3D interactive walkthroughs of real-world environments

> Fault protection for hitless and errorless switching of telecommunications signals

~ 00162