Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems page

A new speaker provides speech from which comparison snippets are extracted. The comparison snippets are compared with initial snippets stored in a recorded snippet database that is associated with a concatenative synthesizer. The comparison of the snippets to the initial snippets produces required sound units. A greedy selection algorithm is performed with the required sound units for identifying the smallest subset of the input text that contains all of the text for the new speaker to read. The new speaker then reads the optimally selected text and sound units are extracted from the human speech such that the recorded snippet database is modified and the speech synthesized adopts the voice quality and characteristics of the new speaker.

Een nieuwe spreker verstrekt toespraak waaruit vergelijkingssnippets worden gehaald. Vergelijkingssnippets worden met aanvankelijke snippets vergeleken die in een geregistreerd snippet gegevensbestand wordt opgeslagen dat met een concatenative synthesizer wordt geassocieerd. De vergelijking van snippets aan aanvankelijke snippets veroorzaakt vereiste correcte eenheden. Een gulzig selectiealgoritme wordt uitgevoerd met de vereiste correcte eenheden voor het identificeren van de kleinste ondergroep van de inputtekst die de elk van tekst voor de nieuwe spreker om bevat te lezen. De nieuwe spreker leest dan de optimaal geselecteerde tekst en de correcte eenheden worden gehaald uit de menselijke toespraak dusdanig dat het geregistreerde snippet gegevensbestand wordt gewijzigd en de samengestelde toespraak keurt de stemkwaliteit en de kenmerken van de nieuwe spreker goed.