Adaptation of a speech recognition system across multiple remote sessions with a speaker page

A technique for adaptation of a speech recognizing system across multiple remote communication sessions with a speaker. The speaker can be a telephone caller. An acoustic model is utilized for recognizing the speaker's speech. Upon initiation of a first remote session with the speaker, the acoustic model is speaker-independent. During the first session, the speaker is uniquely identified and speech samples are obtained from the speaker. In the preferred embodiment, the samples are obtained without requiring the speaker to engage in a training session. The acoustic model is then modified based upon the samples thereby forming a modified model. The model can be modified during the session or after the session is terminated. Upon termination of the session, the modified model is then stored in association with an identification of the speaker. During a subsequent remote session, the speaker is identified and, then, the modified acoustic model is utilized to recognize the speaker's speech. Additional speech samples are obtained during the subsequent session and, then, utilized to further modify the acoustic model. In this manner, an acoustic model utilized for recognizing the speech of a particular speaker is cumulatively modified according to speech samples obtained during multiple sessions with the speaker. As a result, the accuracy of the speech recognizing system improves for the speaker even when the speaker only engages in relatively short remote sessions.

Uma técnica para a adaptação de um discurso que reconhece o sistema através das sessões remotas múltiplas de uma comunicação com um altofalante. O altofalante pode ser um chamador do telefone. Um modelo acústico é utilizado reconhecendo o discurso do altofalante. Em cima da iniciação de uma primeira sessão remota com o altofalante, o modelo acústico é altofalante-independente. Durante a primeira sessão, o altofalante é identificado excepcionalmente e as amostras de discurso são obtidas do altofalante. Na incorporação preferida, as amostras são obtidas sem reque o altofalante acoplar em uma sessão do treinamento. O modelo acústico é modificado então baseado nas amostras que dão forma desse modo a um modelo modificado. O modelo pode ser modificado durante a sessão ou depois que a sessão está terminada. Em cima da terminação da sessão, o modelo modificado é armazenado então na associação com uma identificação do altofalante. Durante uma sessão remota subseqüente, o altofalante é identificado e, então, o modelo acústico modificado é utilizado para reconhecer o discurso do altofalante. As amostras de discurso adicionais são obtidas durante a sessão subseqüente e, a seguir, utilizadas para modificar mais mais o modelo acústico. Nesta maneira, um modelo acústico utilizado reconhecendo o discurso de um altofalante particular é modificado cumulativa de acordo com as amostras de discurso obtidas durante sessões múltiplas com o altofalante. Em conseqüência, a exatidão do discurso que reconhece o sistema melhora para o altofalante mesmo quando o altofalante acopla somente em sessões remotas relativamente curtas.