Análise de sinais de áudio e voz para reconstrução e reconhecimento
Estudo e Avaliação da Relação Sinal/Ruído a priori em Técnicas de Redução de Ruído...
Análise Condicional para Codificação e Reconhecimento de Sinais de Áudio e Voz
![]() | |
Autor(es): |
Livio Carvalho Sousa
Número total de Autores: 1
|
Tipo de documento: | Dissertação de Mestrado |
Imprenta: | Campinas, SP. |
Instituição: | Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação |
Data de defesa: | 2004-09-24 |
Membros da banca: |
Fábio Violaro;
Carlos Alberto Ynoguti;
Jaime Portugheis;
José Antônio Martins
|
Orientador: | Fábio Violaro |
Resumo | |
Neste trabalho realizou-se o estudo da técnica via "eigenvoices"[13] [16][17][18] [30] [31]para adaptação de locutor em um sistema de reconhecimento de fala contínua usando o português do Brasil. Dentre as várias técnicas utilizadas para a adaptação de locutor, incluindo as clássicas MAP ("Maximum A Posteriori'') e MLLR ("Maximum Likelihood Linear Regression''), uma nova técnica, chamada "eigenvoice technique", foi proposta por Kuhn visando tornar mais rápido o processo de adaptação de locutor para aplicação em sistemas operando em tempo real. No início, estudos se concentraram nas aplicações com palavras isoladas, mas várias pesquisas estão sendo realizadas para a análise dessa técnica em fala contínua, como é o caso deste trabalho. A característica principal da técnica de adaptação via "eigenvoices" é a representação do novo locutor como uma combinação linear de parâmetros ("eigenvoices") obtidos a partir de modelos dependente de locutor previamente treinados. Dessa forma, o novo locutor é representado como um ponto dentro do espaço cujos eixos são formados pelos "eigenvoices". O algoritmo de máxima verossimilhança MLED ("Maximum Likelihood Eigen Decomposition'') foi usado para o cálculo dos coeficientes da combinação linear para a estimação dos parâmetros do novo locutor. Após a realização de testes com número variado de locuções de adaptação e de iterações do algoritmo, foi observado que: para um bom desempenho dos modelos adaptados, 3 a 5 iterações do algoritmo são necessárias; o mais importante não é o número de locuções de adaptação mas sim o seu conteúdo fonético. Em suma, o estudo revelou que a técnica se mostrou eficiente para a aplicação, porém mais pesquisas são necessárias na área (AU) | |
Processo FAPESP: | 02/05206-1 - Adaptação de locutor em sistemas de reconhecimento de fala |
Beneficiário: | Lívio Carvalho Sousa |
Modalidade de apoio: | Bolsas no Brasil - Mestrado |