Busca avançada
Ano de início
Entree


Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe

Texto completo
Autor(es):
Paulo Rogério Scalassara
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Carlos.
Instituição: Universidade de São Paulo (USP). Escola de Engenharia de São Carlos (EESC/SBD)
Data de defesa:
Membros da banca:
José Carlos Pereira; Aparecido Augusto de Carvalho; Francisco Javier Ramirez Fernandez; Carlos Dias Maciel; Marco Antonio Grivet Mattoso Maia
Orientador: José Carlos Pereira
Resumo

Este trabalho apresenta um estudo inicial da aplicação de medidas de previsibilidade em sinais de voz. O objetivo é desenvolver métodos que sejam capazes de diferenciar sinais saudáveis e patológicos, inclusive separar patologias. Para isso, tenta-se medir a variação da incerteza e previsibilidade entre os sinais de voz dos grupos analisados. Algumas patologias de laringe, como nódulo e edema de Reinke, usadas neste estudo, causam modificações nos sinais de voz devido a mudanças na estrutura e funcionalidade do trato e pregas vocais. Nos casos patológicos, tem-se, principalmente, aumento de perturbações de freqüência e amplitude, adição de ruído e supressão de componentes harmônicos de alta freqüência da voz. Por causa disso, observa-se perda da estrutura quase-periódica dos sinais, aumentando-se a incerteza do sistema vocal e, portanto, diminuição de sua previsibilidade. Para avaliar essas mudanças, usam-se medidas de entropia de Shannon e entropia relativa entre os sinais saudáveis e patológicos. Além dessas, tem-se a potência de previsão (PP), a qual é uma medida baseada na entropia relativa entre o sinal de voz e seu erro de previsão obtido por um modelo. Inicialmente, optou-se pelo modelo autorregressivo (AR), consagrado em análise de voz, porém, devido a resultados não satisfatórios, apresentou-se um modelo baseado em decomposições por wavelets. Outra ferramenta utilizada foi a chamada análise de componentes previsíveis (PrCA), a qual realiza uma decomposição dos sinais em componentes ordenados por sua previsibilidade, sendo possível reconstruí-los usando somente os componentes mais previsíveis. Também, com essa técnica, analisaram-se representações tridimensionais dos sinais de voz em um espaço cujas coordenadas são dadas por versões atrasadas dos próprios sinais. Os algoritmos desenvolvidos foram testados com o auxílio de sinais de voz simulados, os quais possuíam variações de nível de ruído e perturbações de amplitude e freqüência. Com isso, foi possível detectar erros e solucionar problemas com os métodos. Após a avaliação dos algoritmos, estimou-se os valores de entropia dos sinais de voz, a entropia relativa entre os sinais saudáveis e os sinais dos grupos analisados, além de se calcular a PP usando o modelo AR e o modelo por wavelets. Por fim, utilizou-se a PrCA para obtenção de versões mais previsíveis dos sinais, então, calculando-se a PP para esses casos usando essa versão como previsão dos sinais. Aplicou-se, também, a PrCA para as representações tridimensionais dos sinais usando um modelamento AR multidimensional para obtenção de previsões. Com os ensaios de entropia dos sinais de voz, não foi possível diferenciar os grupos, mas com os resultados de entropia relativa, conseguiu-se distinguir eficientemente os sinais patológicos dos saudáveis. Porém, essa medida não possui muita aplicação prática, isso pois é necessário um banco de vozes diagnosticadas para servir de comparação. Nos ensaios de PP usando modelo AR, também não foi possível diferenciar os grupos, no entanto, com o modelo wavelet, os sinais saudáveis apresentaram significativamente maior previsibilidade do que os patológicos, mas, mesmo assim, não se conseguiu diferenciar as patologias. Com a PrCA, utilizando-se ambos os modelos, foi possível diferenciar os grupos patológicos do saudável, porém, frente ao modelo AR, os sinais saudáveis apresentaram menor previsibilidade. Isso demonstra que a previsibilidade depende do modelo usado para a análise, assim, as patologias da laringe podem diminuir ou aumentar a capacidade de previsão dos sinais de voz conforme o modelo usado. Com a avaliação dos resultados de PrCA das representações tridimensionais, tem-se comportamento semelhante ao obtido pela análise direta nos sinais de voz com o modelo AR, entretanto, essa forma e representação dos dados mostra se promissora em estudos futuros. Com esses ensaios, concluiu-se que este estudo foi muito útil para um maior conhecimento da dinâmica da produção vocal e que as medidas de previsibilidade são interessantes para avaliação de patologias da laringe, em especial, a presença de nódulo nas pregas vocais e edema de Reinke, pelo menos nestes estudos iniciais e usando os sinais de voz disponíveis. Mais estudos ainda são necessários, entretanto essa forma de análise já apresenta bons resultados, os quais podem ser aplicados para auxiliar o diagnóstico de disfonias por profissionais da saúde. (AU)

Processo FAPESP: 06/53238-0 - Utilizacao de processamento digital de sinais de voz para discriminacao de patologias.
Beneficiário:Paulo Rogério Scalassara
Modalidade de apoio: Bolsas no Brasil - Doutorado