Busca avançada
Ano de início
Entree


Sound events detection and localization improvements by using Gammatone filters and temporal convolutional neural networks

Texto completo
Autor(es):
Karen Gissell Rosero Jacome
Número total de Autores: 1
Tipo de documento: Dissertação de Mestrado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação
Data de defesa:
Membros da banca:
Bruno Sanches Masiero; Luiz Wagner Pereira Biscainho; Tiago Fernandes Tavares
Orientador: Bruno Sanches Masiero; Felipe Leonel Grijalva Arévalo
Resumo

O sistema auditivo humano tem a capacidade de extrair significado do som, ajudan-do-nos a identificar e localizar sons em um ambiente acústico. O desenvolvimento de métodos computacionais inspirados nas capacidades e comportamentos humanos estabeleceu oportunidades para melhorar a escuta de máquina. Estudos recentes baseados em aprendizado profundo mostram que o uso de redes neurais convolucionais e recorrentes é uma abordagem promissora para a tarefa de detecção e localização de eventos sonoros (SELD). Mas, dependendo do ambiente sonoro, o desempenho dos sistemas ainda está longe de atingir métricas satisfatórias, apesar de já ter superado o desempenho humano para algumas tarefas. Portanto, este projeto pretende aumentar o desempenho dos sistemas SELD estudados, melhorando diferentes etapas do processo. É proposto o uso de filtros auditivos Gammatone para a extração de características acústicas, e contempla-se a implementação de um bloco de convoluções temporais numa arquitetura de rede convolucional recorrente. O sistema suportará a detecção e localização de até três eventos sonoros que podem ser da mesma classe ou não. Além disso, devido à quantidade limitada de amostras de áudio contidas nos conjuntos de dados, também exploramos o uso de técnicas adequadas de aumento de dados. O sistema é avaliado em bases de dados que representam ambientes com diferentes níveis de dificuldade. Os resultados do trabalho mostram que os filtros Gammatone são uma ótima alternativa para modificar a resolução linear de frequência do espectrograma, pois modelam a distribuição da tonotopia produzida na cóclea. Em relação à arquitetura da rede, o bloco de convoluções temporais captura dependências de longo prazo dos dados, gerando uma extração de características mais profunda e que produz um número maior de parâmetros treináveis, sem aumentar muito a complexidade da arquitetura do sistema. Por fim, dentre as técnicas de aumento de dados avaliadas, as que mostraram os melhores resultados foram mascaramento de frequência, magnitude aleatória e troca dos canais Ambisônicos. A avaliação do sistema proposto superou todas as métricas do estado da arte obtidas nas quatro bases de dados utilizadas, mantendo um desempenho aceitável em ambientes reverberantes e com múltiplas fontes sonoras, e um desempenho quase perfeito em um ambiente anecoico (AU)

Processo FAPESP: 19/22945-3 - Áudio-3D: aquisição, codificação e reprodução de áudio espacial
Beneficiário:Karen Gissell Rosero Jácome
Modalidade de apoio: Bolsas no Brasil - Mestrado