Busca avançada
Ano de início
Entree


Manifold learning for spatial audio rendering

Texto completo
Autor(es):
Felipe Leonel Grijalva Arévalo
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação
Data de defesa:
Membros da banca:
Luiz César Martini; Tiago Fernandes Tavares; Levy Boccato; Luiz Wagner Pereira Biscainho; Laurindo de Sousa Britto Neto
Orientador: Bruno Sanches Masiero; Luiz César Martini
Resumo

O objetivo do áudio espacial gerado com a técnica binaural é simular uma fonte sonora em localizações espaciais arbitrarias através das Funções de Transferência Relativas à Cabeça (HRTFs) ou também chamadas de Funções de Transferência Anatômicas. As HRTFs modelam a interação entre uma fonte sonora e a antropometria de uma pessoa (e.g., cabeça, torso e orelhas). Se filtrarmos uma fonte de áudio através de um par de HRTFs (uma para cada orelha), o som virtual resultante parece originar-se de uma localização espacial específica. Inspirados em nossos resultados bem sucedidos construindo uma aplicação prática de reconhecimento facial voltada para pessoas com deficiência visual que usa uma interface de usuário baseada em áudio espacial, neste trabalho aprofundamos nossa pesquisa para abordar vários aspectos científicos do áudio espacial. Neste contexto, esta tese analisa como incorporar conhecimentos prévios do áudio espacial usando uma nova representação não-linear das HRTFs baseada no aprendizado de variedades para enfrentar vários desafios de amplo interesse na comunidade do áudio espacial, como a personalização de HRTFs, a interpolação de HRTFs e a melhoria da localização de fontes sonoras. O uso do aprendizado de variedades para áudio espacial baseia-se no pressuposto de que os dados (i.e., as HRTFs) situam-se em uma variedade de baixa dimensão. Esta suposição também tem sido de grande interesse entre pesquisadores em neurociência computacional, que argumentam que as variedades são cruciais para entender as relações não lineares subjacentes à percepção no cérebro. Para todas as nossas contribuições usando o aprendizado de variedades, a construção de uma única variedade entre os sujeitos através de um grafo Inter-sujeito (Inter-subject graph, ISG) revelou-se como uma poderosa representação das HRTFs capaz de incorporar conhecimento prévio destas e capturar seus fatores subjacentes. Além disso, a vantagem de construir uma única variedade usando o nosso ISG e o uso de informações de outros indivíduos para melhorar o desempenho geral das técnicas aqui propostas. Os resultados mostram que nossas técnicas baseadas no ISG superam outros métodos lineares e não-lineares nos desafios de áudio espacial abordados por esta tese (AU)

Processo FAPESP: 14/14630-9 - Aprendizado de máquina em processamento de sinais aplicado ao áudio espacial
Beneficiário:Felipe Leonel Grijalva Arévalo
Modalidade de apoio: Bolsas no Brasil - Doutorado