Busca avançada
Ano de início
Entree

Separação de objetos sonoros baseada no princípio da esparsidade

Processo: 22/16168-7
Modalidade de apoio:Bolsas no Brasil - Doutorado Direto
Data de Início da vigência: 01 de maio de 2023
Data de Término da vigência: 30 de abril de 2024
Área de conhecimento:Engenharias - Engenharia Elétrica - Telecomunicações
Pesquisador responsável:Bruno Sanches Masiero
Beneficiário:Arthur Nicholas dos Santos
Instituição Sede: Faculdade de Engenharia Elétrica e de Computação (FEEC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Assunto(s):Acústica   Espacialidade sonora   Som
Palavra(s)-Chave do Pesquisador:Esparsificação | Estimação De Direção De Chegada | Realce Sonoro | Separação Sonora | Síntese Biauricular | Acústica

Resumo

A determinação da quantidade e direção de fontes em uma cena sonora pode ser feita, a princípio, utilizando filtros espaciais para estimar o nível sonoro que chega a um arranjo de microfones a partir de diferentes direções, de forma semelhante à estimação de imagens acústicas. Esta técnica, no entanto, costuma apresentar baixa resolução devido ao número relativamente reduzido de microfones que usualmente constituem os arranjos. Diversos métodos para aumentar a qualidade da estimativa da imagem acústica sem aumentar o número de sensores foram propostos, que aplicam técnicas de desconvolução para eliminar o efeito da função de espalhamento do arranjo. Uma alternativa mais recente é o uso de regularização promotora de esparsidade, que usa uma regularização de norma 1 na solução do problema de determinação dos objetos sonoros. Estes algoritmos funcionam dando maior peso para cenas esparsas (o que costuma ser uma suposição válida para cenas compostas por um pequeno número de fontes sonoras), prometendo uma melhor separação dos objetos presentes. Agora, se aplicarmos estes algoritmos promotores de esparsidade a uma cena sonora com poucas fontes, mas gravada em um ambiente muito reverberante, os resultados não serão tão animadores, já que para estes algoritmos a reverberação reduzirá a esparsidade da cena sonora.Uma outra solução seria a decomposição de harmônicos esféricos em funções de densidade de onda plana esparsas com a utilização de Kernels de Legendre. Esta abordagem visa a identificação da contribuição de componentes difusos do campo sonoro, utilizadas para a estimação de direção de chegada de fontes sonoras. Para melhorar a separação dos objetos sonoros nestas condições, é comum o uso de uma etapa de realce, que descarta as informações sonoras que reduzem a inteligibilidade, como, por exemplo, a reverberação. Para realizar tal realce, muitos estudos têm se voltado ao aprendizado profundo, que semostra uma ferramenta poderosa na aproximação de funções e no aprendizado de representação de propriedades. Algumas redes neurais artificiais como Wave-U-Net, FaS-Net eConv-TasNet são alguns exemplos de aplicações no realce e separação de sons,porém estas soluções usualmente geram saídas monofônicas. Entretanto, alguns métodos analíticos foram recentemente desenvolvidos para promover a preservação daespacialidade enquanto aplicando máscaras para o aprimoramento da fala. Portanto, amaneira como propomos realizar a separação de objetos sonoros se baseia na captaçãode cenas sonoras utilizando um arranjo de microfones esféricos, que possibilita o processamento de harmônicos esféricos, que por sua vez podem ser convertidos em funções de densidade de onda plana esparsas. Em seguida, propomos uma etapa de realce baseado no mascaramento, visando a preservação das informações espaciais da cena sonora (como a direção de chegada das fontes), mas utilizando redes neurais artificiais para a obtenção das máscaras, ao invés de métodos analíticos. Assim, a saída produzida pela rede neural, neste caso, possibilitaria a reprodução biauricularda cena sonora realçada. Por fim, a realização da etapa de separação pode ser realizada com métodos analíticos de processamento de sinais (como a filtragem de Wiener para a desconvolução) ou com redes neurais artificiais. Entretanto, ambas abordagens produzem saídas monofônicas. Portanto, nós também propomos uma última etapa de síntese biauricular, utilizando a estimação da direção de chegada das fontes sonoras, para finalmente produzir uma saída que contemple a separação dos objetos sonoros em condições de reverberação, mas preservando a informação espacial da cena sonora. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)