Busca avançada
Ano de início
Entree

Processamento Audiovisual de Voz por Aprendizagem de Máquina

Processo: 18/26455-8
Modalidade de apoio:Auxílio à Pesquisa - Regular
Data de Início da vigência: 01 de maio de 2019
Data de Término da vigência: 31 de outubro de 2022
Área do conhecimento:Engenharias - Engenharia Elétrica - Telecomunicações
Pesquisador responsável:Miguel Arjona Ramírez
Beneficiário:Miguel Arjona Ramírez
Instituição Sede: Escola Politécnica (EP). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Pesquisadores associados:Celso Setsuo Kurashima ; Demostenes Zegarra Rodriguez ; Edmilson da Silva Morais ; Emilio Del Moral Hernandez ; Mario Minami ; Renata Lopes Rosa ; Wesley Beccaro
Bolsa(s) vinculada(s):20/13459-5 - Avaliação de qualidade de voz utilizando aprendizado de máquina e considerando redes wireless, BP.TT
19/10329-6 - Avaliação de qualidade de voz utilizando aprendizado de máquina e considerando redes wireless, BP.TT
19/10551-0 - Avaliação de qualidade de vídeo utilizando aprendizado de máquina em cenários de redes, BP.TT
Assunto(s):Processamento de sinais  Aprendizado computacional  Redes neurais  Síntese de voz 
Palavra(s)-Chave do Pesquisador:Aprendizagem de Maquina | Medidas de qualidade de voz | Processamento audiovisual de voz | Realce e reconhecimento de voz | Redes neurais | síntese de voz | Processamento de sinais

Resumo

Este plano de pesquisa explora uma base comum a várias áreas de processamento de sinais como análise de voz, codificação de voz e de áudio, reconhecimento da fala e de outras características de sinais de voz e de áudio e separação de sinais com regularizações para permitir ajustes mais adequados à finalidade desejada. Tradicionalmente, a análise de voz, além de seu interesse específico, propicia as representações do sinal e os parâmetros dos modelos necessários às outras áreas. Esta função tem sido questionada com os desenvolvimentos mais recentes em aprendizagem profunda, pretendendo-se estabelecer paralelos entre as duas abordagens para aumentar a compreensão. Além das formas de decomposição e modificação tempo-frequencial e de análise autorregressiva usuais, novas técnicas baseadas no aprendizado de máquina e na aprendizagem profunda serão propostas para realce, separação e síntese de sinais de voz e de áudio, avançando sobre as bases da análise tradicional. Serão pesquisadas máquinas com capacidade gerativa também para sinais de vídeo e séries temporais. Adicionalmente, os parâmetros e representações do sinal de voz também serão utilizados para a modelagem e elaboração de métricas não-intrusivas da qualidade do sinal de voz; para tal propósito, o sinal de voz é degradado utilizando diferentes parâmetros de um sistema de comunicação. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (22)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
OGOBUCHI, OKEY DANIEL; VIEIRA, SAMUEL TERRA; SAADI, MUHAMMAD; ROSA, RENATA LOPES; RODRIGUEZ, DEMOSTENES ZEGARRA. Intelligent network planning tool for location optimization of unmanned aerial vehicle base stations using geographical images. JOURNAL OF ELECTRONIC IMAGING, v. 31, n. 6, p. 19-pg., . (18/26455-8)
RIBEIRO, DAVID AUGUSTO; SILVA, JUAN CASAVILCA; LOPES ROSA, RENATA; SAADI, MUHAMMAD; MUMTAZ, SHAHID; WUTTISITTIKULKIJ, LUNCHAKORN; ZEGARRA RODRIGUEZ, DEMOSTENES; AL OTAIBI, SATTAM. Light Field Image Quality Enhancement by a Lightweight Deformable Deep Learning Framework for Intelligent Transportation Systems. ELECTRONICS, v. 10, n. 10, . (18/26455-8)
SILVA, JUAN CASAVILCA; SAADI, MUHAMMAD; WUTTISITTIKULKIJ, LUNCHAKORN; MILITANI, DAVI RIBEIRO; ROSA, RENATA LOPES; RODRIGUEZ, DEMOSTENES ZEGARRA; AL OTAIBI, SATTAM. ight-Field Imaging Reconstruction Using Deep Learning Enabling Intelligent Autonomous Transportation Syste. IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, v. 23, n. 2, . (18/26455-8)
NUNES, RODRIGO DANTAS; ROSA, RENATA LOPES; RODRIGUEZ, DEMOSTENES ZEGARRA. Performance improvement of a non-intrusive voice quality metric in lossy networks. IET COMMUNICATIONS, v. 13, n. 20, p. 3401-3408, . (15/24496-0, 18/26455-8)
DA SILVA, MARIELLE JORDANE; MELGAREJO, DICK CARRILLO; ROSA, RENATA LOPES; RODRIGUEZ, DEMOSTENES ZEGARRA. Speech Quality Classifier Model based on DBN that Considers Atmospheric Phenomena. JOURNAL OF COMMUNICATIONS SOFTWARE AND SYSTEMS, v. 16, n. 1, p. 75-84, . (15/24496-0, 18/26455-8)
MILITANI, DAVI; VIEIRA, SAMUEL; VALADAO, EVERTHON; NELES, KATIA; ROSA, RENATA; RODRIGUEZ, DEMOSTENES Z.; BEGUSIC, D; ROZIC, N; RADIC, J; SARIC, M. A Machine Learning Model to Resource Allocation Service for Access Point on Wireless Network. 2019 27TH INTERNATIONAL CONFERENCE ON SOFTWARE, TELECOMMUNICATIONS AND COMPUTER NETWORKS (SOFTCOM), v. N/A, p. 6-pg., . (15/24496-0, 18/26455-8)
DA SILVA, MARIELLE J.; BEGAZO, DANTE C.; RODRIGUEZ, DEMOSTENES Z.; BEGUSIC, D; ROZIC, N; RADIC, J; SARIC, M. Evaluation of Speech Quality Degradation due to Atmospheric Phenomena. 2019 27TH INTERNATIONAL CONFERENCE ON SOFTWARE, TELECOMMUNICATIONS AND COMPUTER NETWORKS (SOFTCOM), v. N/A, p. 6-pg., . (15/24496-0, 18/26455-8)
BARBOSA, RODRIGO; OGOBUCHI, OKEY DANIEL; JOY, OMOLE OLUWATOYIN; SAADI, MUHAMMAD; ROSA, RENATA LOPES; AL OTAIBI, SATTAM; RODRIGUEZ, DEMOSTENES ZEGARRA. IoT based real-time traffic monitoring system using images sensors by sparse deep learning algorithm. COMPUTER COMMUNICATIONS, v. 210, p. 10-pg., . (18/26455-8)
HAJAROLASVADI, NOUSHIN; RAMIREZ, MIGUEL ARJONA; BECCARO, WESLEY; DEMIREL, HASAN. Generative Adversarial Networks in Human Emotion Synthesis: A Review. IEEE ACCESS, v. 8, p. 218499-218529, . (19/07665-4, 18/12579-7, 18/26455-8)
ROSA, RENATA LOPES; DE SILVA, MARIELLE JORDANE; SILVA, DOUGLAS HENRIQUE; AYUB, MUHAMMAD SHOAIB; CARRILLO, DICK; NARDELLI, PEDRO H. J.; RODRIGUEZ, DEMOSTENES ZEGARRA. Event Detection System Based on User Behavior Changes in Online Social Networks: Case of the COVID-19 Pandemic. IEEE ACCESS, v. 8, p. 158806-158825, . (18/26455-8, 15/24496-0)
BARBOSA, RODRIGO CARVALHO; AYUB, MUHAMMAD SHOAIB; ROSA, RENATA LOPES; RODRIGUEZ, DEMOSTENES ZEGARRA; WUTTISITTIKULKIJ, LUNCHAKORN. Lightweight PVIDNet: A Priority Vehicles Detection Network Model Based on Deep Learning for Intelligent Traffic Lights. SENSORS, v. 20, n. 21, . (19/07665-4, 18/26455-8, 18/12579-7)
VIEIRA, SAMUEL TERRA; ROSA, RENATA LOPES; RODRIGUEZ, DEMOSTENES ZEGARRA. A Speech Quality Classifier based on Tree-CNN Algorithm that Considers Network Degradations. JOURNAL OF COMMUNICATIONS SOFTWARE AND SYSTEMS, v. 16, n. 2, p. 180-187, . (15/24496-0, 18/26455-8)
MILITANI, DAVI RIBEIRO; DE MORAES, HERMES PIMENTA; ROSA, RENATA LOPES; WUTTISITTIKULKIJ, LUNCHAKORN; RAMIREZ, MIGUEL ARJONA; RODRIGUEZ, DEMOSTENES ZEGARRA. Enhanced Routing Algorithm Based on Reinforcement Machine Learning-A Case of VoIP Service. SENSORS, v. 21, n. 2, . (19/07665-4, 18/26455-8, 18/12579-7)
ESCOTTA, ALVARO TEIXEIRA; BECCARO, WESLEY; RAMIREZ, MIGUEL ARJONA. Evaluation of 1D and 2D Deep Convolutional Neural Networks for Driving Event Recognition. SENSORS, v. 22, n. 11, p. 21-pg., . (18/26455-8)
GUIMARAES, HEITOR R.; BECCARO, WESLEY; RAMIREZ, MIGUEL A.; IEEE. OPTIMIZING TIME DOMAIN FULLY CONVOLUTIONAL NETWORKS FOR 3D SPEECH ENHANCEMENT IN A REVERBERANT ENVIRONMENT USING PERCEPTUAL LOSSES. 2021 IEEE 31ST INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING (MLSP), v. N/A, p. 6-pg., . (19/07665-4, 18/26455-8)
DOS SANTOS, MARCELO RODRIGO; BATISTA, ANDREZA PATRICIA; ROSA, RENATA LOPES; SAADI, MUHAMMAD; MELGAREJO, DICK CARRILLO; RODRIGUEZ, DEMOSTENES ZEGARRA. AsQM: Audio Streaming Quality Metric Based on Network Impairments and User Preferences. IEEE TRANSACTIONS ON CONSUMER ELECTRONICS, v. 69, n. 3, p. 13-pg., . (18/26455-8)
RODRIGUEZ, DEMOSTENES Z.; CARRILLO, DICK; RAMIREZ, MIGUEL A.; NARDELLI, PEDRO H. J.; MOELLER, SEBASTIAN. Incorporating Wireless Communication Parameters Into the E-Model Algorithm. IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, v. 29, p. 956-968, . (18/26455-8, 15/24496-0)
MILITANI, DAVI; BEGAZO, DANTE COAQUIRA; ROSA, RENATA; RODRIGUEZ, DEMOSTENES Z.; BEGUSIC, D; ROZIC, N; RADIC, J; SARIC, M. A Speech Quality Classifier based on Signal Information that Considers Wired and Wireless Degradations. 2019 27TH INTERNATIONAL CONFERENCE ON SOFTWARE, TELECOMMUNICATIONS AND COMPUTER NETWORKS (SOFTCOM), v. N/A, p. 6-pg., . (15/24496-0, 18/26455-8)
MENDONCA, ROBSON V.; SILVA, JUAN C.; ROSA, RENATA L.; SAADI, MUHAMMAD; RODRIGUEZ, DEMOSTENES Z.; FAROUK, AHMED. A lightweight intelligent intrusion detection system for industrial internet of things using deep learning algorithm. EXPERT SYSTEMS, . (15/24496-0, 18/26455-8)
RAMIREZ, MIGUEL ARJONA; BECCARO, WESLEY; RODRIGUEZ, DEMOSTENES ZEGARRA; ROSA, RENATA LOPES. Differentiable Measures for Speech Spectral Modeling. IEEE ACCESS, v. 10, p. 10-pg., . (19/07665-4, 18/26455-8)
TERRA VIEIRA, SAMUEL; LOPES ROSA, RENATA; ZEGARRA RODRIGUEZ, DEMOSTENES; ARJONA RAMIREZ, MIGUEL; SAADI, MUHAMMAD; WUTTISITTIKULKIJ, LUNCHAKORN. Q-Meter: Quality Monitoring System for Telecommunication Services Based on Sentiment Analysis Using Deep Learning. SENSORS, v. 21, n. 5, . (18/26455-8)
RIBEIRO, DAVID AUGUSTO; MELGAREJO, DICK CARRILLO; SAADI, MUHAMMAD; ROSA, RENATA LOPES; RODRIGUEZ, DEMOSTENES ZEGARRA. A novel deep deterministic policy gradient model applied to intelligent transportation system security problems in 5G and 6G network scenarios. PHYSICAL COMMUNICATION, v. 56, p. 10-pg., . (18/26455-8)