Busca avançada
Ano de início
Entree

Segmentação semântica usando um modelo de aprendizagem Hourglass

Processo: 19/18678-0
Linha de fomento:Bolsas no Exterior - Estágio de Pesquisa - Doutorado
Vigência (Início): 01 de novembro de 2019
Vigência (Término): 31 de outubro de 2020
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Darwin Danilo Saire Pilco
Supervisor no Exterior: Tabbone Salvatore Antoine
Instituição-sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Local de pesquisa : Université de Lorraine (UL), França  
Vinculado à bolsa:17/16597-7 - Segmentação semântica em vídeos, BP.DR
Assunto(s):Aprendizado computacional   Reconhecimento de padrões   Processamento de imagens   Aprendizagem profunda

Resumo

Tarefa de segmentação semântica visa criar uma classificação densa, rotulando a nível de pixel cada objeto presente em imagens ou vídeos. Abordagens de Convolution Neural Network (CNN) têm se mostrado úteis, exibindo os melhores resultados nesta tarefa. Porem, alguns desafios permanecem, como a baixa resolução de mapas de características e a perda de precisão espacial, ambos produzidos nas CNNs por vizinhanças locais limitadas, isto é, filtros com tamanho pequeno e de forma regular. Como resolver esses problemas e obter resultados consistentes ainda é um problema em aberto: Assim, torna a segmentação semântica um problema bastante difícil, mesmo usando modelos de aprendizagem profunda. Por outro lado, a abordagem Graph Neural Networks (GNNs) demonstra a capacidade de refletir propriedades locais e globais em dados não estruturados, bem como levar em conta as conexões irregulares. Neste projeto de pesquisa, para resolver esses problemas, nos propomos a criação de uma arquitetura de aprendizagem profunda que combina extração de características locais de CNNs com a extração de características globais de GNNs e suas conexões irregulares entre pixels para abordar a tarefa de segmentação semântica em imagens. Nossa arquitetura proposta é treinável de ponta a ponta e extrai informações locais e globais para discriminar entre várias classes de objetos presentes nas imagens. Desta forma, o resultado final da nossa arquitetura proposta é a geração de imagens densamente rotuladas.