Busca avançada
Ano de início
Entree

Segmentação semântica em vídeos

Processo: 17/16597-7
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de dezembro de 2017
Situação:Interrompido
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Darwin Danilo Saire Pilco
Instituição-sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Bolsa(s) vinculada(s):19/18678-0 - Segmentação semântica usando um modelo de aprendizagem Hourglass, BE.EP.DR
Assunto(s):Aprendizagem profunda   Processamento de imagens   Aprendizado computacional   Reconhecimento de padrões

Resumo

A tarefa de segmentação semântica visa criar uma classificação densa ao rotular cada pixel de cada objeto presente em imagens ou vídeos. As abordagens das redes neurais convolucionais (CNN) provaram ser úteis ao exibir os melhores resultados nesta tarefa. No entanto, alguns desafios permanecem, como a baixa resolução de mapas de características e a perda de precisão espacial, ambos produzidos na última camada de convolução das CNNs. Como resolver esses problemas e obter resultados consistentes ainda é um problema aberto em imagens e ainda mais em vídeos, tornando a segmentação semântica em vídeo um problema bastante difícil. Neste projeto de doutorado, para resolver esses problemas, nós propomos criar uma arquitetura CNN em forma de ampulheta para abordar a tarefa de segmentação semântica em vídeo. Nossa arquitetura proposta é treinável de extremo a extremo e extrai informação espaciotemporal para discriminar entre diversas classes de objetos presentes no vídeo. Desta forma, o resultado final da nossa arquitetura proposta é a geração de vídeos densamente rotulados. Para atingir esse objetivo, nós precisamos aprender características espaciotemporais significativas que diferenciem os objetos do vídeo (através da aprendizagem de núcleos de convolução) ao mesmo tempo que permanecem consistentes nas variações do quadro, aprender amostragens multidimensionais e funções de kernels que usam as previsões de baixo nível de resolução e as características espaciotemporais existentes para manter as relações entre voxels através das não-linearidades aprendidas, e criar um framework de aprendizado de extremo a extremo (aumento de dados e funções de perda) que usa os rotulados existentes (tanto anotações densas quanto caixas de delimitação) sobre datasets de vídeos para treinar a rede.