Busca avançada
Ano de início
Entree

Segmentação Semântica em Vídeos

Processo: 17/16597-7
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de dezembro de 2017
Data de Término da vigência: 28 de fevereiro de 2022
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Darwin Danilo Saire Pilco
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Bolsa(s) vinculada(s):19/18678-0 - Segmentação Semântica Usando um Modelo de Aprendizagem Hourglass, BE.EP.DR
Assunto(s):Aprendizagem profunda   Processamento de imagens   Aprendizado computacional   Reconhecimento de padrões
Palavra(s)-Chave do Pesquisador:Deep Learning | Image processing | machine learning | Pattern Recognition | Machine Learning, Deep Learning

Resumo

A tarefa de segmentação semântica visa criar uma classificação densa ao rotular cada pixel de cada objeto presente em imagens ou vídeos. As abordagens das redes neurais convolucionais (CNN) provaram ser úteis ao exibir os melhores resultados nesta tarefa. No entanto, alguns desafios permanecem, como a baixa resolução de mapas de características e a perda de precisão espacial, ambos produzidos na última camada de convolução das CNNs. Como resolver esses problemas e obter resultados consistentes ainda é um problema aberto em imagens e ainda mais em vídeos, tornando a segmentação semântica em vídeo um problema bastante difícil. Neste projeto de doutorado, para resolver esses problemas, nós propomos criar uma arquitetura CNN em forma de ampulheta para abordar a tarefa de segmentação semântica em vídeo. Nossa arquitetura proposta é treinável de extremo a extremo e extrai informação espaciotemporal para discriminar entre diversas classes de objetos presentes no vídeo. Desta forma, o resultado final da nossa arquitetura proposta é a geração de vídeos densamente rotulados. Para atingir esse objetivo, nós precisamos aprender características espaciotemporais significativas que diferenciem os objetos do vídeo (através da aprendizagem de núcleos de convolução) ao mesmo tempo que permanecem consistentes nas variações do quadro, aprender amostragens multidimensionais e funções de kernels que usam as previsões de baixo nível de resolução e as características espaciotemporais existentes para manter as relações entre voxels através das não-linearidades aprendidas, e criar um framework de aprendizado de extremo a extremo (aumento de dados e funções de perda) que usa os rotulados existentes (tanto anotações densas quanto caixas de delimitação) sobre datasets de vídeos para treinar a rede.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
SAIRE, DARWIN; RIVERA, ADIN RAMIREZ. Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation Task. IEEE ACCESS, v. 9, p. 80654-80670, . (19/18678-0, 19/07257-3, 17/16597-7)
SAIRE, DARWIN; RIVERA, ADIN RAMIREZ. Global and Local Features Through Gaussian Mixture Models on Image Semantic Segmentation. IEEE ACCESS, v. 10, p. 14-pg., . (19/07257-3, 17/16597-7, 19/18678-0)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
PILCO, Darwin Danilo Saire. A latent space analysis in encoder-decoder models to improve the representation learning for semantic segmentation task on images. 2022. Tese de Doutorado - Universidade Estadual de Campinas (UNICAMP). Instituto de Computação Campinas, SP.