Busca avançada
Ano de início
Entree


A latent space analysis in encoder-decoder models to improve the representation learning for semantic segmentation task on images

Texto completo
Autor(es):
Darwin Danilo Saire Pilco
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:
Membros da banca:
Adín Ramírez Rivera; Alexandre Xavier Falcão; Hélio Pedrini; Roberto Hirata Junior; Moacir Antonelli Ponti
Orientador: Adín Ramírez Rivera
Resumo

Nos últimos anos, o uso de Deep Neural Networks (DNNs) como um poderoso extrator de características tem levado a diversas melhorias em diversas áreas do conhecimento com resultados notáveis, principalmente em diversas tarefas de visão computacional. Uma dessas tarefas é a Segmentação Semântica (SS), a qual é uma classificação de rotulagem ao nível de píxel, ou seja, cada píxel é rotulado como pertencente a uma determinada classe semântica. A segmentação semântica também tem várias aplicações em uma ampla gama de campos, como robótica, mapeamento, ou compreensão de cena, nas quais os rótulos de nível de píxel são de importância primordial. O uso de DNN mostrou melhorias significativas no processo da SS, embora isso trouxesse o problema de perda de precisão espacial, muitas vezes produzida nos limites dos objetos segmentados. Por outro lado, a abordagem multitarefa usa tarefas relacionadas para melhorar o desempenho da tarefa principal. Portanto, usamos uma abordagem multitarefa para melhorar a segmentação, no entanto, como escolher essas tarefas relacionadas não é um problema trivial. Nesta tese, propomos estudar o espaço latente (mapas de características) em modelos de hourglass (codificador-decodificador) usando uma abordagem multitarefa, complementando a tarefa SS com tarefas como detecção de bordas, contorno semântico e transformação de distância (tarefas baseadas no limite de objetos). Observamos que as tarefas complementares podem produzir representações mais robustas que aprimoram rótulos semânticos ao compartilhar um espaço latente comum. Além disso, exploramos a influência das tarefas baseadas em contornos no espaço latente, bem como seu impacto no desempenho no processo da SS. Ao analisar o espaço latente influenciado pela multitarefa, conseguimos criar (projetar/desenhar) um modelo que aborda o problema de perda de precisão espacial, fornecendo uma estrutura interna para as representações de recursos enquanto extraímos uma representação global que suporta o primeiro. Para ajustar a estrutura interna, prevemos um modelo de mistura gaussiana a partir dos dados no tempo de treinamento, que combinado com as conexões de salto no estágio de decodificação, ajuda a evitar vieses indutivos errados. Nossos resultados demonstram a eficácia do aprendizado em uma configuração multitarefa para modelos de hourglass, melhorando o estado da arte sem nenhum refinamento de pós-processamento. Também mostramos a melhoria da tarefa SS fornecendo e combinando representações de aprendizagem globais e locais com um comportamento de agrupamento. No entanto, para obter um espaço de representação mais adequado, precisamos de datasets com muitas anotações finas. Finalmente, apresentamos resultados quantitativos e qualitativos nos conjuntos de dados CamVid, Freiburg Forest, Cityscapes e Synthia (AU)

Processo FAPESP: 17/16597-7 - Segmentação Semântica em Vídeos
Beneficiário:Darwin Danilo Saire Pilco
Modalidade de apoio: Bolsas no Brasil - Doutorado