Busca avançada
Ano de início
Entree


Busca entre Domínios Visuais com Aprendizado de Características através de Arquiteturas Baseadas em Transformers

Texto completo
Autor(es):
Leo Sampaio Ferraz Ribeiro
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Carlos.
Instituição: Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB)
Data de defesa:
Membros da banca:
Moacir Antonelli Ponti; José Manuel Saavedra Rondo; Diego Furtado Silva; Ricardo da Silva Torres
Orientador: Moacir Antonelli Ponti
Resumo

Dentro do campo de Visão Computacional, a tarefa de Busca Visual entre Domínios é uma das mais úteis e estudadas e ainda assim raramente experimentadas em nosso cotidiano. Nesta tese exploramos a Busca Visual entre Domínios, usando a tarefa de Busca de Imagens baseada em Desenhos (Sketch-based Image Retrieval, SBIR) como sua representante. Descrevemos quatro hipóteses distintas sobre como avançar esse campo de pesquisa e comprovamos a validade de cada uma através das contribuições explicitadas. Primeiro apresentamos uma nova arquitetura, chamada Sketchformer, para o aprendizado de representações de desenhos, que troca as redes convolucionais tradicionais pelo recente modelo Transformer. Então exploramos duas definições alternativas para a tarefa de SBIR, cada uma aproximando melhor a escala e generalização necessárias para implementação no mundo real. Para ambas tarefas introduzimos modelos do estado-da-arte: nosso Scene Designer combina tradicionais redes de múltiplos ramos com uma rede neural em grafo para aprender representações de cenas desenhadas com múltiplos objetos; nosso Sketch-an-Anchor mostra que é possível usar o conhecimento geral que existe em modelos pré-treinados para a tarefa de Zero-shot SBIR. Estas contribuições tem um impacto direto na literatura de tarefas baseadas em desenhos e um impacto em cascata para as áreas de Compreensão de Imagens e Representações Entre Domínios em geral. (AU)

Processo FAPESP: 17/22366-8 - Redes geradoras e aprendizado de características para busca entre domínios visuais
Beneficiário:Leo Sampaio Ferraz Ribeiro
Modalidade de apoio: Bolsas no Brasil - Doutorado Direto