Busca entre Domínios Visuais com Aprendizado de Características através de Arquiteturas Baseadas em Transformers

Leo Sampaio Ferraz Ribeiro

Texto completo
Autor(es):	Leo Sampaio Ferraz Ribeiro Número total de Autores: 1
Tipo de documento:	Tese de Doutorado
Imprenta:	São Carlos.
Instituição:	Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB)
Data de defesa:	2023-02-28
Membros da banca:	Moacir Antonelli Ponti; José Manuel Saavedra Rondo; Diego Furtado Silva; Ricardo da Silva Torres
Orientador:	Moacir Antonelli Ponti
Resumo
Dentro do campo de Visão Computacional, a tarefa de Busca Visual entre Domínios é uma das mais úteis e estudadas e ainda assim raramente experimentadas em nosso cotidiano. Nesta tese exploramos a Busca Visual entre Domínios, usando a tarefa de Busca de Imagens baseada em Desenhos (Sketch-based Image Retrieval, SBIR) como sua representante. Descrevemos quatro hipóteses distintas sobre como avançar esse campo de pesquisa e comprovamos a validade de cada uma através das contribuições explicitadas. Primeiro apresentamos uma nova arquitetura, chamada Sketchformer, para o aprendizado de representações de desenhos, que troca as redes convolucionais tradicionais pelo recente modelo Transformer. Então exploramos duas definições alternativas para a tarefa de SBIR, cada uma aproximando melhor a escala e generalização necessárias para implementação no mundo real. Para ambas tarefas introduzimos modelos do estado-da-arte: nosso Scene Designer combina tradicionais redes de múltiplos ramos com uma rede neural em grafo para aprender representações de cenas desenhadas com múltiplos objetos; nosso Sketch-an-Anchor mostra que é possível usar o conhecimento geral que existe em modelos pré-treinados para a tarefa de Zero-shot SBIR. Estas contribuições tem um impacto direto na literatura de tarefas baseadas em desenhos e um impacto em cascata para as áreas de Compreensão de Imagens e Representações Entre Domínios em geral. (AU)

Processo FAPESP:	17/22366-8 - Redes geradoras e aprendizado de características para busca entre domínios visuais
Beneficiário:	Leo Sampaio Ferraz Ribeiro
Modalidade de apoio:	Bolsas no Brasil - Doutorado Direto

URL curto