Busca avançada
Ano de início
Entree


Enhancement of visual information in image-based question answering tasks with scene graph data using self-supervised learning

Texto completo
Autor(es):
Bruno César de Oliveira Souza
Número total de Autores: 1
Tipo de documento: Dissertação de Mestrado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:
Membros da banca:
Adín Ramírez Rivera; Thiago Alexandre Salgueiro Pardo
Orientador: Hélio Pedrini; Adín Ramírez Rivera
Resumo

A interseção entre visão e linguagem desperta um interesse significativo, uma vez que há um foco crescente na integração perfeita entre o reconhecimento visual e a capacidade de raciocínio. Os grafos de cena surgiram como uma ferramenta útil para tarefas multimodais de imagem e linguagem, demonstrando um alto desempenho em tarefas tais como Respostas a Perguntas Visuais (do inglês, \textit{Visual Question Answering}). No entanto, os métodos atuais que utilizam grafos de cena idealizados e anotados costumam enfrentar dificuldades para generalizar quando utilizam grafos de cena extraídos diretamente das imagens. Neste estudo, abordamos esse desafio ao introduzir a abordagem SelfGraphVQA. Nosso método envolve a extração de um grafo de cena de uma imagem de entrada usando um gerador de grafo de cena pré-treinado e, em seguida, aprimora as informações visuais por meio de técnicas de autossupervisão. Ao utilizar a autossupervisão, nosso método refina a utilização das representações de grafo nas tarefas de VQA, eliminando a necessidade de dados de anotação dispendiosos e potencialmente tendenciosos. Além disso, utilizamos técnicas de aumento de imagem para criar visões alternativas dos grafos de cena extraídos, permitindo a aprendizagem de representações conjuntas por meio de uma abordagem contrastiva que otimiza o conteúdo informativo em suas representações. Em nossas experimentações, exploramos três estratégias contrastivas distintas: focadas nos nós, focadas nos grafos e regularização de equivariância de permutação, todas adaptadas ao processamento de grafos de cena. Por meio de avaliações empíricas, demonstramos a eficácia dos grafos de cena extraídos em tarefas de VQA, superando as limitações de depender apenas de grafos de cena anotados. Além disso, ilustramos que nossa abordagem de autossupervisão aprimora significativamente o desempenho geral dos modelos de VQA, enfatizando a importância das informações visuais. Como resultado, nosso método oferece uma solução mais prática e eficiente para tarefas de VQA que dependem de grafos de cena para abordar perguntas complexas de raciocínio. Em suma, nosso estudo demonstra a eficácia do uso de técnicas de autossupervisão para aprimorar a utilização de grafos de cena em tarefas de VQA. Ao contornar as limitações dos grafos de cena idealizados e anotados, promovemos uma abordagem robusta para incorporar informações visuais na compreensão multimodal. O método SelfGraphVQA contribui para o avanço da integração perfeita entre visão e linguagem, alavancando novas possibilidades para melhorar o reconhecimento e o raciocínio no campo das tarefas de imagem e linguagem (AU)

Processo FAPESP: 20/14452-4 - Tarefa de resposta a perguntas visuais com redes de convolução em grafos
Beneficiário:Bruno César de Oliveira Souza
Modalidade de apoio: Bolsas no Brasil - Mestrado