Busca avançada
Ano de início
Entree

Tarefa de resposta a perguntas visuais com redes de convolução em grafos

Processo: 20/14452-4
Linha de fomento:Bolsas no Brasil - Mestrado
Vigência (Início): 01 de maio de 2021
Vigência (Término): 28 de fevereiro de 2023
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Bruno César de Oliveira Souza
Instituição-sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Assunto(s):Grafos   Processamento de linguagem natural   Visão computacional   Fontes de informação

Resumo

O Visual Question Answer (VQA) é uma tarefa que visa responder a uma pergunta do usuário com base em uma determinada imagem. Normalmente, esta tarefa requer uma combinação de conceitos de Visão Computacional e Processamento de Linguagem Natural. A maioria dos sistemas VQA existentes mesclam os recursos de imagem e pergunta extraídos para prever uma resposta. No entanto, essa fusão multimodal mostra uma lacuna significativa no entendimento semântico entre a relação da imagem e da questão. Para realizar uma melhor compreensão holística da cena, propomos a aplicação de uma abordagem baseada em grafos combinando o recurso de pergunta relacionado à imagem de entrada. O principal objetivo de nossa pesquisa é fornecer avanços na tarefa de VQA, utilizando estrutura de representação gráfica que melhora as conexões entre os atributos. Para tanto, é necessário criar arquiteturas para obter uma representação gráfica que codifique o recurso a partir do conteúdo da imagem, da questão da linguagem natural e de suas relações. Então, pretendemos usar uma rede neural de grafos (GNN) que aprenderá a relação da representação gráfica VQA entre uma questão específica baseada na imagem de entrada, a fim de produzir a resposta prevista correta. Finalmente, para trazer mais 'razão' à nossa proposta, pretendemos usar a nova tarefa de responder a perguntas visuais com base em fatos (FVQA). Uma abordagem 'baseada em fatos' fornece ao modelo uma lista de possíveis fatos relacionados à pergunta. O método recebe o 'fato' por meio de uma abordagem de base de conhecimento (KB) extraída de diferentes fontes de informação. (AU)