Busca avançada
Ano de início
Entree

Tarefa de resposta a perguntas visuais com redes de convolução em grafos

Processo: 20/14452-4
Modalidade de apoio:Bolsas no Brasil - Mestrado
Data de Início da vigência: 01 de maio de 2021
Data de Término da vigência: 31 de agosto de 2023
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Bruno César de Oliveira Souza
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Bolsa(s) vinculada(s):22/09849-8 - Cena em grafos ruidosa com aprendizado auto-supervisionado para rede neural de baseada em grafos para tarefa resposta visual a perguntas, BE.EP.MS
Assunto(s):Grafos   Processamento de linguagem natural   Visão computacional   Fontes de informação
Palavra(s)-Chave do Pesquisador:grafos | Knowledge base | Processamento de Linguagem Natural | Visão Computacional | Visual Question Answering | Visão Computacional e Processamento de Linguagem Natural

Resumo

O Visual Question Answer (VQA) é uma tarefa que visa responder a uma pergunta do usuário com base em uma determinada imagem. Normalmente, esta tarefa requer uma combinação de conceitos de Visão Computacional e Processamento de Linguagem Natural. A maioria dos sistemas VQA existentes mesclam os recursos de imagem e pergunta extraídos para prever uma resposta. No entanto, essa fusão multimodal mostra uma lacuna significativa no entendimento semântico entre a relação da imagem e da questão. Para realizar uma melhor compreensão holística da cena, propomos a aplicação de uma abordagem baseada em grafos combinando o recurso de pergunta relacionado à imagem de entrada. O principal objetivo de nossa pesquisa é fornecer avanços na tarefa de VQA, utilizando estrutura de representação gráfica que melhora as conexões entre os atributos. Para tanto, é necessário criar arquiteturas para obter uma representação gráfica que codifique o recurso a partir do conteúdo da imagem, da questão da linguagem natural e de suas relações. Então, pretendemos usar uma rede neural de grafos (GNN) que aprenderá a relação da representação gráfica VQA entre uma questão específica baseada na imagem de entrada, a fim de produzir a resposta prevista correta. Finalmente, para trazer mais 'razão' à nossa proposta, pretendemos usar a nova tarefa de responder a perguntas visuais com base em fatos (FVQA). Uma abordagem 'baseada em fatos' fornece ao modelo uma lista de possíveis fatos relacionados à pergunta. O método recebe o 'fato' por meio de uma abordagem de base de conhecimento (KB) extraída de diferentes fontes de informação. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
SOUZA, Bruno César de Oliveira. Enhancement of visual information in image-based question answering tasks with scene graph data using self-supervised learning. 2023. Dissertação de Mestrado - Universidade Estadual de Campinas (UNICAMP). Instituto de Computação Campinas, SP.