Bolsa 22/09849-8 - Visão computacional, Aprendizado computacional - BV FAPESP
Busca avançada
Ano de início
Entree

Cena em grafos ruidosa com aprendizado auto-supervisionado para rede neural de baseada em grafos para tarefa resposta visual a perguntas

Processo: 22/09849-8
Modalidade de apoio:Bolsas no Exterior - Estágio de Pesquisa - Mestrado
Data de Início da vigência: 01 de outubro de 2022
Data de Término da vigência: 31 de março de 2023
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Bruno César de Oliveira Souza
Supervisor: Michael Christian Kampffmeyer
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Instituição Anfitriã: University of Oslo (UiO), Noruega  
Vinculado à bolsa:20/14452-4 - Tarefa de resposta a perguntas visuais com redes de convolução em grafos, BP.MS
Assunto(s):Visão computacional   Aprendizado computacional   Processamento de linguagem natural
Palavra(s)-Chave do Pesquisador:Computer Vision | Cross Modal learning | Graph Neural Network | machine learning | natural language processing | Visual Question Answering | Machine Learning

Resumo

O Visual Question Answering (VQA) é um campo de pesquisa multimodelo com o objetivo de responder a perguntas baseada em imagens. Sua atratividade é causada por combinar dois campos que normalmente são individuais como CV e PLN. Para alcançar um alinhamento abrangente e semântico entre os dois campos, alguns trabalhos que focam em vieses nos dados, e outros direcionam à modelos pré treinados em linguagem visual, como o UNITER, ou mesmo módulo neural redes. No entanto, trabalhos recentes aumentaram o alcance da pesquisa usando Scene Graphs (SG) para a tarefa de VQA.O SG fornece uma representação gráfica da imagem, contendo informações sobre os objetos e suas possíveis relações. Essa representação pode ser mais vantajosa do que as características típicas de objeto extraídos, pois carrega informações sobre o relacionamento e permite maior interpretabilidade. Embora, SG esteja intimamente relacionado ao VQA, a pesquisa SG-QA permanece relativamente pouco explorada. Tentativas esporádicas em SG-VQA propõem vários mecanismos de atenção projetados principalmente para grafos totalmente conectados, falhando assim em modelar e capturar as informações estruturais importantes do SG. Trabalhos anteriores propuseram arquiteturas de perguntas de imagem pré-treinadas para uso com grafos de cena e avaliaram várias técnicas de geração de SG para imagens não vistas. No entanto, seus trabalhos são limitados a modelos de linguagem visual pré-treinados baseados em atenção. Esses modelos aprendem por meio de pré-treinamento em larga escala sobre conjuntos de dados de texto e imagem em conjunto e são normalmente usados para extrair uma incorporação contextualizada multimodal para uma determinada imagem e pergunta. Ou seja, trabalhos recentes não utilizam em suas análises modelos que são projetados para serem aplicados diretamente em grafos, como o Graph Neural Network (GNN).Neste trabalho, exploramos o uso de SG para resolver a tarefa de VQA por meio de modelos que tratam de representação baseada em grafos por meio de técnicas de passagem de mensagens como GNN.O GNN foi projetado para realizar inferências em dados descritos por grafos. A intuição é que para entender melhor o papel do uso do SG para melhorar o VQA, é necessário verificar o comportamento dos modelos que são projetados para esse tipo de representação. O estado da arte em SG-VQA é alcançado quando o SG das imagens é obtido manualmente usando o grafo de cena rotulados (GTSG).Este projeto teve como objetivo estender essa versão para um grafo de cena de geração automática da imagem, pois os gráficos de cena anotados são impraticáveis no mundo real. Além disso, pretendemos alavancar a geração guiada por perguntas que pode levar a geração SG a apresentar uma distribuição particular relacionada ao tipo de pergunta fundamentada em uma determinada imagem. Sem o GTSG, propomos aplicar o aprendizado autossupervisionado (SSL) com aprendizado contrastivo como tarefa de pretexto. O SSL pode melhorar a representação por meio do aprendizado de sinais de supervisão a partir de dados não rotulados e o aprendizado contrastivo visa maximizar a concordância de representações entre instâncias gráficas semelhantes, enquanto a concordância entre instâncias gráficas diferentes é minimizada. Portanto, SSL pode melhorar a representação de incorporação de grafos maximizando a informação mútua (MI) entre visualizações aumentadas geradas a partir do mesmo SG enquanto minimiza o MI entre SG diferentes. Assim, ao contrário de trabalhos anteriores, examinamos o comportamento de modelos baseados em GNN com grafos de cena com ruído gerados no contexto da tarefa VQA. Estendemos a abordagem gerada por SG a partir de imagens brutas usando um gerador de grafo de cena pré-treinado que é mais geral e prático. Além disso, pretendemos treinar conjuntamente o modelo de forma SSL para que o modelo aprenda uma melhor representação do SG e para a tarefa de VQA visando responder corretamente a questão. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)