Resumo
O Visual Question Answer (VQA) é uma tarefa que visa responder a uma pergunta do usuário com base em uma determinada imagem. Normalmente, esta tarefa requer uma combinação de conceitos de Visão Computacional e Processamento de Linguagem Natural. A maioria dos sistemas VQA existentes mesclam os recursos de imagem e pergunta extraídos para prever uma resposta. No entanto, essa fusão multimo…