Busca avançada
Ano de início
Entree

Aprendizado multilíngue e multimodal usando LXMERT

Processo: 20/15995-1
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de abril de 2021
Vigência (Término): 31 de março de 2022
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Helena de Medeiros Caseli
Beneficiário:Júlia Yumi Araújo Sato
Instituição-sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Aprendizado computacional   Processamento de linguagem natural   Dicionários multilíngues   Modalidades sensoriais

Resumo

Os humanos lidam constantemente com informações multimodais, ou seja, conjuntos de dados de diferentes modalidades, como texto e imagens. Para as máquinas processarem a informação de forma semelhante aos humanos, elas devem ser capazes de processar dados multimodais e compreender a relação conjunta entre essas modalidades, não apenas texto ou imagens de forma isolada, por exemplo. Esse aspecto multimodal do aprendizado pode ser bastante útil em aplicações multilíngue, isto é, aplicações que envolvem dois ou mais idiomas. Este projeto propõe a incorporação de informações multilíngue à framework LXMERT (Learning Cross-Modality Encoder Representations from Transformers), proposta por Tan e Bansal (2019). Para isso, vamos utilizar a coleção de dados multimodal e multilíngue How2 (SANABRIA et al., 2018) em 3 vias paralelas com informações inglês-português-visuais alinhadas, adicionando dois componentes à arquitetura LXMERT: (1) um codificador do idioma de destino (português) e (2) um codificador multilíngue (inglês-português). Dessa forma, o embasamento da linguagem nas regiões da imagem será feito em conjunto entre os idiomas de origem e de destino para a geração de um modelo multilíngue e multimodal útil para diversas aplicações de PLN.