Busca avançada
Ano de início
Entree

Modelo Multilíngue de Visão e Linguagem com Capacidade de Aprendizado no Contexto

Processo: 25/00837-5
Modalidade de apoio:Bolsas no Exterior - Estágio de Pesquisa - Doutorado Direto
Data de Início da vigência: 30 de junho de 2025
Data de Término da vigência: 29 de junho de 2026
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Sandra Eliza Fontes de Avila
Beneficiário:Gabriel Oliveira dos Santos
Supervisor: Matthieu Cord
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Instituição Anfitriã: Université Paris-Sorbonne (Paris 4), França  
Vinculado à bolsa:24/07969-1 - Brasil em foco: um grande modelo de linguagem multimodal focado no contexto brasileiro para geração de texto, BP.DD
Assunto(s):Processamento de linguagem natural   Inteligência artificial
Palavra(s)-Chave do Pesquisador:Aprendizado Multimodal | Modelo Multilíngue | Processamento de Linguagem Natural | Inteligência Artificial

Resumo

O Processamento de Linguagem Natural (PLN) vem passando por significativas transformações, marcadas principalmente pelos LLMs, sigla em inglês para Grandes Modelos de Linguagem. No entanto, uma limitação inerente a esses modelos é a incapacidade de processar modalidades de dados além de texto. Para enfrentar esse desafio, nos últimos anos, diferentes LLMs Multimodais foram propostos para estender os LLMs a outras modalidades. Apesar dos avanços, a literatura existente foca predominantemente em na língua inglesa, e outras poucas línguas ditas com muitos recursos, em detrimento de outras. Diante disso, este projeto BEPE propõe o desenvolvimento de um VLM, sigla em inglês para Modelo de Visão e Linguagem, multilíngue e de baixo custo computacional, capaz de se adaptar a tarefas envolvendo textos em idiomas com poucos recursos por meio de aprendizado no contexto. Especificamente, propomos um VLM multilíngue que suporte pares intercalados de imagem e texto, os quais, combinados com uma pipeline de geração aumentada por recuperação de informa, podem melhorar o desempenho do modelo em tarefas de visão e linguagem envolvendo textos em idiomas com poucos recursos, mitigando assim os problemas relacionados à falta de conjuntos de dados anotados. Além disso, planejamos desenvolver uma pipeline de baixo custo para o treinamento de VLMs, aproveitando LLMs multilíngues e codificadores de imagem pré-treinados, além de empregar técnicas de ajuste fino eficientes em termos de parâmetros. Dessa forma, buscamos avançar a literatura de PLN para além dos paradigmas centrados no inglês e contribuir para um panorama tecnológico mais inclusivo e diverso.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)