Busca avançada
Ano de início
Entree

Brasil em foco: um grande modelo de linguagem multimodal focado no contexto brasileiro para geração de texto

Processo: 24/07969-1
Modalidade de apoio:Bolsas no Brasil - Doutorado Direto
Data de Início da vigência: 01 de outubro de 2024
Situação:Interrompido
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Sandra Eliza Fontes de Avila
Beneficiário:Gabriel Oliveira dos Santos
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Bolsa(s) vinculada(s):25/00837-5 - Modelo Multilíngue de Visão e Linguagem com Capacidade de Aprendizado no Contexto, BE.EP.DD
Assunto(s):Inteligência artificial   Processamento de linguagem natural   Multimodalidade   Texto   Brasil
Palavra(s)-Chave do Pesquisador:Aprendizado Multimodal | Modelos de linguagem | Processamento de Linguagem Natural | Inteligência Artificial

Resumo

O campo de Processamento de Linguagem Natural (PNL) vem passando por significativas transformações, marcadas principalmente por Grandes Modelos de Linguagem (LLMs). Contudo, uma limitação inerente a estes modelos é a incapacidade de processar modalidades de dados além do texto. Para resolver isto, nos últimos anos, diferentes Modelos Multimodais de Grandes Linguagens (MLLMs) foram propostos para estender os LLMs para outras modalidades. Apesar dos avanços, a literatura existente concentra-se predominantemente em línguas de muitos recursos e negligencia os aspectos culturais, perpetuando vieses em relação às visões de mundo dominantes. Diante disso, esta pesquisa propõe a construção de um MLLM adaptado à língua portuguesa e ao contexto brasileiro. Especificamente, pretendemos desenvolver um framework para construção de um MLLM capaz de gerar descrições em português para imagens, permitindo que seu conhecimento sobre o contexto brasileiro seja continuamente atualizado por meio da integração de um pipeline de Retrieval Augmented Generation (RAG) ao MLLM. Além disso, considerando que estamos trabalhando em um cenário de restrição de dados, pretendemos aproveitar LLMs pré-treinados e especializados em português e propor um bloco que conecte o codificador de imagem ao LLM de forma que o nosso MLLM possa realizar tarefas no estilo de aprendizado no contexto (in-context learning). As propostas existentes na literatura são computacionalmente caras; por outro lado, pretendemos treinar nosso modelo a um custo baixo. Além disso, pretendemos realizar um estudo de caso de nosso framework aplicado para identificar manifestações da cultura brasileira. Nossa hipótese é que o condicionamento da geração de legendas com base em dados centrados no Brasil aumentará a capacidade do nosso modelo de reconhecer elementos da cultura brasileira. Nesse sentido, buscamos contribuir para o avanço do desenvolvimento da PNL além dos paradigmas centrados no inglês e possibilitar aos brasileiros o acesso a sistemas linguisticamente acurados e contextualmente adaptados e relevantes. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)