Bolsa 24/07164-3 - Aprendizagem profunda, Linguagem natural - BV FAPESP
Busca avançada
Ano de início
Entree

Espaço de Representação Multimodal para Geração de Dados Guiados por Texto

Processo: 24/07164-3
Modalidade de apoio:Bolsas no Exterior - Estágio de Pesquisa - Doutorado
Data de Início da vigência: 01 de agosto de 2024
Data de Término da vigência: 31 de janeiro de 2025
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Sandra Eliza Fontes de Avila
Beneficiário:Diego Alysson Braga Moreira
Supervisor: Carolina Evaristo Scarton
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Instituição Anfitriã: University of Sheffield, Inglaterra  
Vinculado à bolsa:23/05939-5 - Espaço de Representação Multimodal para Geração de Dados Guiados por Texto, BP.DR
Assunto(s):Aprendizagem profunda   Linguagem natural   Multimodalidade
Palavra(s)-Chave do Pesquisador:Aprendizado profundo | Linguagem Natural | Multimodalidade | Treinamento Contrastivo | Robótica e Inteligência de Máquina

Resumo

Espaços de representação multidimensionais para treinamento contrastivo, envolvendo imagens e textos, são propostos para aproximar conceitos relacionados entre sinais modais. Alguns trabalhos estendem o mesmo conceito para áudio, fala ou sons ambientais, aproximando sua descrição. Contudo, até o momento, não há trabalhos na literatura que relacionam conceitos de áudio, imagem e texto ou criam ambientes com mais de dois tipos de dados, com foco no texto e sua correlação com outros tipos de dados. Além disso, na geração de dados, nenhum estudo utilizou informações multimodais para gerar dados de sensores e não relacionou este tipo de dados com os mencionados anteriormente.Um dos desafios da multimodalidade é a linguagem utilizada para ensinar os modelos. Línguas com poucos recursos, como o português, estão à margem da pesquisa e do progresso global. Há necessidade de mais recursos e dados para essas linguagens, para que as técnicas de ponta possam terresultados satisfatórios para os países onde estas línguas são faladas.Este projeto propõe criar um espaço multimodal entre três ou mais tipos de dados, reunindo conceitos relacionados entre textos, imagens, áudio e sensores. Esperamos ser capazes de recuperar conceitos usando dados relacionados, bem como criar um novo conjunto de informações a partir de dados modais usando conceitos semelhantes. O português brasileiro será usado como idioma do texto. A intenção é fornecer modelos e dados para ajudar no avanço das tecnologias de aprendizagem e processamento de línguas naturais no Brasil.Os objetivos esperados, que foram parcialmente alcançados, incluem diversos conjuntos de dados com imagens/textos inteiramente em português, criados ou traduzidos, e modelos competitivos com aqueles encontrados em idiomas de altos recursos.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)