Busca avançada
Ano de início
Entree

Espaço de Representação Multimodal para Geração de Dados Guiados por Texto

Processo: 23/05939-5
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de outubro de 2023
Data de Término da vigência: 31 de março de 2026
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Sandra Eliza Fontes de Avila
Beneficiário:Diego Alysson Braga Moreira
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Vinculado ao auxílio:13/08293-7 - CECC - Centro de Engenharia e Ciências Computacionais, AP.CEPID
Bolsa(s) vinculada(s):24/07164-3 - Espaço de Representação Multimodal para Geração de Dados Guiados por Texto, BE.EP.DR
Assunto(s):Aprendizagem profunda   Linguagem natural   Multimodalidade
Palavra(s)-Chave do Pesquisador:Aprendizado profundo | Linguagem Natural | Multimodalidade | Treinamento Contrastivo | Robótica e Inteligência de Máquina

Resumo

Espaços de representação multidimensionais por treinamentos contrastivos, que envolvem imagens e textos, são propostos como uma forma de aproximar conceitos relacionados entre sinais modais. Alguns trabalhos expandem este mesmo conceito para áudio, fala ou sons ambientes, através da aproximação com sua descrição. Porém, até o momento, nenhum trabalho disponível na literatura relaciona conceitos de áudio, imagem e texto, ou cria ambientes com mais de dois tipos de dados. Entre os desafios da multimodalidade está a língua dos textos utilizados para a formação do espaço de aprendizado e treinamento dos modelos. Línguas de poucos recursos, que incluem o português, são deixados à margem da pesquisa e avanço mundial. É necessário que mais recursos e dados sejam produzidos para estas línguas, de forma que as técnicas consideradas estado da arte, também reflitam na produção tecnológica dos países falantes. Este projeto de pesquisa de doutorado propõe a criação de um espaço multimodal entre três ou mais tipos de dados, aproximando conceitos relacionados, com a possibilidade de adição de informações de sensores (por exemplo, acelerômetro, giroscópio e magnetômetro). Esperamos reaver conceitos por meio de dados relacionados, além de criar um novo conjunto de informações a partir dos dados modais, por conceitos semelhantes. Será utilizado como língua textual o português brasileiro, com intenção de fornecer modelos e dados que colaborem com o avanço das tecnologias de aprendizado e processamento de linguagem natural no Brasil. Entre as metas esperadas, têm-se múltiplos conjuntos de dados, com imagens/textos inteiramente em português, criados ou traduzidos, além de modelos concorrentes com os encontrados em línguas de altos recursos.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)