Busca avançada
Ano de início
Entree

Modelos Multimodais para Imagens e Representações 3D em uma Abordagem Unificada de Visão e Linguagem

Processo: 24/09462-1
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de outubro de 2024
Data de Término da vigência: 31 de março de 2028
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Moacir Antonelli Ponti
Beneficiário:Márcus Vinícius Lobo Costa
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:19/07316-0 - Teoria de singularidades e aplicações a geometria diferencial, equações diferenciais e visão computacional, AP.TEM
Assunto(s):Aprendizagem profunda   Processamento de linguagem natural   Visão computacional
Palavra(s)-Chave do Pesquisador:Aprendizado Few-shot | Aprendizado profundo | Modelos de Visão-Linguagem | Processamento de Linguagem Natural | Representações 3D | Visão Computacional | Visão Computacional

Resumo

O reconhecimento visual na classificação de imagens, detecção de objetos e segmentação semântica continua sendo um desafio significativo na visão computacional, principalmente quando se trata de aprender representações de dados em 3D e sua relação com o domínio 2D. Com o advento de técnicas avançadas de aprendizagem profunda em visão, inspiradas por avanços no processamento de linguagem natural, levou ao surgimento de um novo paradigma multimodal: Modelos de visão e linguagem (VLMs). Esses modelos integram representações visuais e textuais, oferecendo uma direção promissora para pesquisas futuras. No entanto, atualmente, os VLMs não são adequados para lidar com as complexidades da representação de dados em 3D. Compreender a semântica e a representação de características de cada ponto em um espaço de projeção 3D é fundamental para o avanço nesse domínio. Este projeto visa unificar as representações de aprendizagem nativas para acessar e utilizar essas representações multimodais e compartilhadas de maneira eficaz. Além disso, planejamos empregar técnicas de recuperação e geração de texto para elucidar as relações semânticas entre as descrições textuais e o conteúdo visual-espacial. Apesar do progresso na literatura, não há técnicas existentes que resolvam totalmente esse problema. Nossa pesquisa se concentrará em preencher essa lacuna, fornecendo uma base para soluções de representação de dados em 3D mais robustas e integradas.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)