Busca avançada
Ano de início
Entree

FACE: Animação Facial com Emoções Contextuais Dinâmicas

Processo: 24/13098-3
Modalidade de apoio:Bolsas no Brasil - Mestrado
Data de Início da vigência: 01 de março de 2025
Data de Término da vigência: 31 de julho de 2026
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Paula Dornhofer Paro Costa
Beneficiário:Pedro Rodrigues Corrêa
Instituição Sede: Faculdade de Engenharia Elétrica e de Computação (FEEC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Empresa:Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação (FEEC)
Vinculado ao auxílio:20/09838-0 - BI0S - Brazilian Institute of Data Science, AP.PCPE
Bolsa(s) vinculada(s):25/09875-7 - TTS Multimodal Expressivo para Robôs, BE.EP.MS
Assunto(s):Aprendizagem profunda   Emoções   Face   Inteligência artificial   Voz
Palavra(s)-Chave do Pesquisador:Animações | Aprendizado profundo | Emoções | face | Inteligência Artificial | voz | Inteligência Artificial Generativa

Resumo

Animações faciais expressivas são tidas pelos espectadores como mais naturais (pouca rejeição e estranheza ao conteúdo) quando estão em sintonia com o conteúdo e a forma como é comunicado pelo interlocutor. Nesse contexto, diversos métodos existentes perdem flexibilidade, pois são dependentes de rótulos emotivos pré-determinados ou modelos de expressões faciais, o que limita uma representação fidedigna das emoções expressas na face. Alguns modelos de animação guiadas por fala utilizam de processamento de linguagem natural para controlar o estilo (expressividade), mas se limitam a prompts textuais simples e que não necessariamente estão em concordância com o status do interlocutor, que varia ao longo de um discurso. Este projeto se propõe a desenvolver um método que utiliza fala e texto para gerar animações faciais expressivas a partir da descrição desse status dinâmico, enfatizando os movimentos de elementos faciais (boca, nariz, sobrancelha), assim como o teor emotivo do discurso. A partir do áudio da fala, um modelo de linguagem natural baseado na arquitetura Transformers fará essa descrição textual. Esse texto servirá como guia dinâmico das expressões para a geração das animações faciais geradas por um modelo speech-driven. Ademais, será construído um dataset a partir de métodos de anotação automática utilizando LLMs (Large Language Models), o qual vai associar expressões faciais a diversas descrições textuais. Esse dataset será utilizado para treinar um modelo baseado em CLIP (Contrastive Language-Image Pretraining) que consegue codificar, em um mesmo espaço semântico, animação e texto. Esse processo visa garantir que a expressividade da face do interlocutor esteja de acordo com seu status, isto é, a forma que ele transmite o conteúdo falado, a todo momento.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)