Busca avançada
Ano de início
Entree

Transferência de dinâmica de vídeo para vídeo com modelos generativos profundos

Processo: 17/16144-2
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de setembro de 2018
Data de Término da vigência: 12 de janeiro de 2022
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Juan Felipe Hernández Albarracín
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Assunto(s):Visão computacional   Processamento de imagens   Vídeo   Redes neurais (computação)   Semântica
Palavra(s)-Chave do Pesquisador:Adaptação do domínio | Modelos generativos profundos | Transferência de dinâmica | Videos | Visão computacional

Resumo

Geração automática de conteúdo é uma área que teve um grande impulso nos últimos anos, graças ao advento dos modelos generativos profundos. Atualmente, redes neurais podem criar textos, imagens e vídeos baseando-se em rótulos de classes ou outro tipo de conteúdo. A maior parte da pesquisa nessa área está focalizada em edição semântica de imagens (e.g., transferência de estilo artístico ou transfiguração de objetos) e predição de vídeo. No domínio dos vídeos, em particular, existem relativamente poucas pesquisas visando propósitos diferentes da geração de fotogramas futuros dada uma determinada sequência. Portanto, nesta proposta pretendemos explorar a área de geração de vídeo ao estender ideias existentes na literatura para a transferência da dinâmica, um cenário pouco explorado com um grande potencial de aplicações inéditas. Visamos realizar a atividade de geração de vídeo, transferindo a dinâmica dos elementos de um vídeo para objetos contidos numa outra sequência. A nossa abordagem proposta consiste em treinar uma arquitetura em forma de autoencoder que projete os vídeos em um hyper-espaço latente que separe a aparência da dinâmica dos objetos nele, e permita a reconstrução de novos vídeos. Para levar a cabo a transferência, a aparência de um objeto em um vídeo A é usada junto com a dinâmica de um objeto em um vídeo B (extraído do codificador) como entrada do decodificador para gerar o vídeo resultante. Vamos usar uma abordagem de treino cruzado para aprender espaços robustos que representem a dinâmica. O desafio encarado é a falta de autoencoders robustos para dados de vídeo, uma vez que os modelos generativos atuais ainda não conseguem um movimento completamente natural nos vídeos. Deste modo, para nossa pesquisa é preciso construir autoencoders robustos para geração de vídeos que resolvam o problema da consistência de movimento entre fotogramas consecutivos. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
ALBARRACIN, JUAN F. HERNANDEZ; RAMIREZ RIVERA, ADIN. Video Reenactment as Inductive Bias for Content-Motion Disentanglement. IEEE Transactions on Image Processing, v. 31, p. 10-pg., . (17/16144-2, 19/07257-3)
SANTANDER, MIGUEL RODRIGUEZ; ALBARRACIN, JUAN HERNANDEZ; RIVERA, ADIN RAMIREZ. On the pitfalls of learning with limited data: A facial expression recognition case study. EXPERT SYSTEMS WITH APPLICATIONS, v. 183, . (19/07257-3, 16/19947-6, 17/16144-2)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
ALBARRACÍN, Juan Felipe Hernández. On the spatial dilemma linking deep motion retargeting and disentangled representations from video. 2023. Tese de Doutorado - Universidade Estadual de Campinas (UNICAMP). Instituto de Computação Campinas, SP.