Busca avançada
Ano de início
Entree

Aprendendo representações através de modelos generativos profundos em vídeo

Processo: 19/07257-3
Modalidade de apoio:Auxílio à Pesquisa - Regular
Data de Início da vigência: 01 de setembro de 2020
Data de Término da vigência: 31 de julho de 2021
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Gerberth Adín Ramírez Rivera
Beneficiário:Gerberth Adín Ramírez Rivera
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Pesquisadores associados:Anderson de Rezende Rocha ; Hélio Pedrini ; Ricardo da Silva Torres
Assunto(s):Visão computacional  Aprendizado computacional  Redes neurais (computação)  Aprendizagem profunda 
Palavra(s)-Chave do Pesquisador:deep neural networks | generative processes | video synthesis | Computer Vision and Machine Learning

Resumo

A geração automática de mídia (ou síntese) é um campo que teve um incremento incrível nos últimos anos, com o advento de modelos generativos profundos. Atualmente, as redes neurais podem criar textos, imagens e vídeos com base em rótulos de classes ou outras mídias. A tarefa comum é gerar conteúdo. No entanto, podemos aproveitar as representações das características aprendidas sobre essas tarefas para entender sua relevancia e como uma fonte de interpretabilidade. Ou seja, quais características são relevantes para a criação de conteúdo diferente e como podemos interpretar o que os modelos estão aprendendo ou a que estão prestando atenção. Neste projeto, propomos investigar como aprender representações eficientes e ricas para dados de vídeo com base em tarefas geradoras profundas. Nós nos concentramos em dois problemas específicos para aprender representações eficazes. A primeira é a transferência semântica entre modalidades de dados, em particular vídeo e linguagem (escrita). E o segundo é o desemaranhamento dentro do mesmo domínio, isto é, diferentes variações e modalidades dos dados. A separação da semântica (intra e interdomínio) nos permitirá entender melhor o tipo de recursos que são aprendidos pelas diferentes arquiteturas nessas tarefas. Nosso objetivo é treinar os modelos geradores profundos em diferentes tarefas de reconstrução de vídeo e estudar suas capacidades de aprendizagem. Vamos realizar experimentos nos conjuntos de dados de benchmark existentes para os problemas específicos. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (5)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
SAIRE, DARWIN; RIVERA, ADIN RAMIREZ. Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation Task. IEEE ACCESS, v. 9, p. 80654-80670, . (19/18678-0, 19/07257-3, 17/16597-7)
SANTANDER, MIGUEL RODRIGUEZ; ALBARRACIN, JUAN HERNANDEZ; RIVERA, ADIN RAMIREZ. On the pitfalls of learning with limited data: A facial expression recognition case study. EXPERT SYSTEMS WITH APPLICATIONS, v. 183, . (19/07257-3, 16/19947-6, 17/16144-2)
ALBARRACIN, JUAN F. HERNANDEZ; RAMIREZ RIVERA, ADIN. Video Reenactment as Inductive Bias for Content-Motion Disentanglement. IEEE Transactions on Image Processing, v. 31, p. 10-pg., . (17/16144-2, 19/07257-3)
RIVERA, ADIN RAMIREZ; KHAN, ADIL; BEKKOUCH, IMAD EDDINE IBRAHIM; SHEIKH, TAIMOOR SHAKEEL. Anomaly Detection Based on Zero-Shot Outlier Synthesis and Hierarchical Feature Distillation. IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, v. 33, n. 1, p. 281-291, . (19/07257-3)
SAIRE, DARWIN; RIVERA, ADIN RAMIREZ. Global and Local Features Through Gaussian Mixture Models on Image Semantic Segmentation. IEEE ACCESS, v. 10, p. 14-pg., . (19/07257-3, 17/16597-7, 19/18678-0)