Busca avançada
Ano de início
Entree


On the spatial dilemma linking deep motion retargeting and disentangled representations from video

Texto completo
Autor(es):
Juan Felipe Hernández Albarracín
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:
Membros da banca:
Adín Ramírez Rivera; Erickson Rangel do Nascimento; Claudio Rosito Jung; Hélio Pedrini; Sandra Eliza Fontes de Avila
Orientador: Adín Ramírez Rivera
Resumo

Reencenação de Vídeo consiste em animar o objeto de interesse numa imagem ou vídeo base, de acordo com o movimento descrito num vídeo a ser imitado. Técnicas modernas de reencenação necessariamente trabalham com uma noção de independência entre o objeto de interesse (conteúdo) e o seu movimento, de tal forma que rasgos visuais do conteúdo não vazem na hora de animar um outro objeto. Embora a forma de concretizar esta noção de independência seja bastante diversa na literatura, as abordagens no estado da arte têm um aspecto em comum: elas trabalham com representações em grandes espaços dimensionais que são redundantes em informação espacial, portanto o espaço da representação costuma ser maior do que o espaço original dos dados. Os modelos de reencenação que operam em espaços de representação de baixa dimensionalidade são naturalmente menos bem sucedidos, devido à quantidade de informação espacial que se perde. No entanto, eles produzem representações compactas que possuem propriedades interessantes, e que tornam eles mais convenientes para inúmeras tarefas, além de reencenação. Nesta tese, estudamos a capacidade de Modelos Generativos Profundos, baseados em Autocodificadores Variacionais, para obter uma reencenação de qualidade ao operar exclusivamente em espaços de representação de baixa dimensionalidade. Nós implementamos três modelos nos quais a noção de independência entre o conteúdo e o movimento é aplicada ao aprender representações desemaranhadas que codificam explicitamente esses dois fatores de variação. Cada modelo aplica diferentes vieses indutivos próprios de técnicas de supervisão fraca e auto-supervisão, assim como sinais de supervisão mais concretos pensados para informar o modelo sobre informação espacial, sem precisar de representações explícitas de grande dimensionalidade. A nossa contribuição é dupla: em primeiro lugar, desenhamos e implementamos modelos que aprendem representações desemaranhadas, compactas e com carga semântica que separam informação de conteúdo da informação de movimento e, em segundo lugar, exploramos diversas técnicas para encarar o dilema de prescindir de informação espacial (e consequentemente de qualidade na reencenação) para promover a inferência de representações de qualidade. Os nossos resultados mostram que os modelos implementados são bem sucedidos não só em reduzir a diferença de desempenho entre modelos de espaço latente de baixa dimensionalidade e modelos no estado da arte em reencenação, mas também em obter representações que possam ser úteis em diversas tarefas de aprendizado automático (AU)

Processo FAPESP: 17/16144-2 - Transferência de dinâmica de vídeo para vídeo com modelos generativos profundos
Beneficiário:Juan Felipe Hernández Albarracín
Modalidade de apoio: Bolsas no Brasil - Doutorado