| Processo: | 22/12294-8 |
| Modalidade de apoio: | Bolsas no Brasil - Doutorado |
| Data de Início da vigência: | 01 de abril de 2023 |
| Data de Término da vigência: | 31 de agosto de 2025 |
| Área de conhecimento: | Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação |
| Pesquisador responsável: | Hélio Pedrini |
| Beneficiário: | Leandro Stival |
| Instituição Sede: | Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil |
| Bolsa(s) vinculada(s): | 23/11556-1 - Novos métodos de aprendizado profundo para imagens de sensoriamento remoto, BE.EP.DR |
| Assunto(s): | Aprendizagem profunda Aprendizado computacional |
| Palavra(s)-Chave do Pesquisador: | Deep Learning | Key frames | Video Colorization | Visual Transformers | Aprendizado de Máquina |
Resumo O processo de colorização consiste em reconstituir as cores das imagens ou vídeos que não capturaram essa informação no momento da obtenção da informação do pixel. Nesse sentido, a restauração de cores de imagens e vídeos originalmente era feita manualmente, o que exigia um excesso de horas no processo de coloração e era algo muito propenso a falhas. Com o surgimento das imagens e vídeos digitais, o processo de colorização foi informatizado, agilizando assim o processo, porém, o desenvolvimento permaneceu caro e manual.Desta forma, este projeto irá criar um pipeline capaz de prever a cor de um pixel no vídeo original quando apenas uma imagem de cor de amostra estiver disponível. Esse tipo de ferramenta é muito importante para muitas aplicações práticas, como restauração de vídeos antigos, sensoriamento remoto, raios-x e animações para colorir. E como ainda não existe uma solução ótima e definida para este problema, esta pesquisa é mais do que necessária e atual.O método de previsão proposto neste projeto utiliza as mais recentes técnicas de aprendizado de máquina, como uma topologia U-net com codificador e decodificador, onde o gargalo será implementado usando um modelo baseado em ViT (Visual Transformer) para manter o contexto temporal.A principal diferença entre este projeto e os trabalhos atuais presentes na literatura vai além da arquitetura ViT + U-net. No entanto, a opção pelo uso de keyframes permite a identificação de mudanças bruscas nas cenas. Isso melhora a consistência temporal do processo colorindo individualmente cada cena com base em seu quadro-chave.Todo o pipeline será treinado em um conjunto de dados criado a partir de vídeos do site da Videovo. Muitos vídeos curtos estão disponíveis neste site sem copywriting, que é uma técnica comum entre outros trabalhos na literatura de colorização.Espera-se, ao final do projeto, obter um modelo robusto capaz de fazer esse tipo de previsão, bem como avançar no conhecimento de formas de criar funções de perda para métodos de colorização. Esses são alguns dos aspectos mais desafiadores da literatura, juntamente com a manutenção da saturação de cor, consistência temporal e escolha do espaço de cor ideal para esse tipo de método. | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |