Visual rhythm-based convolutional neural networks and adaptive fusion for a multi-stream architecture applied to human action recognition

Helena de Almeida Maia

Texto completo
Autor(es):	Helena de Almeida Maia Número total de Autores: 1
Tipo de documento:	Tese de Doutorado
Imprenta:	Campinas, SP.
Instituição:	Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:	2020-10-27
Membros da banca:	Hélio Pedrini; Rodrigo Luis de Souza da Silva; Tiago José de Carvalho; Esther Luna Colombini; Tiago Fernandes Tavares
Orientador:	Hélio Pedrini; Marcelo Bernardes Vieira
Resumo
A grande quantidade de dados de vídeos produzidos e divulgados todos os dias torna a inspeção visual por um operador humano impraticável. No entanto, o conteúdo desses vídeos pode ser útil para várias tarefas importantes, como vigilância e monitoramento de saúde. Portanto, métodos automáticos são necessários para detectar e compreender eventos relevantes em vídeos. O problema abordado neste trabalho é o reconhecimento das ações humanas em vídeos que visa classificar a ação que está sendo realizada por um ou mais atores. A complexidade do problema e o volume de dados de vídeo sugerem o uso de técnicas baseadas em aprendizado profundo, no entanto, ao contrário de problemas relacionados a imagens, não há uma grande variedade de arquiteturas específicas bem estabelecidas nem conjuntos de dados anotados tão grandes quanto aqueles baseados em imagens. Para contornar essas limitações, propomos e analisamos uma arquitetura de múltiplos canais composta de redes baseadas em imagens pré-treinadas na base ImageNet. Diferentes representações de imagens são extraídas dos vídeos que servem como entrada para os canais, a fim de fornecer informações complementares para o sistema. Neste trabalho, propomos novos canais baseados em ritmo visual que codificam informações de mais longo prazo quando comparados a quadros estáticos e fluxo óptico. Tão importante quanto a definição de aspectos representativos e complementares é a escolha de métodos de combinação adequados que explorem os pontos fortes de cada modalidade. Assim, nós também analisamos diferentes abordagens de fusão para combinar as modalidades. Para definir os melhores parâmetros de nossos métodos de fusão usando o conjunto de treinamento, temos que reduzir o sobreajuste em modalidades individuais, caso contrário, as saídas 100\% precisas não ofereceriam uma representação realista e relevante para o método de fusão. Assim, investigamos uma técnica de parada precoce para treinar redes individuais. Além de reduzir o sobreajuste, esse método também reduz o custo de treinamento, pois normalmente requer menos épocas para concluir o processo de classificação, e se adapta a novos canais e conjuntos de dados graças aos seus parâmetros treináveis. Os experimentos são realizados nos conjuntos de dados UCF101 e HMDB51, que são duas bases desafiadoras no contexto de reconhecimento de ações (AU)

Processo FAPESP:	17/09160-1 - Reconhecimento de Ações Humanas em Vídeos
Beneficiário:	Helena de Almeida Maia
Modalidade de apoio:	Bolsas no Brasil - Doutorado

URL curto