Busca avançada
Ano de início
Entree


Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos

Texto completo
Autor(es):
Mateus Roder
Número total de Autores: 1
Tipo de documento: Dissertação de Mestrado
Imprenta: Bauru. 2021-03-23.
Instituição: Universidade Estadual Paulista (Unesp). Faculdade de Ciências. Bauru
Data de defesa:
Orientador: João Paulo Papa
Resumo

Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas. (AU)

Processo FAPESP: 19/07825-1 - Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
Beneficiário:Mateus Roder
Modalidade de apoio: Bolsas no Brasil - Mestrado