Busca avançada
Ano de início
Entree


Hierarchical variational vistual attention

Texto completo
Autor(es):
Darley Freire Barreto
Número total de Autores: 1
Tipo de documento: Dissertação de Mestrado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:
Membros da banca:
Adín Ramírez Rivera; Esther Luna Colombini; Roberto de Alencar Lotufo
Orientador: Adín Ramírez Rivera
Resumo

A atenção em inteligência artificial foi inspirada pela atenção visual humana e projetada para aumentar a flexibilidade dos modelos neurais, fornecendo uma noção de relevância ao modelo. As entradas visuais completas podem conter informações excessivas que afetam os modelos, podendo prejudicar seu desempenho. Ao atender regiões de interesse de uma imagem, um modelo pode controlar o fluxo de informações, focando em partes relevantes que ajudam a realizar uma tarefa, possivelmente reduzindo a complexidade do aprendizado no modelo que utilizará estas regiões atendidas. Este trabalho propõe modelar atenção como amostras de uma distribuição variacional, computando a probabilidade da localização de todos os píxeis com respeito à distribuição predita, criando uma máscara na imagem de entrada. Três modelos similares são apresentados e avaliados, a idéia central é utilizar uma rede neural para predizer parâmetros de uma distribuição Normal, cujas amostras representam o centro de uma máscara de atenção no espaço dos pixels, com tamanho dado pelo desvio padrão predito. Inicialmente um modelo é proposto para predizer quatro parâmetros e criar uma distribuição hierárquica, onde estes parâmetros são usados para criar uma distribuição Normal e uma Gama, em seguida amostras de ambas são usadas para criar uma segunda Normal, que por fim é utilizada para gerar a atenção. Contudo, experimentos mostraram que esta abordagem não é suficiente para a predição de máscaras atencionais robustas. Por isso, um segundo modelo com apenas um nível é proposto, assim apenas dois parâmetros precisam ser preditos para criar uma distribuição Normal e fazer amostragem das máscaras. Similarmente ao primeiro modelo, a atenção predita está muito aquém do esperado, divergindo consideravelmente dos rótulos de treino, validação e teste. Por fim, um terceiro modelo é proposto com o objetivo de simplificar o segundo, removendo a necessidade de predizer o desvio padrão, focando apenas da média da distribuição Normal. Com os experimentos realizados em todos os métodos em conjuntos sintéticos e dados reais, conclui-se que a modelagem e a função de otimização considerada neste trabalho não são suficientes para conduzir o modelo em um conjunto de dados genéricos. Na configuração mais simples, isto é, predizendo apenas a média da distribuição atencional, experimentos mostram o modelo não consegue aprender com pouca variabilidade de amostras. Porém, quando se aumenta o número de instâncias e classes, o modelo consegue resultados aceitáveis em comparação às alternativas. Contudo, ao aumentar o número de instâncias, o modelo é mais uma vez incapaz de aprender, revelando que há um limiar entre a complexidade dos dados e a capacidade da modelagem (AU)

Processo FAPESP: 18/10027-7 - Um modelo atencional para classificação de vídeos
Beneficiário:Darley Freire Barreto
Modalidade de apoio: Bolsas no Brasil - Mestrado