Transferência relacional entre tarefas de aprendizado por reforço via políticas abstratas.

Marcelo Li Koga

Texto completo
Autor(es):	Marcelo Li Koga Número total de Autores: 1
Tipo de documento:	Dissertação de Mestrado
Imprenta:	São Paulo.
Instituição:	Universidade de São Paulo (USP). Escola Politécnica (EP/BC)
Data de defesa:	2013-11-21
Membros da banca:	Anna Helena Reali Costa; Reinaldo Augusto da Costa Bianchi; Karina Valdivia Delgado
Orientador:	Anna Helena Reali Costa
Resumo
Na construção de agentes inteligentes para a solução de problemas de decisão sequenciais, o uso de aprendizado por reforço é necessário quando o agente não possui conhecimento suficiente para construir um modelo completo do problema. Entretanto, o aprendizado de uma política ótima é em geral muito lento pois deve ser atingido através de tentativa-e-erro e de repetidas interações do agente com o ambiente. Umas das técnicas para se acelerar esse processo é possibilitar a transferência de aprendizado, ou seja, utilizar o conhecimento adquirido para se resolver tarefas passadas no aprendizado de novas tarefas. Assim, se as tarefas tiverem similaridades, o conhecimento prévio guiará o agente para um aprendizado mais rápido. Neste trabalho é explorado o uso de uma representação relacional, que explicita relações entre objetos e suas propriedades. Essa representação possibilita que se explore abstração e semelhanças estruturais entre as tarefas, possibilitando a generalização de políticas de ação para o uso em tarefas diferentes, porém relacionadas. Este trabalho contribui com dois algoritmos livres de modelo para construção online de políticas abstratas: AbsSarsa(λ) e AbsProb-RL. O primeiro constrói uma política abstrata determinística através de funções-valor, enquanto o segundo constrói uma política abstrata estocástica através de busca direta no espaço de políticas. Também é proposta a arquitetura S2L-RL para o agente, que possui dois níveis de aprendizado: o nível abstrato e o nível concreto. Uma política concreta é construída simultaneamente a uma política abstrata, que pode ser utilizada tanto para guiar o agente no problema atual quanto para guiá-lo em um novo problema futuro. Experimentos com tarefas de navegação robótica mostram que essas técnicas são efetivas na melhoria do desempenho do agente, principalmente nas fases inicias do aprendizado, quando o agente desconhece completamente o novo problema. (AU)

Processo FAPESP:	12/02190-9 - Transferência de Conhecimento entre Tarefas no Aprendizado por Reforço
Beneficiário:	Marcelo Li Koga
Modalidade de apoio:	Bolsas no Brasil - Mestrado

URL curto