Planejamento em grafos de computação estocástica: resolvendo problemas estocásticos não-lineares com retropropagação de erros

Thiago Pereira Bueno

Texto completo
Autor(es):	Thiago Pereira Bueno Número total de Autores: 1
Tipo de documento:	Tese de Doutorado
Imprenta:	São Paulo.
Instituição:	Universidade de São Paulo (USP). Instituto de Matemática e Estatística (IME/SBI)
Data de defesa:	2021-08-31
Membros da banca:	Leliane Nunes de Barros; Fabio Gagliardi Cozman; Felipe Trevisan Jurgensen; Felipe Rech Meneguzzi; Scott Sanner
Orientador:	Leliane Nunes de Barros; Denis Deratani Mauá
Resumo
A área de Aprendizado Profundo tem obtido grande sucesso em tarefas complexas de percepção, jogos e outras aplicações práticas. Pode-se argumentar, de uma perspectiva geral, que a principal razão do desempenho surpreendente de redes neurais profundas está relacionada ao método do gradiente descendente, o qual por sua vez é baseado no reconhecido algoritmo de retropropagação de erros. Inspirado por aplicações recentes de aprendizado profundo, propõe-se investigar os desafios e oportunidades em adaptar a retropropagação de erros como uma técnica de planejamento em problemas de tomada de decisão sequencial em espaços contínuos. Observa-se, em particular, que se um modelo diferenciável da dinâmica do sistema sob controle estiver disponível, então é possível que um agente autônomo possa se aproveitar de otimizadores avançados baseados em gradientes desenvolvidos no contexto de algoritmos de aprendizado para resolução de problemas de planejamento de longo horizonte. Além de reformular a técnica recentemente proposta de planejamento via retropropagação como uma forma de otimização de trajetória baseada em gradiente, essa tese de doutorado propõe diversas extensões para o caso mais geral de problemas de decisão sequencial em espaços contínuos sob incerteza estocástica estudados em planejamento automatizado em inteligência artificial. Em particular, propõe-se um arcabouço de pré-treinamento de Políticas Reativas Profundas com foco na abordagem de tomada de decisão rápida baseado em grafos de computação estocástica e na técnica de re-parametrização de distribuições. Além disso, investiga-se como a teoria da dualidade de relaxação de informação pode ser adaptada para o desenvolvimento de algoritmos de planejamento baseados em gradientes que intercalam otimização e execução. Resultados empíricos mostram a efetividade da abordagem proposta em problemas de tomada de decisão sequencial envolvendo dinâmica não-linear e eventos exógenos estocásticos, como por exemplo, planejamento de caminho, controle de recursos em multi-reservatórios e controle de sistemas físicos de aquecimento, ventilação e ar condicionado. (AU)

Processo FAPESP:	16/22900-1 - Processos de decisão markovianos especificados com programação lógica probabilística: representação e solução
Beneficiário:	Thiago Pereira Bueno
Modalidade de apoio:	Bolsas no Brasil - Doutorado Direto

URL curto