Texto completo
| |
| Autor(es): |
Tiago Matos
Número total de Autores: 1
|
| Tipo de documento: | Dissertação de Mestrado |
| Imprenta: | São Paulo. |
| Instituição: | Universidade de São Paulo (USP). Escola Politécnica (EP/BC) |
| Data de defesa: | 2011-09-06 |
| Membros da banca: |
Anna Helena Reali Costa;
Leliane Nunes de Barros;
Roseli Aparecida Francelin Romero
|
| Orientador: | Anna Helena Reali Costa |
| Resumo | |
A maioria das propostas de planejamento de rotas para robôs móveis não leva em conta a existência de soluções para problemas similares ao aprender a política para resolver um novo problema; e devido a isto, o problema de navegação corrente deve ser resolvido a partir do zero, o que pode ser excessivamente custoso em relação ao tempo. Neste trabalho é realizado o acoplamento do conhecimento prévio obtido de soluções similares, representado por uma política abstrata, a um processo de aprendizado por reforço. Além disto, este trabalho apresenta uma arquitetura para o aprendizado por reforço simultâneo, de nome ASAR, onde a política abstrata auxilia na inicialização da política para o problema concreto, e ambas as políticas são refinadas através da exploração. A fim de reduzir a perda de informação na construção da política abstrata é proposto um algoritmo, nomeado X-TILDE, que constrói uma política abstrata estocástica. A arquitetura proposta é comparada com um algoritmo de aprendizado padrão e os resultados demonstram que ela é eficaz em acelerar a construção da política para problemas práticos. (AU) | |
| Processo FAPESP: | 09/04489-9 - RRL-RM: Navegação de robôs móveis baseada em aprendizado por reforço relacional |
| Beneficiário: | Tiago Matos |
| Modalidade de apoio: | Bolsas no Brasil - Mestrado |