Busca avançada
Ano de início
Entree
(Referência obtida automaticamente do Web of Science, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores.)

Heuristically-Accelerated Multiagent Reinforcement Learning

Texto completo
Autor(es):
Bianchi, Reinaldo A. C. [1] ; Martins, Murilo F. [1] ; Ribeiro, Carlos H. C. [2] ; Costa, Anna H. R. [3]
Número total de Autores: 4
Afiliação do(s) autor(es):
[1] Ctr Univ FEI, Dept Elect Engn, BR-09850901 Sao Bernardo Do Campo - Brazil
[2] Technol Inst Aeronaut, Div Comp Sci, Sao Jose Dos Campos - Brazil
[3] Univ Sao Paulo, Escola Politecn, Sao Paulo - Brazil
Número total de Afiliações: 3
Tipo de documento: Artigo Científico
Fonte: IEEE TRANSACTIONS ON CYBERNETICS; v. 44, n. 2, p. 252-265, FEB 2014.
Citações Web of Science: 21
Resumo

This paper presents a novel class of algorithms, called Heuristically-Accelerated Multiagent Reinforcement Learning (HAMRL), which allows the use of heuristics to speed up well-known multiagent reinforcement learning (RL) algorithms such as the Minimax-Q. Such HAMRL algorithms are characterized by a heuristic function, which suggests the selection of particular actions over others. This function represents an initial action selection policy, which can be handcrafted, extracted from previous experience in distinct domains, or learnt from observation. To validate the proposal, a thorough theoretical analysis proving the convergence of four algorithms from the HAMRL class (HAMMQ, HAMQ(lambda), HAMQS, and HAMS) is presented. In addition, a comprehensive systematical evaluation was conducted in two distinct adversarial domains. The results show that even the most straightforward heuristics can produce virtually optimal action selection policies in much fewer episodes, significantly improving the performance of the HAMRL over vanilla RL algorithms. (AU)

Processo FAPESP: 11/19280-8 - CogBot: integrando informação perceptual e conhecimento semântico na robótica cognitiva
Beneficiário:Anna Helena Reali Costa
Modalidade de apoio: Auxílio à Pesquisa - Regular
Processo FAPESP: 12/04089-3 - Raciocínio espacial colaborativo para múltiplos robôs
Beneficiário:Paulo Eduardo Santos
Modalidade de apoio: Auxílio à Pesquisa - Regular
Processo FAPESP: 11/17610-0 - Monitoramento e controle de sistemas dinâmicos sujeitos a falhas
Beneficiário:Roberto Kawakami Harrop Galvão
Modalidade de apoio: Auxílio à Pesquisa - Temático
Processo FAPESP: 12/12640-1 - Aprendizado por Demonstrações em Cenários Cooperativos de Interação Humano-robô
Beneficiário:Murilo Fernandes Martins
Modalidade de apoio: Bolsas no Brasil - Pós-Doutorado