Busca avançada
Ano de início
Entree

Exploração e representação de estados conscientes de tempo para sistemas de recomendação incrementais

Processo: 24/15919-4
Modalidade de apoio:Bolsas no Exterior - Estágio de Pesquisa - Doutorado
Data de Início da vigência: 22 de novembro de 2024
Data de Término da vigência: 16 de março de 2025
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Tiago Agostinho de Almeida
Beneficiário:Pedro Reis Pires
Supervisor: Joao Manuel Portela da Gama
Instituição Sede: Centro de Ciências em Gestão e Tecnologia (CCGT). Universidade Federal de São Carlos (UFSCAR). Campus de Sorocaba. Sorocaba , SP, Brasil
Instituição Anfitriã: Universidade do Porto (UP), Portugal  
Vinculado à bolsa:21/14591-7 - Sistemas de recomendação top-N conscientes de tempo baseados em aprendizado por reforço, BP.DR
Assunto(s):Aprendizado por reforço   Exploração   Recomendação   Sistemas de recomendação
Palavra(s)-Chave do Pesquisador:Aprendizado por Reforço | Contínuo | Exploração | Incremental | Recomendação | Temporal | Sistemas de Recomendação

Resumo

Com a constante popularização da tecnologia, sistemas de recomendação têm-se tornado cada vez mais importantes dentro dos meios digitais. Seu principal objetivo é recomendar um subconjunto de itens relevantes para um usuário específico, ajudando-o a descobrir novos interesses. Desde o início da área, se fez comum uma abordagem estática e não-incremental, na qual algoritmos são treinados com uma base fixa de dados, capturada no passado. Entretanto, o cenário prático da recomendação opera de forma sequencial: o sistema gera recomendações para o usuário, que imediatamente fornece feedback. Estudos recentes na área buscam por modelos que aproveitam esta característica contínua do problema. Baseados em estratégias de aprendizado por reforço, estes métodos aprendem de forma incremental, gerando assim um agente recomendador que se adapta aos interesses dos usuários de maneira automática ao longo do tempo. Como essa área de pesquisa é bastante recente, ela ainda encontra-se em fase de amadurecimento e possui muitos desafios em aberto. Embora o aprendizado por reforço tenha, por definição, conhecimento temporal sequencial das interações, pouco se sabe sobre o uso explícito do tempo durante o treinamento, como é feito nos recomendadores conscientes de tempo, que já se consolidaram como técnicas promissoras dentro da área da recomendação. Este estudo busca propôr novas técnicas para recomendação top-N baseada em aprendizado por reforço, utilizando como estratégia principal o consumo de atributos temporais para aumentar o conhecimentos dos agentes, atuando em diferentes etapas do aprendizado por reforço, tais como a exploração e a representação de estados.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)