Busca avançada
Ano de início
Entree

Tempo como fator de exploração para sistemas de recomendação baseados em aprendizado por reforço

Processo: 23/00158-5
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de abril de 2023
Data de Término da vigência: 31 de março de 2024
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Tiago Agostinho de Almeida
Beneficiário:Gregório Fornetti Azevedo
Instituição Sede: Centro de Ciências em Gestão e Tecnologia (CCGT). Universidade Federal de São Carlos (UFSCAR). Campus de Sorocaba. Sorocaba , SP, Brasil
Assunto(s):Aprendizado por reforço   Redes neurais   Sistemas de recomendação   Aprendizado computacional
Palavra(s)-Chave do Pesquisador:Aprendizado por Reforço | Filtragem Colaborativa | Redes neurais | Sistemas conscientes de tempo | sistemas de recomendação | Aprendizado de máquina

Resumo

Atualmente, com a crescente popularização da tecnologia, tornou-se fácil disponibilizar e teracesso a um grande volume de informações. Este cenário gerou um problema para usuários digitais em encontrar o que consideram interessante entre todas as opções apresentadas. Com basenisso, foram propostos os sistemas de recomendação, que tem como objetivo a filtragem de umsubconjunto de itens relevantes para um usuário específico. A área teve um enorme desenvolvimento nas últimas décadas, sendo hoje uma das principais estratégias de empresas para geraruma boa experiência para seus clientes. Desde seu início, foi predominante uma abordagemestática e não-incremental, isto é, algoritmos são treinados com bases de dados fixas, capturadas no passado. Entretanto, esta estratégia não é fiel ao cenário prático da recomendação, naqual usuários estão constantemente recebendo recomendações e gerando feedback. Para abordaressa característica, estudos recentes buscam estudar o problema através de algoritmos baseadosem aprendizado por reforço. Este tipo de aprendizado opera de forma incremental, treinandoagentes inteligentes por meio de tentativa-e-erro em tempo de execução. Um dos principaisdilemas dentro da área é o equilíbrio entre exploração e aprofundamento, ou seja, a práticade descobrir conhecimento novo ou se especializar em conhecimento já obtido. Estratégias comumente usadas em outras áreas podem ser muito prejudiciais ao cenário da recomendação,e pouco se estudou sobre o uso de informações temporais para esta finalidade. Este projetobusca desenvolver técnicas aprimoradas que equilibram exploração e aprofundamento atravésdo consumo de dados temporais. Espera-se que os agentes inteligentes gerem conhecimentoimportante sobre o comportamento dos usuários, melhorando as recomendações finais.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)