Busca avançada
Ano de início
Entree

O problema do desbalanceamento dos dados e da transparência nos modelos de aprendizado supervisionado aplicados ao Credit Scoring

Processo: 23/06883-3
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de agosto de 2023
Data de Término da vigência: 31 de julho de 2024
Área de conhecimento:Ciências Exatas e da Terra - Probabilidade e Estatística - Probabilidade e Estatística Aplicadas
Pesquisador responsável:Adriano Kamimura Suzuki
Beneficiário:Gabriel Almeida Ferreira
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Estatística
Palavra(s)-Chave do Pesquisador:Aprendizado de máquina interpretável | Aprendizado Supervisionado | Modelo Linear Generalizado | XGBoost | Estatística

Resumo

Hodiernamente, os algoritmos de aprendizado supervisionado vêm ganhando relevância no contextode Credit Scoring. No entanto, as bases de dados utilizadas para Credit Scoring possuem poucosexemplos de maus pagadores, o que pode levar os modelos de aprendizado a cometer erros de classificação, classificando um mau pagador como um bom pagador e, por conseguinte, gerando prejuízo ao credor. Sendo assim, o presente trabalho pretende estudar duas abordagens para o problema do desbalanceamento: o balanceamento artificial dos dados usando os algoritmos ADASYN (He et al., 2008) e EEN (Wilson, 1972), ou a modificação dos modelos de aprendizado supervisionado utilizando um modelo linear generalizado com ligação potência logit (Lemonte and Bazán, 2018) e o XGBoost com função de perda focal loss (Wang et al., 2020). Além disso, outro problema dos modelos de aprendizado supervisionado é a interpretabilidade dos modelos caixa preta. Nesse sentido, será utilizado o SHAP (Lundberg and Lee, 2017) para explicar as predições geradas por esses modelos.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)