Busca avançada
Ano de início
Entree


Handling imbalanced datasets through Optimum-Path Forest

Texto completo
Autor(es):
Passos, Leandro Aparecido S. ; Jodas, Danilo S. ; Ribeiro, Luiz C. F. ; Akio, Marco ; De Souza, Andre Nunes ; Papa, Joao Paulo
Número total de Autores: 6
Tipo de documento: Artigo Científico
Fonte: KNOWLEDGE-BASED SYSTEMS; v. 242, p. 13-pg., 2022-04-22.
Resumo

In the last decade, machine learning-based approaches became capable of performing a wide range of complex tasks sometimes better than humans, demanding a fraction of the time. Such an advance is partially due to the exponential growth in the amount of data available, which makes it possible to extract trustworthy real-world information from them. However, such data is generally imbalanced since some phenomena are more likely than others. Such a behavior yields considerable influence on the machine learning model's performance since it becomes biased on the more frequent data it receives. Despite the considerable amount of machine learning methods, a graph-based approach has attracted considerable notoriety due to the outstanding performance over many applications, i.e., the Optimum-Path Forest (OPF). In this paper, we propose three OPF-based strategies to deal with the imbalance problem: the (OPF)-P-2 and the OPF-US, which are novel approaches for oversampling and undersampling, respectively, as well as a hybrid strategy combining both approaches. The paper also introduces a set of variants concerning the strategies mentioned above. Results compared against several state-of-the-art techniques over public and private datasets confirm the robustness of the proposed approaches.& nbsp; (C)& nbsp;2022 Elsevier B.V. All rights reserved. (AU)

Processo FAPESP: 18/21934-5 - Estatística de redes: teoria, métodos e aplicações
Beneficiário:André Fujita
Modalidade de apoio: Auxílio à Pesquisa - Temático
Processo FAPESP: 14/12236-1 - AnImaLS: Anotação de Imagem em Larga Escala: o que máquinas e especialistas podem aprender interagindo?
Beneficiário:Alexandre Xavier Falcão
Modalidade de apoio: Auxílio à Pesquisa - Temático
Processo FAPESP: 20/12101-0 - Suporte para o ambiente computacional e execução de experimentos: aquisição de dados, categorização e manutenção
Beneficiário:Leandro Aparecido Passos Junior
Modalidade de apoio: Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Processo FAPESP: 19/18287-0 - Gestão de Florestas Urbanas em Tempo Real Utilizando Aprendizado de Máquina
Beneficiário:Danilo Samuel Jodas
Modalidade de apoio: Bolsas no Brasil - Pós-Doutorado
Processo FAPESP: 19/07665-4 - Centro de Inteligência Artificial
Beneficiário:Fabio Gagliardi Cozman
Modalidade de apoio: Auxílio à Pesquisa - Programa eScience e Data Science - Centros de Pesquisa em Engenharia
Processo FAPESP: 17/02286-0 - Modelos probabilísticos para detecção de perdas comerciais
Beneficiário:André Nunes de Souza
Modalidade de apoio: Auxílio à Pesquisa - Regular
Processo FAPESP: 13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria
Beneficiário:Francisco Louzada Neto
Modalidade de apoio: Auxílio à Pesquisa - Centros de Pesquisa, Inovação e Difusão - CEPIDs