Busca avançada
Ano de início
Entree


Tarefas de classificação desbalanceadas: medindo complexidade de dados e recomendando técnicas

Texto completo
Autor(es):
Victor Hugo Barella
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Carlos.
Instituição: Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB)
Data de defesa:
Membros da banca:
André Carlos Ponce de Leon Ferreira de Carvalho; Gustavo Enrique de Almeida Prado Alves Batista; Ronaldo Cristiano Prati; Carlos Manuel Milheiro de Oliveira Pinto Soares
Orientador: André Carlos Ponce de Leon Ferreira de Carvalho
Resumo

Algoritmos de classificação em aprendizado de máquina tendem a desempenhar pior em dados com classes desbalanceadas. Desbalanceamento de classes não é um problema sozinho, mas provoca efeitos adversos quando combinado com outras características de dados, como sobreposição de classes e ruído. Este estudo tem por objetivo medir características de dados desbalanceados e recomendar técnicas para lidar com desbalanceamento por meio de um sistema de meta-aprendizado. Nesta pesquisa, medidas populares de complexidade de dados foram decompostas por classe para melhor aferir as características de dados desbalanceados. Elas foram aplicadas em conjuntos de dados artificiais controlados e conjuntos reais. Essas medidas foram correlacionadas com o desempenho preditivo de diversos modelos de classificação. Elas também foram avaliadas antes e após a aplicação de famosas técnicas de pré-processamento pra dados desbalanceados. Além disso, um sistem de meta-prendizado foi implementado usando meta-atributos populares na literatura juntamente com as medidas de complexidade de dados desenvolvidas nessa pesquisa. Os resultados mostraram que decompor as medidas de complexidade por classe melhorou sua habilidade em medir complexidade em dados desbalanceados. Ademais, de acordo com os resultados dos experimentos, elas foram os meta-atributos mais relevantes para o sistema de meta-aprendizado. Baseado nos resultados desta pesquisa, praticantes de ciência de dados devem considerar medir a complexidade de conjuntos de dados desbalanceados, seja para interpretar características de dados, selecionar técnicas ou desenvolver novas técnicas. (AU)

Processo FAPESP: 15/01382-0 - Influência do tratamento de dados em algoritmos de classificação
Beneficiário:Victor Hugo Barella
Modalidade de apoio: Bolsas no Brasil - Doutorado