Busca avançada
Ano de início
Entree

Influência do tratamento de dados em algoritmos de classificação

Processo: 15/01382-0
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de outubro de 2016
Data de Término da vigência: 30 de novembro de 2020
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:André Carlos Ponce de Leon Ferreira de Carvalho
Beneficiário:Victor Hugo Barella
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Bolsa(s) vinculada(s):19/13015-2 - Meta-Aprendizado Aplicado a Dados Desbalanceados Usando Medidas de Complexidade de Dados, BE.EP.DR
Assunto(s):Aprendizado computacional
Palavra(s)-Chave do Pesquisador:Alta dimensionalidade | Aprendizado de Máquina | Classes Desbalanceadas | Classes Sobrepostas | pré-processamento | Ruídos | Aprendizado de Máquina

Resumo

O pré-processamento dos dados é uma das etapas mais importantes no processo de mineração de dados, e uma das mais negligenciadas. A coleta dos dados, mesmo que de forma controlada, pode sofrer de erros manuais e problemas em equipamentos, gerando dados inconsistentes, ruidosos ou ausentes. Além disso, dependendo da origem dos dados, alguns aspectos podem prejudicar sua análise, como desbalanceamento e sobreposição de classes. Simplesmente ignorar esses aspectos no processo de aprendizado pode prejudicar a indução de um modelo adequado, uma vez que algoritmos tradicionais de aprendizado de máquina têm dificuldades para induzir um bom modelo em cenários dessa natureza. Além disso, a maioria desses problemas, que são comumente tratados na etapa de pré-processamento de forma independente, estão relacionados entre si. A proposta desse projeto de doutorado é analisar e tratar os problemas de ruídos, dados desbalanceados, classes sobrepostas e alta dimensionalidade de forma integrada, observando as relações entre elas. Dados com essas características são frequentemente encontrados na Biologia Molecular. Assim, considera-se utilizar dados de Biologia Molecular durante as análises.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
BARELLA, VICTOR H.; GARCIA, LUIS P. F.; DE SOUTO, MARCILIO C. P.; LORENA, ANA C.; DE CARVALHO, ANDRE C. P. L. F.. Assessing the data complexity of imbalanced datasets. INFORMATION SCIENCES, v. 553, p. 83-109, . (13/07375-0, 15/01382-0, 12/22608-8)
BARELLA, VICTOR H.; GARCIA, LUIS P. F.; DE SOUTO, MARCILIO P.; LORENA, ANA C.; DE CARVALHO, ANDRE; IEEE. Data Complexity Measures for Imbalanced Classification Tasks. 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), v. N/A, p. 8-pg., . (16/18615-0, 13/07375-0, 15/01382-0)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
BARELLA, Victor Hugo. Tarefas de classificação desbalanceadas: medindo complexidade de dados e recomendando técnicas. 2021. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.