Busca avançada
Ano de início
Entree

Influência do tratamento de dados em algoritmos de classificação

Processo: 15/01382-0
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de outubro de 2016
Situação:Interrompido
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:André Carlos Ponce de Leon Ferreira de Carvalho
Beneficiário:Victor Hugo Barella
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Bolsa(s) vinculada(s):19/13015-2 - Meta-aprendizado aplicado a dados desbalanceados usando medidas de complexidade de dados, BE.EP.DR
Assunto(s):Aprendizado computacional

Resumo

O pré-processamento dos dados é uma das etapas mais importantes no processo de mineração de dados, e uma das mais negligenciadas. A coleta dos dados, mesmo que de forma controlada, pode sofrer de erros manuais e problemas em equipamentos, gerando dados inconsistentes, ruidosos ou ausentes. Além disso, dependendo da origem dos dados, alguns aspectos podem prejudicar sua análise, como desbalanceamento e sobreposição de classes. Simplesmente ignorar esses aspectos no processo de aprendizado pode prejudicar a indução de um modelo adequado, uma vez que algoritmos tradicionais de aprendizado de máquina têm dificuldades para induzir um bom modelo em cenários dessa natureza. Além disso, a maioria desses problemas, que são comumente tratados na etapa de pré-processamento de forma independente, estão relacionados entre si. A proposta desse projeto de doutorado é analisar e tratar os problemas de ruídos, dados desbalanceados, classes sobrepostas e alta dimensionalidade de forma integrada, observando as relações entre elas. Dados com essas características são frequentemente encontrados na Biologia Molecular. Assim, considera-se utilizar dados de Biologia Molecular durante as análises.