Busca avançada
Ano de início
Entree

Avaliação, seleção de modelos e detecção não supervisionada de outliers em espaços e subespaços de dados

Processo: 15/06019-0
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de julho de 2015
Vigência (Término): 01 de abril de 2019
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Convênio/Acordo: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Pesquisador responsável:Ricardo José Gabrielli Barreto Campello
Beneficiário:Henrique Oliveira Marques
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Bolsa(s) vinculada(s):17/04161-0 - Avaliação, Seleção de Modelos e Detecção Não Supervisionada de Outliers em Subespaços de Dados, BE.EP.DR
Assunto(s):Mineração de dados   Algoritmos

Resumo

A área de detecção de outliers possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Detectar tais padrões é relevante de maneira geral porque, em muitas aplicações de mineração de dados, tais padrões representam comportamentos extraordinários que merecem atenção especial. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas de detecção. O presente projeto enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura, porém cada um deles utiliza uma intuição própria do que deve ser considerado um outlier, que é naturalmente um conceito subjetivo. Isso dificulta sensivelmente a escolha de um algoritmo em particular e também a escolha de uma configuração adequada para o algoritmo escolhido em uma dada aplicação prática. Isso também torna altamente complexo avaliar a qualidade da solução obtida por um algoritmo/configuração em particular adotados pelo analista, especialmente em função da problemática de se definir uma medida de qualidade que não seja vinculada ao próprio critério utilizado pelo algoritmo. Tais questões estão inter-relacionadas e se referem respectivamente aos problemas de seleção de modelos e avaliação (ou validação) de resultados em aprendizado de máquina não supervisionado. Esses problemas têm sido investigados ao longo de décadas na área de agrupamento de dados, mas apenas no mestrado do candidato uma medida interna e relativa pioneira para avaliação não supervisionada de soluções binárias de detecção de outliers, chamada IREOS (Internal, Relative Evaluation of Outlier Solutions), foi proposta. Ainda que a medida represente um importante avanço no estado-da-arte desta área, medidas para soluções que, ao invés dos rótulos, fornecem scorings para as observações (que é o tipo de solução produzida pela ampla maioria dos algoritmos bem conhecidos de detecção não supervisionada de outliers) e para soluções de outliers detectados em subespaços (que, devido ao problema da alta dimensionalidade, é uma área que recentemente vem recebendo bastante atenção) continuam como problemas notórios na área. A extensão do IREOS para avaliação dos resultados produzidos por ambas as categorias de algoritmos de detecção de outliers, assim como melhorias e aplicações que vão além da avaliação e seleção de modelos, como por exemplo para determinação automática do número de outliers presente na base de dados, representam os principais objetivos que este projeto de pesquisa propõe investigar. Também, como segundo objetivo, pretende-se investigar se princípios originais utilizados no desenvolvimento do índice IREOS podem também ser adaptados para o desenvolvimento de novos algoritmos de detecção, em particular no contexto de subespaços. (AU)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
MARQUES, HENRIQUE O.; CAMPELLO, RICARDO J. G. B.; SANDER, JORG; ZIMEK, ARTHUR. Internal Evaluation of Unsupervised Outlier Detection. ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA, v. 14, n. 4 JUL 2020. Citações Web of Science: 0.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.