Busca avançada
Ano de início
Entree


Avaliação e seleção de modelos em detecção não supervisionada de outliers e classificação de classe única

Texto completo
Autor(es):
Henrique Oliveira Marques
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Carlos.
Instituição: Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB)
Data de defesa:
Membros da banca:
Marcelo Garcia Manzato; Adriano Lorena Inácio de Oliveira; Davi Pereira dos Santos; Diego Furtado Silva
Orientador: Ricardo José Gabrielli Barreto Campello
Resumo

A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Uma importante distinção se dá entre as técnicas supervisionadas, semissupervisionadas e não supervisionadas de detecção. O presente trabalho enfoca as técnicas de detecção semissupervisionadas e não supervisionadas. As técnicas não supervisionadas de detecção podem ser adaptadas para operarem também de forma semissupervisionada. Desta forma, foi realizado um estudo comparativo entre as técnicas de detecção semissupervisionada e as técnicas não supervisionadas adaptadas ao contexto semissupervisionado. O principal foco deste trabalho, no entanto, está na avaliação não supervisionada de detecção de outliers. Embora exista uma literatura grande e crescente que aborde o problema de detecção de outliers, a avaliação não supervisionada dos resultados em detecção de outliers ainda está praticamente intocada na literatura, especialmente no contexto de detecção não supervisionada. A chamada avaliação interna, que baseia-se unicamente nos dados e nas próprias soluções a serem avaliadas, é necessária se for preciso validar estatisticamente (em termos absolutos) ou apenas comparar (em termos relativos) as soluções fornecidas por diferentes algoritmos ou por diferentes parametrizações de um dado algoritmo na ausência de dados rotulados. No entanto, em contraste com agrupamento de dados, onde os índices para validação e avaliação interna de soluções de agrupamento foram concebidos e demonstraram ser bastantes úteis, no domínio de detecção de outliers, este problema tem sido notavelmente negligenciado. Nesta tese, este problema é discutido e soluções são fornecidas para a avaliação interna dos resultados em detecção de outliers. No cenário de detecção semissupervisionada, uma medida (relativa) de avaliação interna baseada na perturbação dos dados é proposta e comparada com as principais medidas da literatura, fornecendo ao leitor recomendações claras do melhor cenário para a utilização de cada uma delas. No cenário de detecção não supervisionada, a medida pioneira para avaliação interna de soluções binárias de detecção de outliers, proposta pelo autor desta tese em seu trabalho de mestrado, é estendida para o cenário mais geral de soluções não binárias de detecção de outliers, que envolve a avaliação de scorings de detecção de outliers, que é o tipo de resultado produzido pela ampla maioria dos algoritmos. Ambas medidas são extensivamente avaliadas em vários experimentos envolvendo diferentes coleções de bases de dados sintéticas e reais coletadas de repositórios públicos. (AU)

Processo FAPESP: 15/06019-0 - Avaliação, seleção de modelos e detecção não supervisionada de outliers em espaços e subespaços de dados
Beneficiário:Henrique Oliveira Marques
Modalidade de apoio: Bolsas no Brasil - Doutorado