Pseudo labeling and classification of high-dimensional data using visual analytics

Bárbara Caroline Benato

Texto completo
Autor(es):	Bárbara Caroline Benato Número total de Autores: 1
Tipo de documento:	Tese de Doutorado
Imprenta:	Campinas, SP.
Instituição:	Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:	2024-07-09
Membros da banca:	Alexandre Xavier Falcão; Guido Costa Souza de Araújo; Anderson de Rezende Rocha; Albert Ali Salah; Lynda Hardman; Yannis Velegrakis; Roberto de Alencar Lotufo
Orientador:	Alexandru Cristian Telea; Alexandre Xavier Falcão
Resumo
Aprendizado de máquina (do inglês, Machine Learning (ML)) explora dados contendo de dezenas até dezenas de milhares de medições (dimensões) por amostra/exemplo. À medida que o número de dimensões e/ou amostras cresce, também cresce a dificuldade de compreensão do dado em questão e, relacionado a isso, a compreensão de como projetar modelos de ML que processam tais dados de forma eficaz para tarefas como classificação de dados. Visualização, e em particular analítica visual (Visual Analytics (VA)), tem emergido como uma das abordagens chave para ajudar profissionais no entendimento de dados de alta dimensionalidade e de tarefas de engenharia de ML. Tal tese ocupa-se em estudar diversas abordagens nas quais VA pode auxiliar ML (e vice-versa), como a seguir. O presente trabalho foca em uma técnica de visualização denominada redução de dimensionalidade (dimensionality reduction), ou projeção, a qual lida eficientemente e efetivamente com grandes quantidades de dados de alta dimensionalidade. Considerando ML, considera-se a tarefa de treinar um classificador típico para o contexto desafiador onde apenas uma pequena quantidade de rótulos (label) verdadeiros está disponível. Primeiramente, é proposta uma abordagem de pseudo rotulação que explora a habilidade de projeções em gerar um espaço de características reduzido com informação suficiente para melhorar a performance do aprendizado de características e do classificador ao longo das iterações. Como resultado, mostra-se que o espaço 2D gerado a partir de projeções pode capturar de forma satisfatória a estrutura do dado presente em altas dimensões de forma a auxiliar no projeto de modelos de aprendizado de características e classificação de alta performance. Além disso, propõe-se relacionar os conceitos de separação de dados DS, separação visual (VS) e performance do classificador (CP) através da pseudo rotulação e projeções de dados. Um espaço de características com alta DS é usado como entrada para computar projeções com alta VS. Tais projeções são, então, empregadas para realizar a pseudo rotulação com altas acurácias de propagação de rótulos. Por fim, esses rótulos são utilizados para treinar um classificador com uma alta CP. A implicação entre alta DS, alta VS e alta CP é mostrada para diferentes tipos de técnicas de projeção, as quais indicaram ser adequadas para a tarefa de engenharia de classificadores. Adicionalmente, a constatação anteriormente mencionada de que alta VS e alta CP estão correlacionadas é explorada para propôr uma métrica para acessar a VS de gráficos de dispersão 2D resultantes de técnicas de projeções. A métrica proposta com puta a acurácia da propagação de rótulos no espaço projetado, o que torna a métrica mais simples e de mais rápida de executar. As altas acurácias de propagação mostram uma correlação com uma alta VS encontrada por seres humanos. Finalmente, as contribuições encontradas são agregadas a fim de incorporar o usuário no processo de engenharia de modelos de ML. É proposta uma ferramenta interativa de VA que auxilia o usuário na rotulação manual de amostras ao fornecer informação adicional referente a mapas de bordas de decisão de classificado res, erros de projeção, e erros de projeção inversa. Os resultados mostram que essa abordagem permite que o usuário possa rapidamente gerar novos rótulos para as amostras. Tais amostras rotuladas conduzem a maiores performances de classificação após algumas iterações apenas. Esta contribuição mostra que ambos, algoritmos e seres humanos, podem explorar projeções para a construção de melhores classificadores (AU)

Processo FAPESP:	19/10705-8 - Aprendizado Ativo Visual guiado por Projeções de Características
Beneficiário:	Bárbara Caroline Benato
Modalidade de apoio:	Bolsas no Brasil - Doutorado

URL curto