Texto completo
| |
| Autor(es): |
Bárbara Caroline Benato
Número total de Autores: 1
|
| Tipo de documento: | Tese de Doutorado |
| Imprenta: | Campinas, SP. |
| Instituição: | Universidade Estadual de Campinas (UNICAMP). Instituto de Computação |
| Data de defesa: | 2024-07-09 |
| Membros da banca: |
Alexandre Xavier Falcão;
Guido Costa Souza de Araújo;
Anderson de Rezende Rocha;
Albert Ali Salah;
Lynda Hardman;
Yannis Velegrakis;
Roberto de Alencar Lotufo
|
| Orientador: | Alexandru Cristian Telea; Alexandre Xavier Falcão |
| Resumo | |
Aprendizado de máquina (do inglês, Machine Learning (ML)) explora dados contendo de dezenas até dezenas de milhares de medições (dimensões) por amostra/exemplo. À medida que o número de dimensões e/ou amostras cresce, também cresce a dificuldade de compreensão do dado em questão e, relacionado a isso, a compreensão de como projetar modelos de ML que processam tais dados de forma eficaz para tarefas como classificação de dados. Visualização, e em particular analítica visual (Visual Analytics (VA)), tem emergido como uma das abordagens chave para ajudar profissionais no entendimento de dados de alta dimensionalidade e de tarefas de engenharia de ML. Tal tese ocupa-se em estudar diversas abordagens nas quais VA pode auxiliar ML (e vice-versa), como a seguir. O presente trabalho foca em uma técnica de visualização denominada redução de dimensionalidade (dimensionality reduction), ou projeção, a qual lida eficientemente e efetivamente com grandes quantidades de dados de alta dimensionalidade. Considerando ML, considera-se a tarefa de treinar um classificador típico para o contexto desafiador onde apenas uma pequena quantidade de rótulos (label) verdadeiros está disponível. Primeiramente, é proposta uma abordagem de pseudo rotulação que explora a habilidade de projeções em gerar um espaço de características reduzido com informação suficiente para melhorar a performance do aprendizado de características e do classificador ao longo das iterações. Como resultado, mostra-se que o espaço 2D gerado a partir de projeções pode capturar de forma satisfatória a estrutura do dado presente em altas dimensões de forma a auxiliar no projeto de modelos de aprendizado de características e classificação de alta performance. Além disso, propõe-se relacionar os conceitos de separação de dados DS, separação visual (VS) e performance do classificador (CP) através da pseudo rotulação e projeções de dados. Um espaço de características com alta DS é usado como entrada para computar projeções com alta VS. Tais projeções são, então, empregadas para realizar a pseudo rotulação com altas acurácias de propagação de rótulos. Por fim, esses rótulos são utilizados para treinar um classificador com uma alta CP. A implicação entre alta DS, alta VS e alta CP é mostrada para diferentes tipos de técnicas de projeção, as quais indicaram ser adequadas para a tarefa de engenharia de classificadores. Adicionalmente, a constatação anteriormente mencionada de que alta VS e alta CP estão correlacionadas é explorada para propôr uma métrica para acessar a VS de gráficos de dispersão 2D resultantes de técnicas de projeções. A métrica proposta com puta a acurácia da propagação de rótulos no espaço projetado, o que torna a métrica mais simples e de mais rápida de executar. As altas acurácias de propagação mostram uma correlação com uma alta VS encontrada por seres humanos. Finalmente, as contribuições encontradas são agregadas a fim de incorporar o usuário no processo de engenharia de modelos de ML. É proposta uma ferramenta interativa de VA que auxilia o usuário na rotulação manual de amostras ao fornecer informação adicional referente a mapas de bordas de decisão de classificado res, erros de projeção, e erros de projeção inversa. Os resultados mostram que essa abordagem permite que o usuário possa rapidamente gerar novos rótulos para as amostras. Tais amostras rotuladas conduzem a maiores performances de classificação após algumas iterações apenas. Esta contribuição mostra que ambos, algoritmos e seres humanos, podem explorar projeções para a construção de melhores classificadores (AU) | |
| Processo FAPESP: | 19/10705-8 - Aprendizado Ativo Visual guiado por Projeções de Características |
| Beneficiário: | Bárbara Caroline Benato |
| Modalidade de apoio: | Bolsas no Brasil - Doutorado |