Busca avançada
Ano de início
Entree


Algoritmos incrementais e eficientes para árvores e regras de decisão e algoritmos baseados em proximidade

Texto completo
Autor(es):
Saulo Martiello Mastelini
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Carlos.
Instituição: Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB)
Data de defesa:
Membros da banca:
André Carlos Ponce de Leon Ferreira de Carvalho; Gustavo Enrique de Almeida Prado Alves Batista; Elaine Ribeiro de Faria Paiva; Anderson de Rezende Rocha
Orientador: André Carlos Ponce de Leon Ferreira de Carvalho
Resumo

O rápido desenvolvimento de tecnologias digitais acarretou a produção constante de grandes volumes de dados, que se apresentam em diferentes formas e vêm de diferentes fontes. No início dos estudos de aprendizado de máquina (AM) a escassez de dados era um problema relevante em muitos domínios de aplicação, atualmente, no entanto, pode-se ter informação em demasia para tratar com algoritmos tradicionais de AM. Além disso, mudanças ao longo do tempo na distribuição probabilística que governa o processo de geração dos dados podem fazer com que as soluções tradicionais de AM se tornem inúteis em aplicações do mundo real. AM online (AMO) é uma área de estudos que busca criar soluções capazes de processar os dados incrementalmente, utilizando recursos computacionais limitados e lidando com distribuições de dados que mudam no decorrer do tempo. Apesar de a literatura em AMO apresentar soluções eficientes que foram aplicadas em domínios de aplicação diversos, existe uma tendência crescente de se criar algoritmos que focam apenas no desempenho preditivo, deixando o custo computacional em segundo plano. Essa observação é ainda mais predominante quando se considera tarefas de regressão que utilizam árvores e regras de decisão, bem como ensembles desses modelos, que estão dentre as soluções mais populares em AMO. Diminuir o custo computacional de soluções de AMO, de um ponto de vista do domínio de aplicação, pode ser mais relevante do que obter um leve aumento no desempenho preditivo. Assim, nessa tese, busca-se criar algoritmos de AMO cujo maior foco é a redução do tempo de processamento e do uso de memória em soluções de regressão baseadas em árvores e regras de decisão, além de ensembles formados por esses tipos de modelos. Um subproduto desejado é melhorar, ou pelo menos não impactar negativamente, o desempenho preditivo dos modelos. Na tese também é explorado um algoritmo eficiente para realizar buscas por vizinhos mais próximos de forma incremental. A tese é organizada como uma coleção de artigos, que compreende as publicações mais relevantes focadas nos temas apresentados. São abordadas estratégias para criar ensembles de regressão com baixo erro preditivo, propostos algoritmos eficientes de regressão incremental baseados em árvores de decisão, bem como um algoritmo para criação de ensembles baseados em árvores de decisão para regressão com baixo custo computacional e baixo erro preditivo. Por fim, é apresentado um algoritmo rápido e versátil para realizar buscas por vizinho mais próximo em janelas deslizantes de dados. (AU)

Processo FAPESP: 18/07319-6 - Mineração multi-alvos em fluxos de dados
Beneficiário:Saulo Martiello Mastelini
Modalidade de apoio: Bolsas no Brasil - Doutorado