Busca avançada
Ano de início
Entree

Clustering automático baseado em metaheurísticas inspiradas na natureza

Processo: 17/06142-2
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de junho de 2017
Vigência (Término): 31 de maio de 2018
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Adriane Beatriz de Souza Serapião
Beneficiário:Maynara Natalia Scoparo
Instituição-sede: Instituto de Geociências e Ciências Exatas (IGCE). Universidade Estadual Paulista (UNESP). Campus de Rio Claro. Rio Claro , SP, Brasil
Assunto(s):Inteligência computacional   Inteligência coletiva   Computação em cluster   Sistemas de gerenciamento de base de dados   Agrupamento de dados   Meta-heurística   Metodologia e técnicas de computação

Resumo

O agrupamento de dados (data clustering) é uma das mais importantes técnicas não supervisionadas de gerenciamento de dados, usada em muitas aplicações científicas e de engenharia, tais como aprendizagem de máquina, mineração de dados, reconhecimento de padrões e processamento de imagem. Consiste em dividir um conjunto de dados em subconjunto menores, chamados de clusters. A partição é obtida através do estabelecimento de uma função que atribua os objetos do conjunto de dados em cada subconjunto, de modo que os objetos semelhantes entre si fiquem no mesmo cluster. Um problema fundamental na análise de clustering é determinar a melhor estimativa do número de clusters, que é conhecido como problema de clustering automático. A dificuldade na escolha do número de clusters adequado deve-se à falta de conhecimento prévia do domínio da aplicação, especialmente quando os dados têm muitas dimensões, quando os clusters diferem amplamente em forma, tamanho e densidade e quando existe sobreposição entre os grupos. Neste projeto, três algoritmos de Inteligência Coletiva serão utilizados para o problema de clustering automático em conjuntos de dados numéricos. Tais algoritmos serão desenvolvidos para otimizar critérios de divisão, usando medidas de clusterização, a fim de encontrar o número ótimo de clusters e as coordenadas de seus centroides. Os métodos de otimização bioinspirados Whale Optimization Algorithm, Cuckoo Search e Cat Swarm Optimization serão adaptados para efetuar o agrupamento utilizando a abordagem de particionamento. Para a avaliação dos resultados destes algoritmos para o clusteringautomático serão usados índices de validação internos e externos.