Busca avançada
Ano de início
Entree

Modelos descritivos escaláveis para grandes volumes de dados distribuídos

Processo: 19/09817-6
Modalidade de apoio:Auxílio à Pesquisa - Regular
Data de Início da vigência: 01 de fevereiro de 2020
Data de Término da vigência: 31 de julho de 2022
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Murilo Coelho Naldi
Beneficiário:Murilo Coelho Naldi
Instituição Sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Pesquisadores associados: Elaine Ribeiro de Faria Paiva ; Ricardo Cerri ; Ricardo José Gabrielli Barreto Campello
Assunto(s):Computação distribuída  Aprendizado computacional  Mineração de dados  Agrupamento de dados  Análise de dados  Fluxo de dados 
Palavra(s)-Chave do Pesquisador:Agrupamento | Análise de Dados | Aprendizado de Máquina | Computação Distribuída | Fluxo de Dados | Mineração de Dados

Resumo

O crescente aumento da quantidade de dados gerados pelas tecnologias atuais tornam sua análise desafiadora. Primeiro, porque grande parte destes dados muitas vezes não são identificados (rotulados) durante sua criação e, portanto, a organização/relação entre seus objetos não são explícitas. Segundo, porque é preciso que os métodos utilizados na análise que sejam escaláveis a ponto de atingirem seus objetivos mesmo com o aumento da quantidade de dados analisada. Tendo tais questões em vista, o agrupamento de dados mostra-se adequado como parte da análise destes dados, pois consiste em um conjunto de técnicas não supervisionadas que permitem a categorização automática destes dados. Por meio destas técnicas, é possível obter uma análise descritiva dos dados a partir de informações implícitas a suas relações e as estruturas por elas formadas. Contudo, técnicas tradicionais de agrupamentos foram desenvolvidas objetivando conjuntos de dados pequenos e estáticos. Suas limitações nem sempre permitem escalabilidade, ou seja, sua aplicação em conjuntos de dados maiores, distribuídos ou até mesmo em conjunto de dados que estão em constante crescimento. Este projeto visa o estudo de técnicas de agrupamento aplicáveis em conjuntos de dados incrementais. Pretende-se alcançar tal objetivo por meio de duas frentes de pesquisa: a primeira consiste na adaptação de algoritmos para modelos de programação escaláveis, que permitam o uso de divisão e conquista para o acesso e distribuição do dados; a segunda consiste no estudo de algoritmos de agrupamento que gerem um modelo e permitem sua adaptação a medida que o conjunto de dados é incrementado, ou seja, os dados são apresentados continuamente ao algoritmo. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (4)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
VALEJO, ALAN DEMETRIUS BARIA; DE OLIVEIRA DOS SANTOS, WELLINGTON; NALDI, MURILO COELHO; ZHAO, LIANG. A review and comparative analysis of coarsening algorithms on bipartite networks. European Physical Journal-Special Topics, . (19/09817-6, 19/07665-4, 13/07375-0, 15/50122-0, 19/14429-5)
ARAUJO NETO, ANTONIO CAVALCANTE; NALDI, MURILO COELHO; CAMPELLO, RICARDO J. G. B.; SANDER, JORG; IEEE COMP SOC. CORE-SG: Efficient Computation of Multiple MSTs for Density-Based Methods. 2022 IEEE 38TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING (ICDE 2022), v. N/A, p. 14-pg., . (19/09817-6)
VALEJO, ALAN DEMETRIUS BARIA; DE OLIVEIRA DOS SANTOS, WELLINGTON; NALDI, MURILO COELHO; ZHAO, LIANG. A review and comparative analysis of coarsening algorithms on bipartite networks. European Physical Journal-Special Topics, v. 230, n. 14-15, p. 2801-2811, . (19/09817-6, 13/07375-0, 19/07665-4, 15/50122-0, 19/14429-5)
CANDIDO, PAULO GUSTAVO LOPES; SILVA, JONATHAN ANDRADE; FARIA, ELAINE RIBEIRO; NALDI, MURILO COELHO. Optimization Algorithms for Scalable Stream Batch Clustering with k Estimation. APPLIED SCIENCES-BASEL, v. 12, n. 13, p. 22-pg., . (19/09817-6)