Busca avançada
Ano de início
Entree

Modelos descritivos escaláveis para grandes volumes de dados distribuídos

Processo: 19/09817-6
Linha de fomento:Auxílio à Pesquisa - Regular
Vigência: 01 de fevereiro de 2020 - 31 de janeiro de 2022
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Murilo Coelho Naldi
Beneficiário:Murilo Coelho Naldi
Instituição-sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Pesq. associados: Elaine Ribeiro de Faria Paiva ; Ricardo Cerri ; Ricardo José Gabrielli Barreto Campello
Assunto(s):Computação distribuída  Aprendizado computacional  Mineração de dados  Agrupamento de dados  Análise de dados  Fluxo de dados 

Resumo

O crescente aumento da quantidade de dados gerados pelas tecnologias atuais tornam sua análise desafiadora. Primeiro, porque grande parte destes dados muitas vezes não são identificados (rotulados) durante sua criação e, portanto, a organização/relação entre seus objetos não são explícitas. Segundo, porque é preciso que os métodos utilizados na análise que sejam escaláveis a ponto de atingirem seus objetivos mesmo com o aumento da quantidade de dados analisada. Tendo tais questões em vista, o agrupamento de dados mostra-se adequado como parte da análise destes dados, pois consiste em um conjunto de técnicas não supervisionadas que permitem a categorização automática destes dados. Por meio destas técnicas, é possível obter uma análise descritiva dos dados a partir de informações implícitas a suas relações e as estruturas por elas formadas. Contudo, técnicas tradicionais de agrupamentos foram desenvolvidas objetivando conjuntos de dados pequenos e estáticos. Suas limitações nem sempre permitem escalabilidade, ou seja, sua aplicação em conjuntos de dados maiores, distribuídos ou até mesmo em conjunto de dados que estão em constante crescimento. Este projeto visa o estudo de técnicas de agrupamento aplicáveis em conjuntos de dados incrementais. Pretende-se alcançar tal objetivo por meio de duas frentes de pesquisa: a primeira consiste na adaptação de algoritmos para modelos de programação escaláveis, que permitam o uso de divisão e conquista para o acesso e distribuição do dados; a segunda consiste no estudo de algoritmos de agrupamento que gerem um modelo e permitem sua adaptação a medida que o conjunto de dados é incrementado, ou seja, os dados são apresentados continuamente ao algoritmo. (AU)