Busca avançada
Ano de início
Entree

Explorando o Operador de Agrupamento em SQL em processos de Preparação de Dados (ETL) usando Similaridade

Processo: 24/22291-1
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de março de 2025
Data de Término da vigência: 28 de fevereiro de 2026
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Caetano Traina Junior
Beneficiário:Sandy da Costa Dutra
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:23/18026-8 - Centro de Ciência de Dados para Estatísticas Públicas (CCDEP), AP.CCD
Assunto(s):Consultas por similaridade   Integração de dados   Banco de dados
Palavra(s)-Chave do Pesquisador:Agrupamento em espaços de distância | Algoritmos de Agrupamento | Consultas por Similaridade | Extração-Transformação-Carga (ETL) | integração de dados | Operador Junção-Agrupamento-Agregação | Bancos de dados

Resumo

Este é um projeto científico de cunho exploratório, que foca em atividades relacionadas ao tratamento de dados para apoio à formulação de políticas públicas. Ele aplica novas tecnologias e ferramentas de gerenciamento de dados em processos que envolvem principalmente a extração, preparação e integração de dados (ETL - extract, transform, load), executadas a partir de Sistemas de Gerenciamento de Bases de Dados (SGBDs). Este projeto terá como foco a integração de dados provenientes de múltiplas fontes, representados em múltiplos formatos e com diferentes critérios de geração, representação e técnicas de armazenagem, visando seu uso em ferramentas analíticas para apoio à tomada de decisão.O objetivo do projeto de IC é apresentar e instruir a aluna nos processos de mineração de dados por agrupamento mais comuns e aplicá-los em ambientes de integração de dados provenientes das múltiplas instituições parceiras do Centro de Ciência de Dados para Estatísticas Públicas (CCDEP-FAPESP) coordenado pela Fundação SEADE, estudando os formatos, granularidade, abrangência e qualidade dos dados, considerando também suas periodicidades de coleta e frequência de integração. Os algoritmos serão codificados e executados na Linguagem SQL sobre conjuntos de dados disponibilizados pelo projeto e armazenados em um Sistemas de Gerenciamento de Bases de Dados Relacionais, gerando processos de integração que possam ser explorados no contexto do projeto geral.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)