Bolsa 24/22291-1 - Consultas por similaridade, Integração de dados

Processo:	24/22291-1
Modalidade de apoio:	Bolsas no Brasil - Iniciação Científica
Data de Início da vigência:	01 de março de 2025
Data de Término da vigência:	28 de fevereiro de 2026
Área de conhecimento:	Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação

Pesquisador responsável:	Caetano Traina Junior
Beneficiário:	Sandy da Costa Dutra

Instituição Sede:	Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil

Vinculado ao auxílio:	23/18026-8 - Centro de Ciência de Dados para Estatísticas Públicas (CCDEP), AP.CCD


Assunto(s):	Consultas por similaridade Integração de dados Banco de dados
Palavra(s)-Chave do Pesquisador:	Agrupamento em espaços de distância \| Algoritmos de Agrupamento \| Consultas por Similaridade \| Extração-Transformação-Carga (ETL) \| integração de dados \| Operador Junção-Agrupamento-Agregação \| Bancos de dados
Resumo Este é um projeto científico de cunho exploratório, que foca em atividades relacionadas ao tratamento de dados para apoio à formulação de políticas públicas. Ele aplica novas tecnologias e ferramentas de gerenciamento de dados em processos que envolvem principalmente a extração, preparação e integração de dados (ETL - extract, transform, load), executadas a partir de Sistemas de Gerenciamento de Bases de Dados (SGBDs). Este projeto terá como foco a integração de dados provenientes de múltiplas fontes, representados em múltiplos formatos e com diferentes critérios de geração, representação e técnicas de armazenagem, visando seu uso em ferramentas analíticas para apoio à tomada de decisão.O objetivo do projeto de IC é apresentar e instruir a aluna nos processos de mineração de dados por agrupamento mais comuns e aplicá-los em ambientes de integração de dados provenientes das múltiplas instituições parceiras do Centro de Ciência de Dados para Estatísticas Públicas (CCDEP-FAPESP) coordenado pela Fundação SEADE, estudando os formatos, granularidade, abrangência e qualidade dos dados, considerando também suas periodicidades de coleta e frequência de integração. Os algoritmos serão codificados e executados na Linguagem SQL sobre conjuntos de dados disponibilizados pelo projeto e armazenados em um Sistemas de Gerenciamento de Bases de Dados Relacionais, gerando processos de integração que possam ser explorados no contexto do projeto geral.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itens Menos itens
TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itens Menos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

URL curto