Busca avançada
Ano de início
Entree

Aumentando a Escalabilidade em Limpeza de Dados Holística

Processo: 18/20360-5
Modalidade de apoio:Bolsas no Exterior - Estágio de Pesquisa - Doutorado
Data de Início da vigência: 01 de janeiro de 2019
Data de Término da vigência: 31 de dezembro de 2019
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Caetano Traina Junior
Beneficiário:Paulo Henrique de Oliveira
Supervisor: Ihab Ilyas
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Instituição Anfitriã: University of Waterloo, Canadá  
Vinculado à bolsa:15/15392-7 - Indexando Domínios de Atributos em SGBDs Relacionais, BP.DR
Assunto(s):Escalabilidade   Banco de dados
Palavra(s)-Chave do Pesquisador:Escalabilidade | Inferência Probabilística | Limpeza de Dados | restrições de integridade | Banco de Dados

Resumo

Ao lidar com dados do mundo real, dados errôneos são a norma ao invés da exceção. Para aumentar o valor de dados em análises e tomada de decisão, cientistas de dados focam intensamente em tarefas de limpeza de dados. Ao longo dos anos, problemas individuais têm sido tratados separadamente, tais como imputação de valores faltantes, detecção de outliers, e deduplicação. Recentemente, uma nova abordagem tem sido adotada pela comunidade científica, cujo alvo é aproveitar todos os sinais e recursos (tais como restrições, estatísticas disponíveis e dicionários) para predizer com precisão ações corretivas: a ideia é levar em consideração a natureza "holística" do processo de limpeza de dados. Motivado pelos desafios de escalabilidade introduzidos por tal abordagem, este projeto visa desenvolver técnicas para aumentar a escalabilidade no processo de limpeza de dados. O estágio ocorrerá na Universidade de Waterloo e será supervisionado pelo Prof. Ihab Francis Ilyas.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
SCABORA, LUCAS C.; SPADON, GABRIEL; OLIVEIRA, PAULO H.; RODRIGUES-JR, JOSE F.; TRAINA-JR, CAETANO; ACM. Enhancing recursive graph querying on RDBMS with data clustering approaches. PROCEEDINGS OF THE 35TH ANNUAL ACM SYMPOSIUM ON APPLIED COMPUTING (SAC'20), v. N/A, p. 8-pg., . (16/17078-0, 16/17330-1, 18/17620-5, 18/20360-5, 17/08376-0, 19/04461-9)