Busca avançada
Ano de início
Entree

Similaridade em Big Data

Processo: 13/01517-7
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de junho de 2013
Vigência (Término): 02 de janeiro de 2017
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Caetano Traina Junior
Beneficiário:Lúcio Fernandes Dutra Santos
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Consultas por similaridade   Banco de dados   Big data

Resumo

Volumes de dados armazenados em grandes bases de dados aumentam em ritmo sempre crescente, pressionado o desempenho e a flexibilidade dos Sistemas de Gerenciamento de Bases de Dados (SGBDs). A produção de dados e imagens em centros médicos e a coleta de dados por sensores remotos em satélites e por diversas estações meteorológicas são exemplos de aplicações que desafiam tanto a eficiência quanto a eficácia dos SGBDs. Os problemas de se tratar dados em grandes quantidade, escopo, complexidade e distribuição vêm sendo tratados sob o tema de big data. O aumento da complexidade cria a necessidade de novas formas de consulta - representar apenas números e pequenas cadeias de caracteres já não é suficiente. Consultas por Similaridade vêm se mostrando a maneira por excelência de comparar dados complexos, mas até recentemente, elas não estavam disponíveis nos SGBDs. Agora, com o início de sua disponibilidade, está se tornado claro que apenas os operadores de busca por similaridade fundamentais não são suficientes, especialmente para atender às necessidades de manipular big data. Um dos motivos disso é que usualmente se define ``similaridade'' considerando seu significado para poucos dados. Aumentar o volume de dados afeta tanto a eficiência (desempenho na indexação e recuperação dos dados) quanto a eficácia (qualidade das respostas a consultas). Atualmente, o principal foco da literatura em big data é aumentar a eficiência na recuperação dos dados usando paralelismo, existindo poucos estudos sobre a eficácia das respostas obtidas, principalmente quando se consideram enormes quantidades de dados. Este projeto tem por objetivo estudar e propor variações dos operadores de busca por similaridade que sejam adequados para tratar big data, validando os conceitos definidos em dois domínios de aplicação: imagens de exames médicos para apoio ao diagnóstico e imagens de sensoriamento remoto e séries temporais para estudos de mudanças climáticas e agricultura.

Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
SANTOS, Lúcio Fernandes Dutra. Similaridade em big data. 2017. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação São Carlos.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.