Busca avançada
Ano de início
Entree

Integração entre SciDB, TerraLib e R

Processo: 16/16555-0
Linha de fomento:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Vigência (Início): 01 de dezembro de 2016
Vigência (Término): 31 de agosto de 2017
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Gilberto Camara Neto
Beneficiário:Luiz Fernando Ferreira Gomes de Assis
Instituição-sede: Instituto Nacional de Pesquisas Espaciais (INPE). Ministério da Ciência, Tecnologia, Inovações e Comunicações (Brasil). São José dos Campos , SP, Brasil
Vinculado ao auxílio:14/08398-6 - E-Sensing: análise de grandes volumes de dados de observação da terra para informação de mudanças de uso e cobertura da terra, AP.ESCIENCE.TEM
Assunto(s):Big data   Análise espaço-temporal   Banco de dados   Bases de dados científicos   Linguagem de programação   e-Science

Resumo

A linguagem de análise de dados open source R é a considerada a língua franca da análise de dados. O ambiente R provê uma grande variedade de ferramentas gráficas e estatísticas, incluindo análise de dados espaciais, análise de séries temporais, classificação, clustering, e mineração de dados. Em muitas disciplinas científicas, como Hidrologia, Ecologia, Ciências do Solo, Saúde Coletiva, R é a linguagem mais usada para análise de dados. R é facilmente extensível através de funções e pacotes, e a comunidade de desenvolvedores R é muito ampla e ativa. O ambiente estatístico R prove um conjunto substancial de funções estatísticas, que são importantes para estudos com análise de séries temporais de sensoriamento remoto. No entanto, o ambiente R tem deficiências para lidar com grandes volumes de imagens de sensoriamento remoto. As rotinas em R são (por default) executadas na memória principal do computador cliente, o que implica em grande transferência de dados entre cliente e servidor. Além disso, programas escritos diretamente em R são interpretados, o que leva a um desempenho limitado. Benchmarks comparativos mostram que programas em R são de 200 a 500 vezes mais lentos que programas em C++. Finalmente, o ambiente R, apesar de sua grande riqueza de funções, ainda tem lacunas na área de processamento de imagens. Há muitas funções na biblioteca Terralib que não são disponíveis no ambiente R. O objetivo deste projeto é fazer com que métodos de análise de dados de observação da terra desenvolvidos no âmbito do projeto "e-Sensing: Big Earth observation data analytics for land use and land cover change information", implementados ambiente R, possam ser executados com eficiência no ambiente SciDB. O projeto também desenvolverá uma nova versão do pacote aRT, com o objetivo de permitir que programas em R possam ter acesso a rotinas da biblioteca TerraLib e a dados armazenados em bancos de dados gerenciados pela biblioteca. O acoplamento entre os ambientes R-ScidB e aRT permitirá a integração entre dados vetoriais disponíveis em bancos de dados Terralib e dados matriciais (imagens) disponíveis no ambiente SciDB. (AU)