Busca avançada
Ano de início
Entree

Tolerância a falhas em grades computacionais de grande escala

Processo: 06/04976-9
Linha de fomento:Bolsas no Brasil - Pós-Doutorado
Vigência (Início): 01 de janeiro de 2007
Vigência (Término): 12 de novembro de 2007
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Fabio Kon
Beneficiário:Fernando José Castor de Lima Filho
Instituição-sede: Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Assunto(s):Tolerância a falhas   Sistemas distribuídos   Engenharia de software   Sistemas autônomos   Computação em grid

Resumo

Apesar da rápida evolução da Computação em Grade na última década e do seu emprego na solução de problemas reais computacionalmente caros, diversos desafios ainda precisam ser superados antes que essa tecnologia possa ser adotada universalmente. Um desses desafios consiste em garantir que grades de grande escala continuem funcionando de maneira eficiente quando alguns dos seus nós falham, em particular os nós responsáveis por gerenciar a infra-estrutura da grade, já que falhas desses nós podem comprometer o funcionamento da grade inteira. Estudos recentes indicam que problemas de infra-estrutura estão entre os mais comumente encontrados por usuários de grades computacionais. Em geral, esses usuários têm dificuldades para resolver esses problemas manualmente, uma vez que: (i) costumam ser especialistas nos domínios das aplicações que submetem à grade e não no seu gerenciamento; e (ii) em grades de grande escala, potencialmente envolvendo milhares de nós, dezenas de nós podem falhar simultaneamente a todo momento, o que torna inviável o gerenciamento manual da grade. Este projeto de pesquisa visa investigar novos protocolos, mecanismos e algoritmos para a construção de uma infra-estrutura tolerante a falhas e autônoma para a execução de aplicações em grades computacionais de grande escala.

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
CASTOR FILHO, FERNANDO; ROMANOVSKY, ALEXANDER; RUBIRA, CECILIA MARY F. Improving reliability of cooperative concurrent systems with exception flow analysis. JOURNAL OF SYSTEMS AND SOFTWARE, v. 82, n. 5, p. 874-890, MAY 2009. Citações Web of Science: 3.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.