Busca avançada
Ano de início
Entree

Tolerância a falhas em grades computacionais de grande escala

Processo: 06/04976-9
Modalidade de apoio:Bolsas no Brasil - Pós-Doutorado
Data de Início da vigência: 01 de janeiro de 2007
Data de Término da vigência: 12 de novembro de 2007
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Fabio Kon
Beneficiário:Fernando José Castor de Lima Filho
Instituição Sede: Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Assunto(s):Tolerância a falhas   Sistemas distribuídos   Engenharia de software   Sistemas autônomos   Computação em grid
Palavra(s)-Chave do Pesquisador:Computacao Em Grade | Engenharia De Software | Sistemas Autonomos | Sistemas Distribuidos | Tolerancia A Falhas | Sistemas Distribuídos

Resumo

Apesar da rápida evolução da Computação em Grade na última década e do seu emprego na solução de problemas reais computacionalmente caros, diversos desafios ainda precisam ser superados antes que essa tecnologia possa ser adotada universalmente. Um desses desafios consiste em garantir que grades de grande escala continuem funcionando de maneira eficiente quando alguns dos seus nós falham, em particular os nós responsáveis por gerenciar a infra-estrutura da grade, já que falhas desses nós podem comprometer o funcionamento da grade inteira. Estudos recentes indicam que problemas de infra-estrutura estão entre os mais comumente encontrados por usuários de grades computacionais. Em geral, esses usuários têm dificuldades para resolver esses problemas manualmente, uma vez que: (i) costumam ser especialistas nos domínios das aplicações que submetem à grade e não no seu gerenciamento; e (ii) em grades de grande escala, potencialmente envolvendo milhares de nós, dezenas de nós podem falhar simultaneamente a todo momento, o que torna inviável o gerenciamento manual da grade. Este projeto de pesquisa visa investigar novos protocolos, mecanismos e algoritmos para a construção de uma infra-estrutura tolerante a falhas e autônoma para a execução de aplicações em grades computacionais de grande escala.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
CASTOR FILHO, FERNANDO; ROMANOVSKY, ALEXANDER; RUBIRA, CECILIA MARY F.. Improving reliability of cooperative concurrent systems with exception flow analysis. JOURNAL OF SYSTEMS AND SOFTWARE, v. 82, n. 5, p. 874-890, . (06/04976-9, 02/13996-2)
CASTOR FILHO, FERNANDO; GARCIA, ALESSANDRO; RUBIRA, CECILIA MARY F.; IEEE. Extracting error handling to aspects: A cookbook. 2007 IEEE INTERNATIONAL CONFERENCE ON SOFTWARE MAINTENANCE, v. N/A, p. 2-pg., . (02/13996-2, 04/10663-8, 06/04976-9)