Bolsa 06/04976-9 - Tolerância a falhas, Sistemas distribuídos

Processo:	06/04976-9
Modalidade de apoio:	Bolsas no Brasil - Pós-Doutorado
Data de Início da vigência:	01 de janeiro de 2007
Data de Término da vigência:	12 de novembro de 2007
Área de conhecimento:	Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação

Pesquisador responsável:	Fabio Kon
Beneficiário:	Fernando José Castor de Lima Filho

Instituição Sede:	Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo , SP, Brasil

Assunto(s):	Tolerância a falhas Sistemas distribuídos Engenharia de software Sistemas autônomos Computação em grid
Palavra(s)-Chave do Pesquisador:	Computacao Em Grade \| Engenharia De Software \| Sistemas Autonomos \| Sistemas Distribuidos \| Tolerancia A Falhas \| Sistemas Distribuídos
Resumo Apesar da rápida evolução da Computação em Grade na última década e do seu emprego na solução de problemas reais computacionalmente caros, diversos desafios ainda precisam ser superados antes que essa tecnologia possa ser adotada universalmente. Um desses desafios consiste em garantir que grades de grande escala continuem funcionando de maneira eficiente quando alguns dos seus nós falham, em particular os nós responsáveis por gerenciar a infra-estrutura da grade, já que falhas desses nós podem comprometer o funcionamento da grade inteira. Estudos recentes indicam que problemas de infra-estrutura estão entre os mais comumente encontrados por usuários de grades computacionais. Em geral, esses usuários têm dificuldades para resolver esses problemas manualmente, uma vez que: (i) costumam ser especialistas nos domínios das aplicações que submetem à grade e não no seu gerenciamento; e (ii) em grades de grande escala, potencialmente envolvendo milhares de nós, dezenas de nós podem falhar simultaneamente a todo momento, o que torna inviável o gerenciamento manual da grade. Este projeto de pesquisa visa investigar novos protocolos, mecanismos e algoritmos para a construção de uma infra-estrutura tolerante a falhas e autônoma para a execução de aplicações em grades computacionais de grande escala.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itens Menos itens
TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itens Menos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas

(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)

CASTOR FILHO, FERNANDO; ROMANOVSKY, ALEXANDER; RUBIRA, CECILIA MARY F.. Improving reliability of cooperative concurrent systems with exception flow analysis. JOURNAL OF SYSTEMS AND SOFTWARE, v. 82, n. 5, p. 874-890, MAY 2009. (06/04976-9, 02/13996-2)

CASTOR FILHO, FERNANDO; GARCIA, ALESSANDRO; RUBIRA, CECILIA MARY F.; IEEE. Extracting error handling to aspects: A cookbook. 2007 IEEE INTERNATIONAL CONFERENCE ON SOFTWARE MAINTENANCE, v. N/A, p. 2-pg., 2007-01-01. (02/13996-2, 04/10663-8, 06/04976-9)

URL curto