Busca avançada
Ano de início
Entree


Desenvolvimento de sistemas escaláveis para pesquisa genômica em ambientes de computação de alto desempenho

Texto completo
Autor(es):
Wélliton de Souza
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Faculdade de Ciências Médicas
Data de defesa:
Membros da banca:
Íscia Teresinha Lopes Cendes; Andre Schwambach Vieira; Diego Fernando Troggian Veiga; Mônica Barbosa de Melo; Wilson Araújo da Silva Junior
Orientador: Íscia Teresinha Lopes Cendes
Resumo

Tecnologias de sequenciamento de alto rendimento e a demanda crescente por análise de conjuntos de dados genômicos em larga escala criaram desafios computacionais e de reprodutibilidade. Grandes volumes de dados exigem sistemas otimizados para execução em ambientes de alto desempenho e eficientes, ao mesmo tempo em que os projetos de pesquisa expandem e novos recursos computacionais são adquiridos. Nesse contexto os protocolos de processamento tornaram-se mais complexos conforme técnicas de sequenciamento foram desenvolvidas para outras áreas além da genômica, como transcriptômica e epigenômica. Esses protocolos são compostos de dezenas de tarefas que devem ser executadas em um fluxo de trabalho que pode ter ramificações e uso de técnicas de paralelismo dificultando a publicação de pesquisas completamente reprodutíveis, requisito cada vez mais presente na literatura. Durante a execução deste trabalho, protocolos de processamento reprodutíveis foram descritos em Workflow Description Language e executados utilizando o sistema gerenciador de protocolos Cromwell. O sistema RNNR foi desenvolvido para gerenciamento de recursos computacionais, distribuição e execução de tarefas de processamento em computadores em rede. Outras ferramentas como Espresso-Caller e MethSeq foram desenvolvidas para automatizar a execução de protocolos complexos. As ferramentas computacionais desenvolvidas, quando combinadas a outros sistemas e padrões desenvolvidos pela comunidade, criaram um ecossistema para análises reprodutíveis de dados de sequenciamento de larga escala e suportado em diferentes ambientes computacionais. RNNR diminuiu o tempo total de análises de grandes volumes de dados de sequenciamento. As ferramentas de automação simplificaram a execução de análises com centenas de amostras. O ecossistema foi utilizado para analisar milhares de amostras de sequenciamento e possibilitou a execução de estudos em genômica, transcriptômica e epigenômica (AU)

Processo FAPESP: 16/04204-8 - Desenvolvimento e otimização de protocolos e ferramentas em bioinformática através de técnicas de computação de alto desempenho para uso no processamento de dados biológicos de larga escala
Beneficiário:Wélliton de Souza
Modalidade de apoio: Bolsas no Brasil - Doutorado