Texto completo
| |
| Autor(es): |
Wélliton de Souza
Número total de Autores: 1
|
| Tipo de documento: | Tese de Doutorado |
| Imprenta: | Campinas, SP. |
| Instituição: | Universidade Estadual de Campinas (UNICAMP). Faculdade de Ciências Médicas |
| Data de defesa: | 2020-10-26 |
| Membros da banca: |
Íscia Teresinha Lopes Cendes;
Andre Schwambach Vieira;
Diego Fernando Troggian Veiga;
Mônica Barbosa de Melo;
Wilson Araújo da Silva Junior
|
| Orientador: | Íscia Teresinha Lopes Cendes |
| Resumo | |
Tecnologias de sequenciamento de alto rendimento e a demanda crescente por análise de conjuntos de dados genômicos em larga escala criaram desafios computacionais e de reprodutibilidade. Grandes volumes de dados exigem sistemas otimizados para execução em ambientes de alto desempenho e eficientes, ao mesmo tempo em que os projetos de pesquisa expandem e novos recursos computacionais são adquiridos. Nesse contexto os protocolos de processamento tornaram-se mais complexos conforme técnicas de sequenciamento foram desenvolvidas para outras áreas além da genômica, como transcriptômica e epigenômica. Esses protocolos são compostos de dezenas de tarefas que devem ser executadas em um fluxo de trabalho que pode ter ramificações e uso de técnicas de paralelismo dificultando a publicação de pesquisas completamente reprodutíveis, requisito cada vez mais presente na literatura. Durante a execução deste trabalho, protocolos de processamento reprodutíveis foram descritos em Workflow Description Language e executados utilizando o sistema gerenciador de protocolos Cromwell. O sistema RNNR foi desenvolvido para gerenciamento de recursos computacionais, distribuição e execução de tarefas de processamento em computadores em rede. Outras ferramentas como Espresso-Caller e MethSeq foram desenvolvidas para automatizar a execução de protocolos complexos. As ferramentas computacionais desenvolvidas, quando combinadas a outros sistemas e padrões desenvolvidos pela comunidade, criaram um ecossistema para análises reprodutíveis de dados de sequenciamento de larga escala e suportado em diferentes ambientes computacionais. RNNR diminuiu o tempo total de análises de grandes volumes de dados de sequenciamento. As ferramentas de automação simplificaram a execução de análises com centenas de amostras. O ecossistema foi utilizado para analisar milhares de amostras de sequenciamento e possibilitou a execução de estudos em genômica, transcriptômica e epigenômica (AU) | |
| Processo FAPESP: | 16/04204-8 - Desenvolvimento e otimização de protocolos e ferramentas em bioinformática através de técnicas de computação de alto desempenho para uso no processamento de dados biológicos de larga escala |
| Beneficiário: | Wélliton de Souza |
| Modalidade de apoio: | Bolsas no Brasil - Doutorado |