Busca avançada
Ano de início
Entree

Implementação de pipelines/workflows na nuvem para análises de bioinformática dos dados genômicos do Centro de Estudos do Genoma Humano e de Células-Tronco (CEGH-CEL)

Processo: 22/03577-6
Modalidade de apoio:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Vigência (Início): 01 de junho de 2022
Vigência (Término): 31 de maio de 2023
Área do conhecimento:Interdisciplinar
Pesquisador responsável:Maria Rita dos Santos e Passos Bueno
Beneficiário:Jose Franklin Calderon Tantalean
Instituição Sede: Instituto de Biociências (IB). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Vinculado ao auxílio:13/08028-1 - CEGH-CEL - Centro de Estudos do Genoma Humano e de Células-Tronco, AP.CEPID
Assunto(s):Biologia computacional   Sequenciamento de nova geração   Computação em nuvem   Fluxo de trabalho   Banco de dados
Palavra(s)-Chave do Pesquisador:Bancos de Dados | bioinformática | dockers | Ngs | nuvem | Workflows | Bioinformática

Resumo

Atualmente, vislumbramos uma contínua e massiva produção de dados de sequenciamento de nova geração (NGS - Next Generation Sequencing) resultantes da redução de custos e melhor desempenho dessas tecnologias. Esses dados são processados em fluxos de trabalho (workflows), adaptados de acordo com as necessidades de análise genômica através de vários softwares conectados (pipelines). No entanto, devido à crescente complexidade desses workflows, os quais são compostos por diversos softwares desenvolvidos por grupos independentes que requerem suas próprias especificações, dependências e atualizações, o gerenciamento torna-se desafiador. Entre as dificuldades, observa-se conflitos de dependências, portabilidade complexa, conferindo risco de produção de resultados menos reprodutíveis. Por fim, os workflows em bioinformática exigem grande capacidade computacional, refletida em altos custos na compra e manutenção de servidores físicos tradicionais, que poderiam ser otimizados em ambientes flexíveis a exemplo da nuvem, que permite escolher instâncias adequadas para custo-efetividade. O Centro de Estudos de Genoma Humano e Células-Tronco (CEGH-CEL) da USP produz dados de NGS e pipelines de bioinformática em sua rotina de testes genéticos para pesquisa e serviço de diagnóstico molecular. Dentre várias abordagens para otimizar workflows, uma em especial tem demonstrado, segundo literatura recente, uma opção vantajosa em termos de custo e eficiência, o qual combina tecnologias baseadas em contêineres (dockers) desenvolvidos em plataformas alocadas e otimizadas para aplicações em nuvem de alta performance. Os contêineres são candidatos interessantes para a construção de infraestruturas bioinformáticas, uma vez que permitem a fácil implementação de processos em ambientes isolados, ou seja, com menor interferência de atualizações em sistemas operacionais e drivers, além de alocação de hardware não competitiva. O formato facilita a reprodução dos resultados e a portabilidade destes processos em diversos ambientes computacionais (cross-platform), além de um melhor controle dos versionamentos das pipelines. Além disso, as tecnologias baseadas em nuvem oferecem uma escalabilidade, flexibilidade e automatização dos recursos computacionais, sem a necessidade de manutenção constante e sem a limitação de configurações de hardware, como os servidores físicos tradicionais (on premises). Estas qualidades vêm motivando uma crescente migração de workflows de bioinformática de datacenters tradicionais ou servidores físicos para tecnologias baseadas em nuvem. Este projeto tem como objetivo principal o desenvolvimento e implementação de workflows de bioinformática e bases de dados gerados pelo CEGH-CEL em uma plataforma tipo contêiner para processamento em alto desempenho na nuvem, para facilitar e otimizar as análises bioinformáticas. Ademais, o bolsista fará parte da equipe de suporte em bioinformática aos serviços e à pesquisa desenvolvida no CEGH-CEL. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)