Busca avançada
Ano de início
Entree

Desenvolvimento e implementação de pipelines distribuídos de bioinformática para ambientes HPC híbridos e distribuídos

Processo: 25/06226-8
Modalidade de apoio:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Data de Início da vigência: 01 de maio de 2025
Data de Término da vigência: 30 de abril de 2027
Área de conhecimento:Interdisciplinar
Pesquisador responsável:Cristiane Rodrigues Guzzo Carvalho
Beneficiário:Raphael Luiz Lobo da Silva Souza
Instituição Sede: Instituto de Ciências Biomédicas (ICB). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Vinculado ao auxílio:21/10577-0 - Centro de Pesquisa em Biologia de Bactérias e Bacteriófagos (CEPID B3), AP.CEPID
Assunto(s):Programação   UNIX   Biologia computacional
Palavra(s)-Chave do Pesquisador:Desenvolvimento de Website | Hpc | Montagem de Genomas | programação | Unix | Bioinformática

Resumo

Efeitores tóxicos proteicos e suas respectivas proteínas de imunidade (pares TA) são encontrados em todos os tipos de ambientes e mediam interações entre quase todos os tipos de entidades biológicas, muitas vezes aumentando a aptidão do organismo produtor. Esses pares de genes são frequentemente encontrados próximos a genes que codificam componentes estruturais do sistema de secreção do tipo VI (T6SS). Em alguns casos, múltiplos pares de efetores tóxicos e proteínas de imunidade aparecem em um único lócus, formando um cassete polimórfico.Nossa estratégia para identificar esses pares de efetores/imunidade baseia-se na organização desses genes no contexto genômico. Ao identificar contextos genômicos conservados nesses locus, é possível apontar candidatos a efetores com base nas funções dos genes vizinhos. Infelizmente, devido ao envolvimento desses genes na corrida armamentista dos conflitos biológicos, essas proteínas frequentemente evoluem rapidamente, muitas vezes além da capacidade de detecção por métodos sofisticados de homologia remota.Para superar essas limitações, desenvolveremos pipelines para buscas iterativas de proteínas de toxinas e imunidade conhecidas e derivaremos modelos HMM (Hidden Markov Models) usando agrupamentos automatizados em larga escala de estruturas e sequências proteicas. Para analisar o contexto gênico em conjuntos de dados com centenas de milhares de genomas procarióticos e/ou metagenomas, será necessário reprogramar nossos pipelines para adaptar os protocolos.Assim, o objetivo deste projeto é desenvolver um protocolo de análise de contexto genômico que utilize scripts nas linguagens Python e/ou R para coletar e analisar o entorno genômico de homólogos de proteínas-alvo em larga escala, utilizando um backend com bancos de dados SQL que também servirá de base para interfaces web amigáveis ao usuário.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)