Busca avançada
Ano de início
Entree

Desenvolvimento e implementação de ferramentas para processamento de dados NGS e de bancos de dados para análise e armazenamento de variantes genéticas

Processo: 19/20768-7
Linha de fomento:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Vigência (Início): 01 de dezembro de 2019
Vigência (Término): 30 de novembro de 2020
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Maria Rita dos Santos e Passos Bueno
Beneficiário:Jaqueline Yu Ting Wang
Instituição-sede: Instituto de Biociências (IB). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Vinculado ao auxílio:13/08028-1 - CEGH-CEL - Centro de Estudos do Genoma Humano e de Células-Tronco, AP.CEPID
Assunto(s):Biologia computacional   Sequenciamento de nova geração   Processamento de dados   Plataforma (computação)   Banco de dados

Resumo

Sequenciamento de nova geração (next-generation sequencing, NGS), é uma tecnologia utilizada para sequenciar milhares de fragmentos de DNA em paralelo. Com o uso de técnicas de NGS em testes genéticos clínicos tornou-se possível a identificação de novas variantes genéticas. Porém, ainda não existe um significado clínico associado a todas as variantes encontradas e, por isso, o compartilhamento desses dados e a padronização da representação oferece grandes benefícios. Com o crescente acesso a essa tecnologia de sequenciamento e a necessidade de compartilhamento de dados, começaram a surgir diferentes bancos de dados com informações de variantes, baseadas em diferentes populações, entre eles, o ClinVar, o ExAC, o DGV, o 1000 Genomes e, mais recentemente, o ABraOM. Este último é um dos primeiros bancos de dados de variantes da população brasileira. O presente projeto tem como um dos objetivos principais em contribuir na elaboração de uma plataforma de processamento de dados, utilizando um novo pipeline que será validado primeiramente. A plataforma também será responsável pelo armazenamento de variantes genéticas em banco de dados integrado e estruturado para análise, o DesBraVar. O pipeline para processamento dos dados é composto de ferramentas validadas da comunidade para esse tipo de análise, tais como o BWA-mem, Picard tools, GATK e Annovar. Algumas das ferramentas que já são utilizadas no pipeline do CEGH-CEL para a referência GRCh37/hg19 não são adequadas para a referência GRCh38/hg38, por isso, precisam ser desenvolvidas. O segundo objetivo consiste em realizar o processamento de dados de exoma sequenciados em NGS no Centro de Pesquisa sobre o Genoma Humano e Células Tronco do Instituto de Biociências da USP (CEGH-CEL IB-USP), utilizando o pipeline para o genoma referência GRCh38/hg38 e disponibilizar esses dados para análise em um banco de dados estruturado, o LOVD+ . (AU)