Resumo
Características genômicas e epigenômicas nas regiões codificadoras e não-codificadoras do DNA têm sido recentemente descobertas através de avanços das tecnologias de sequenciamento do DNA. Grandes consórcios internacionais (The Cancer Genome Atlas (TCGA), NIH Roadmap e ENCODE) têm investido milhões de dólares na esperança de avançar nosso entendimento acerca do genoma humano utilizando linhagens celulares comumente utilizadas (por exemplo, MCF-7, HMEC, etc), linhagens celulares primárias de tecidos normais (como células-tronco) e patológicos (por exemplo, câncer de cérebro ). Os dados genômicos multi-dimensionais disponíveis são derivados de mais de 10.000 experimentos (mais de 100 terabases de dados desde Projeto 1000 genomas, RNA-seq, ChIP-seq até Metil-seq) obtidos em mais de10.000 linhagens de células/tecidos.Todos estes dados vêm sendo depositados em bancos de dados de domínio público, proporcionando um recurso inestimável para laboratórios de investigação, uma vez que permitem a comparação e a validação de características genômicas e epigenômicas entre seus experimentos de sequenciamento gerados e os disponíveis publicamente. Apesar da sua significativa disponibilidade, os dados são depositados em diferentes repositórios, que apresentam diferentes formatos, tornando-se um desafio localizarem-se e identificarem-se características relevantes. Muitos pesquisadores computacionais iniciantes ou avançados, incluindo a nossa própria equipe, têm aproveitado com sucesso alguns destes dados livremente disponíveis integrando-os e produzindo insights científicos que permitiram a identificação de alterações epigenômicas biologicamente relevantes (Berman et al Natureza Genética 2012 , Coetzee et al. NAR 2012 e Noushmehr et al. Springer 2013). No entanto, entre os muitos problemas enfrentados pela maioria dos pesquisadores nessa área estão a falta de ferramentas adequadas de bioinformática e/ou de habilidade para integrar efetivamente os seus dados de sequenciamento com esses dados públicos de sequenciamento biológicos de valor inestimável. Em parceria com nossos colaboradores nacionais (Life Science/Health), que gerarão mais de 200 dados de metiloma e transcriptomas e com os nossos colaboradores internacionais, iremos desenvolver ferramentas automatizadas para unificar as diversas bases de dados contendo genes regulatórios dos genes, e desenvolver pipelines de metilação poderosas, no entanto de fácil utilização, usando a estrutura de código aberto R / Bioconductor, Rstudio Shiny e do sistema Galaxy baseado na web. (AU)
| Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio: |
| Mais itensMenos itens |
| TITULO |
| Matéria(s) publicada(s) em Outras Mídias ( ): |
| Mais itensMenos itens |
| VEICULO: TITULO (DATA) |
| VEICULO: TITULO (DATA) |