Busca avançada
Ano de início
Entree

GenSeed-HMM: desenvolvimento de uma plataforma para a reconstrução de sequências e aplicação na descoberta de novos vírus

Processo: 10/04609-1
Linha de fomento:Bolsas no Brasil - Mestrado
Vigência (Início): 01 de setembro de 2010
Vigência (Término): 31 de março de 2012
Área do conhecimento:Ciências Biológicas - Bioquímica - Biologia Molecular
Pesquisador responsável:Arthur Gruber
Beneficiário:André Luiz de Oliveira
Instituição-sede: Instituto de Ciências Biomédicas (ICB). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Assunto(s):Metagenômica   Biologia computacional

Resumo

O sequenciamento de DNA se tornou uma técnica universal e de ampla aplicação para desvendar a complexidade de informações dos organismos vivos. Recentemente, com o desenvolvimento dos sequenciadores de nova geração, também chamados maciçamente paralelos, a quantidade de dados gerados cresceu em várias ordens de grandeza. Esta enorme quantidade de dados fragmentados não foi acompanhada pela sua organização simultânea. Como conseqüência, muitos projetos de sequenciamento genômico apenas oferecem dados parcialmente montados ou mesmo sequências não montadas. Muitas questões biológicas estão dirigidas em alvos moleculares simples, e a reconstrução de sequências específicas é uma necessidade muito comum. Para aqueles organismos cujos genomas ou transcriptomas já estão montados, encontrar uma região específica ou sequência codificante é uma tarefa simples, realizada através de buscas de similaridade com programas como o BLAST. Por outro lado, para os organismos cujos dados de sequenciamento ainda se encontram fragmentados, uma montagem global do genoma/transcriptoma pode ser requerida. A maioria dos programas convencionais de montagem como o Phrap e CAP3 utilizam a abordagem da sobreposição-leiaute-consenso (overlap-layout-consensus). Nesse método, o processo se inicia com uma comparação das leituras todas-contra-todas, de forma a determinar todas as sobreposições entre elas, e computar uma estrutura de grafo. Na fase do leiaute, o grafo é simplificado pela eliminação da redundância, e um esquema consistindo da posição relativa das leituras é estabelecido. Finalmente, o programa constrói um alinhamento múltiplo de sequências a partir do qual uma sequência consenso é obtida. Essa abordagem computacional é altamente dispendiosa em termos de memória alocada e processamento computacional, e pode se tornar impraticável para a maioria dos grupos de pesquisa se bases de dados muito grandes forem utilizadas. Esse problema nos motivou a criar um método para a montagem alvo-específica de sequências de DNA. O método, denominado montagem progressiva dirigida por semente, consiste na reconstrução de sequências específicas a partir de dados não montados, partindo de sequências iniciais curtas de DNA ou proteína. O programa GenSeed, que implementa este método, foi recentemente descrito pelo nosso grupo, e pode ser aplicado para a reconstrução de fragmentos genômicos, cDNAs e genomas extracromossômicos. Esse método, embora tenha se mostrado bastante eficiente para a reconstrução de sequências usando sementes e bases de dados derivadas do mesmo organismo, a reconstrução de sequências de organismos filogeneticamente mais distantes torna-se problemática. Modelos probabilísticos têm sido utilizados em perfis de alinhamentos múltiplos de sequências para estabelecer relações entre proteínas de mesma função, ainda que pertencentes a organismos distantes. Assim, a base Pfam, por exemplo, consiste numa grande coleção de HMMs de perfis de milhares de diferentes famílias protéicas, cada família consistindo em um conjunto de proteínas ortólogas. Com base nisso, objetivamos nesse projeto desenvolver uma nova versão do programa, que denominaremos GenSeed-HMM, o qual deverá utilizar HMMs de perfis de alinhamento múltiplo de sequências como sementes para a reconstrução de sequências específicas. Para isso, um novo algoritmo será criado, implementado e testado em sequências biológicas. Uma vez implementado e testado o programa, pretendemos utilizá-lo para a busca de novos vírus utilizando dados de metagenômica de amostras humanas e de origem ambiental. A detecção de novos vírus a partir de amostras de dados metagenômicos, com o uso de HMMs de perfis, pode criar um novo paradigma diagnóstico, em que a caracterização prévia desses vírus já não será uma condição sine qua non. A esse novo tipo de diagnóstico, que objetivamos alcançar com o programa GenSeed-HMM, chamaremos de diagnóstico de novo.

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
ALVES, JOAO M. P.; DE OLIVEIRA, ANDRE L.; SANDBERG, TATIANA O. M.; MORENO-GALLEGO, JAIME L.; DE TOLEDO, MARCELO A. F.; DE MOURA, ELISABETH M. M.; OLIVEIRA, LILANE S.; DURHAM, ALAN M.; MEHNERT, DOLORES U.; ZANOTTO, PAOLO M. DE A.; REYES, ALEJANDRO; GRUBER, ARTHUR. GenSeed-HMM: A Tool for Progressive Assembly Using Profile HMMs as Seeds and its Application in Alpavirinae Viral Discovery from Metagenomic Data. FRONTIERS IN MICROBIOLOGY, v. 7, MAR 4 2016. Citações Web of Science: 10.
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
OLIVEIRA, André Luiz de. GenSeed-HMM: desenvolvimento de uma plataforma para reconstrução de sequências e sua aplicação em dados de sequenciamento de nova geração.. 2012. Dissertação de Mestrado - Universidade de São Paulo (USP). Instituto de Ciências Biomédicas São Paulo.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.