Advanced search
Start date
Betweenand

GenSeed-HMM: development of a platform for sequence reconstruction and application on novel virus discovery

Grant number: 10/04609-1
Support Opportunities:Scholarships in Brazil - Master
Start date: September 01, 2010
End date: March 31, 2012
Field of knowledge:Biological Sciences - Biochemistry - Molecular Biology
Principal Investigator:Arthur Gruber
Grantee:André Luiz de Oliveira
Host Institution: Instituto de Ciências Biomédicas (ICB). Universidade de São Paulo (USP). São Paulo , SP, Brazil

Abstract

O sequenciamento de DNA se tornou uma técnica universal e de ampla aplicação para desvendar a complexidade de informações dos organismos vivos. Recentemente, com o desenvolvimento dos sequenciadores de nova geração, também chamados maciçamente paralelos, a quantidade de dados gerados cresceu em várias ordens de grandeza. Esta enorme quantidade de dados fragmentados não foi acompanhada pela sua organização simultânea. Como conseqüência, muitos projetos de sequenciamento genômico apenas oferecem dados parcialmente montados ou mesmo sequências não montadas. Muitas questões biológicas estão dirigidas em alvos moleculares simples, e a reconstrução de sequências específicas é uma necessidade muito comum. Para aqueles organismos cujos genomas ou transcriptomas já estão montados, encontrar uma região específica ou sequência codificante é uma tarefa simples, realizada através de buscas de similaridade com programas como o BLAST. Por outro lado, para os organismos cujos dados de sequenciamento ainda se encontram fragmentados, uma montagem global do genoma/transcriptoma pode ser requerida. A maioria dos programas convencionais de montagem como o Phrap e CAP3 utilizam a abordagem da sobreposição-leiaute-consenso (overlap-layout-consensus). Nesse método, o processo se inicia com uma comparação das leituras todas-contra-todas, de forma a determinar todas as sobreposições entre elas, e computar uma estrutura de grafo. Na fase do leiaute, o grafo é simplificado pela eliminação da redundância, e um esquema consistindo da posição relativa das leituras é estabelecido. Finalmente, o programa constrói um alinhamento múltiplo de sequências a partir do qual uma sequência consenso é obtida. Essa abordagem computacional é altamente dispendiosa em termos de memória alocada e processamento computacional, e pode se tornar impraticável para a maioria dos grupos de pesquisa se bases de dados muito grandes forem utilizadas. Esse problema nos motivou a criar um método para a montagem alvo-específica de sequências de DNA. O método, denominado montagem progressiva dirigida por semente, consiste na reconstrução de sequências específicas a partir de dados não montados, partindo de sequências iniciais curtas de DNA ou proteína. O programa GenSeed, que implementa este método, foi recentemente descrito pelo nosso grupo, e pode ser aplicado para a reconstrução de fragmentos genômicos, cDNAs e genomas extracromossômicos. Esse método, embora tenha se mostrado bastante eficiente para a reconstrução de sequências usando sementes e bases de dados derivadas do mesmo organismo, a reconstrução de sequências de organismos filogeneticamente mais distantes torna-se problemática. Modelos probabilísticos têm sido utilizados em perfis de alinhamentos múltiplos de sequências para estabelecer relações entre proteínas de mesma função, ainda que pertencentes a organismos distantes. Assim, a base Pfam, por exemplo, consiste numa grande coleção de HMMs de perfis de milhares de diferentes famílias protéicas, cada família consistindo em um conjunto de proteínas ortólogas. Com base nisso, objetivamos nesse projeto desenvolver uma nova versão do programa, que denominaremos GenSeed-HMM, o qual deverá utilizar HMMs de perfis de alinhamento múltiplo de sequências como sementes para a reconstrução de sequências específicas. Para isso, um novo algoritmo será criado, implementado e testado em sequências biológicas. Uma vez implementado e testado o programa, pretendemos utilizá-lo para a busca de novos vírus utilizando dados de metagenômica de amostras humanas e de origem ambiental. A detecção de novos vírus a partir de amostras de dados metagenômicos, com o uso de HMMs de perfis, pode criar um novo paradigma diagnóstico, em que a caracterização prévia desses vírus já não será uma condição sine qua non. A esse novo tipo de diagnóstico, que objetivamos alcançar com o programa GenSeed-HMM, chamaremos de diagnóstico de novo.

News published in Agência FAPESP Newsletter about the scholarship:
More itemsLess items
Articles published in other media outlets ( ):
More itemsLess items
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Scientific publications
(The scientific publications listed on this page originate from the Web of Science or SciELO databases. Their authors have cited FAPESP grant or fellowship project numbers awarded to Principal Investigators or Fellowship Recipients, whether or not they are among the authors. This information is collected automatically and retrieved directly from those bibliometric databases.)
ALVES, JOAO M. P.; DE OLIVEIRA, ANDRE L.; SANDBERG, TATIANA O. M.; MORENO-GALLEGO, JAIME L.; DE TOLEDO, MARCELO A. F.; DE MOURA, ELISABETH M. M.; OLIVEIRA, LILANE S.; DURHAM, ALAN M.; MEHNERT, DOLORES U.; ZANOTTO, PAOLO M. DE A.; et al. GenSeed-HMM: A Tool for Progressive Assembly Using Profile HMMs as Seeds and its Application in Alpavirinae Viral Discovery from Metagenomic Data. FRONTIERS IN MICROBIOLOGY, v. 7, . (10/04609-1, 13/14622-3)
Academic Publications
(References retrieved automatically from State of São Paulo Research Institutions)
OLIVEIRA, André Luiz de. GenSeed-HMM: development of a platform for sequence reconstruction and application on next-generation sequencing data.. 2012. Master's Dissertation - Universidade de São Paulo (USP). Instituto de Ciências Biomédicas (ICB/SDI) São Paulo.