| Processo: | 10/04609-1 |
| Modalidade de apoio: | Bolsas no Brasil - Mestrado |
| Data de Início da vigência: | 01 de setembro de 2010 |
| Data de Término da vigência: | 31 de março de 2012 |
| Área de conhecimento: | Ciências Biológicas - Bioquímica - Biologia Molecular |
| Pesquisador responsável: | Arthur Gruber |
| Beneficiário: | André Luiz de Oliveira |
| Instituição Sede: | Instituto de Ciências Biomédicas (ICB). Universidade de São Paulo (USP). São Paulo , SP, Brasil |
| Assunto(s): | Metagenômica Biologia computacional |
| Palavra(s)-Chave do Pesquisador: | Descoberta de novos vírus | Genomas extracromossômicos | metagenômica | Modelos Ocultos de Markov | montagem de seqüências | Motivos protéicos | Bioinformática |
Resumo O sequenciamento de DNA se tornou uma técnica universal e de ampla aplicação para desvendar a complexidade de informações dos organismos vivos. Recentemente, com o desenvolvimento dos sequenciadores de nova geração, também chamados maciçamente paralelos, a quantidade de dados gerados cresceu em várias ordens de grandeza. Esta enorme quantidade de dados fragmentados não foi acompanhada pela sua organização simultânea. Como conseqüência, muitos projetos de sequenciamento genômico apenas oferecem dados parcialmente montados ou mesmo sequências não montadas. Muitas questões biológicas estão dirigidas em alvos moleculares simples, e a reconstrução de sequências específicas é uma necessidade muito comum. Para aqueles organismos cujos genomas ou transcriptomas já estão montados, encontrar uma região específica ou sequência codificante é uma tarefa simples, realizada através de buscas de similaridade com programas como o BLAST. Por outro lado, para os organismos cujos dados de sequenciamento ainda se encontram fragmentados, uma montagem global do genoma/transcriptoma pode ser requerida. A maioria dos programas convencionais de montagem como o Phrap e CAP3 utilizam a abordagem da sobreposição-leiaute-consenso (overlap-layout-consensus). Nesse método, o processo se inicia com uma comparação das leituras todas-contra-todas, de forma a determinar todas as sobreposições entre elas, e computar uma estrutura de grafo. Na fase do leiaute, o grafo é simplificado pela eliminação da redundância, e um esquema consistindo da posição relativa das leituras é estabelecido. Finalmente, o programa constrói um alinhamento múltiplo de sequências a partir do qual uma sequência consenso é obtida. Essa abordagem computacional é altamente dispendiosa em termos de memória alocada e processamento computacional, e pode se tornar impraticável para a maioria dos grupos de pesquisa se bases de dados muito grandes forem utilizadas. Esse problema nos motivou a criar um método para a montagem alvo-específica de sequências de DNA. O método, denominado montagem progressiva dirigida por semente, consiste na reconstrução de sequências específicas a partir de dados não montados, partindo de sequências iniciais curtas de DNA ou proteína. O programa GenSeed, que implementa este método, foi recentemente descrito pelo nosso grupo, e pode ser aplicado para a reconstrução de fragmentos genômicos, cDNAs e genomas extracromossômicos. Esse método, embora tenha se mostrado bastante eficiente para a reconstrução de sequências usando sementes e bases de dados derivadas do mesmo organismo, a reconstrução de sequências de organismos filogeneticamente mais distantes torna-se problemática. Modelos probabilísticos têm sido utilizados em perfis de alinhamentos múltiplos de sequências para estabelecer relações entre proteínas de mesma função, ainda que pertencentes a organismos distantes. Assim, a base Pfam, por exemplo, consiste numa grande coleção de HMMs de perfis de milhares de diferentes famílias protéicas, cada família consistindo em um conjunto de proteínas ortólogas. Com base nisso, objetivamos nesse projeto desenvolver uma nova versão do programa, que denominaremos GenSeed-HMM, o qual deverá utilizar HMMs de perfis de alinhamento múltiplo de sequências como sementes para a reconstrução de sequências específicas. Para isso, um novo algoritmo será criado, implementado e testado em sequências biológicas. Uma vez implementado e testado o programa, pretendemos utilizá-lo para a busca de novos vírus utilizando dados de metagenômica de amostras humanas e de origem ambiental. A detecção de novos vírus a partir de amostras de dados metagenômicos, com o uso de HMMs de perfis, pode criar um novo paradigma diagnóstico, em que a caracterização prévia desses vírus já não será uma condição sine qua non. A esse novo tipo de diagnóstico, que objetivamos alcançar com o programa GenSeed-HMM, chamaremos de diagnóstico de novo. | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |