Busca avançada
Ano de início
Entree


Statistical analysis of evolution by genome rearrangements

Texto completo
Autor(es):
Priscila do Nascimento Biller
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:
Membros da banca:
João Meidanis; Cid Carvalho de Souza; João Carlos Setubal; Sergio Russo Matioli; Zanoni Dias; Fábio Luiz Usberti
Orientador: João Meidanis
Resumo

O método comparativo em biologia evolutiva consiste em detectar similaridades e diferenças entre os genomas existentes e, baseado em hipóteses mais ou menos formais sobre os processos evolucionários, inferir estados ancestrais que expliquem as similaridades e uma história evolutiva que explique as diferenças. Um problema clássico consiste em comparar dois genomas e estimar a quantidade de mudanças evolutivas que ocorreram nas linhagens que os separam. As mudanças evolutivas nos genomas podem ocorrer em diferentes escalas, desde mutações em um único nucleotídeo até grandes rearranjos cromossomais. Nesta tese apresentamos novos modelos de evolução por rearranjos, e estimativas estatísticas baseadas neles. Primeiro propomos uma fórmula fechada, exata e invertível analiticamente para o número esperado de breakpoints após um dado número de operações Double-Cut-and-Join (DCJ). Este resultado melhora a fórmula anteriormente proposta, que é recursiva, heurística e mais lenta de ser computada. Então estabelecemos links formais entre evolução de genomas por DCJ e três processos bem conhecidos (substituições em sequências binárias, transposições em permutações e grafos aleatórios) e, consequentemente, firmamos a teoria ou corrigimos as intuições dos estudos precedentes. A fim de validar a habilidade em estimar o número de rearranjos em dados biológicos e produzir benchmarks para estudos em rearranjo de genomas, usamos a ferramenta Aevol, uma plataforma de evolução in silico desenvolvida para entender os processos da evolução estrutural em genomas. Testamos diversos estimadores baseados em modelos tradicionais de evolução por inversões, e mostramos que a maioria dos estimadores estatísticos e combinatórios, que se comportavam perfeitamente em simulações ad-hoc, falharam neste conjunto de dados. Os simuladores ad-hoc frequentemente codificam as mesmas simplificações e hipóteses dos métodos de inferência. Entretanto, os sistemas de vida artificial e os modelos in silico da evolução de genomas são independentes e baseados em princípios biológicos mais sofisticados que a maioria dos simuladores ad-hoc. Consequentemente, supomos que os dados produzidos são provavelmente mais próximos dos dados biológicos. Posteriormente fizemos uma verificação mais aprofundada das falhas identificadas, que recaem em duas categorias: uma é ignorar a heterogeneidade da suscetibilidade de quebras nas regiões genômicas, e a outra é supor que o número de regiões suscetíveis a quebras é dado. Subsequentemente propomos um modelo de evolução por inversões no qual as probabilidades de quebra variam entre as regiões e pelo tempo, que contém como caso particular o modelo uniforme de quebras da sequência de nucleotídeos, em que as probabilidades de quebra são proporcionais aos tamanhos das regiões frágeis. Neste caso particular, a distribuição no equilíbrio é similar a distribuição dos tamanhos das regiões intergênicas de diversos organismos. Este modelo é muito diferente do modelo frequentemente usado, no qual todas as regiões frágeis tem a mesma probabilidade de serem quebradas. Os estimadores baseados em nosso modelo obtiveram performances incomparavelmente melhores em dados simulados, além de fornecerem os resultados mais plausíveis em pares de genomas amnióticos quando o número de regiões frágeis foi coestimado (AU)

Processo FAPESP: 12/14104-0 - Problemas de Rearranjo de Genomas Vistos Através de Permutações, Matrizes e Outros Conceitos de Álgebra
Beneficiário:Priscila Do Nascimento Biller
Modalidade de apoio: Bolsas no Brasil - Doutorado