Busca avançada
Ano de início
Entree


Biologia computacional aplicada para a análise de dados em larga escala

Texto completo
Autor(es):
Daniele Yumi Sunaga de Oliveira
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Paulo.
Instituição: Universidade de São Paulo (USP). Instituto de Biociências
Data de defesa:
Membros da banca:
Maria Rita dos Santos e Passos Bueno; Ronaldo Fumio Hashimoto; Júlio Cesar Nievola; Eduardo Moraes Rego Reis
Orientador: Maria Rita dos Santos e Passos Bueno; Ronaldo Fumio Hashimoto
Resumo

A enorme quantidade de dados que vem sendo gerada por tecnologias modernas de biologia representam um grande desafio para áreas como a bioinformática. Há uma série de programas disponíveis para a análise destes dados, mas que nem sempre são compreendidos o suficiente para serem corretamente aplicados, ou ainda, há problemas que requerem o desenvolvimento de novas soluções. Neste trabalho, nós apresentamos a análise de dados de duas das principais fontes de dados em larga escala: microarrays e sequenciamento. Na primeira, avaliamos se a estatística do método Rank Products (RP) é adequada para a identificação de genes diferencialmente expressos em estudos de doenças complexas, cujo uma das características é a heterogeneidade genética entre indivíduos com o mesmo fenótipo. Na segunda, desenvolvemos uma ferramenta chamada hunT para buscar por genes alvos do fator de transcrição T - um importante marcador de mesoderma com papel chave no desenvolvimento de vertebrados -, através da identificação de sítios de ligação para o T em suas sequências reguladoras. O desempenho do RP foi testado usando dados simulados e dados reais de um estudo de fissura lábio-palatina não-sindrômica, de autismo e também de um estudo que avalia o efeito da privação do sono em humanos. Nossos resultados mostraram que o RP é uma solução eficiente para detectar genes consistentemente desregulados em somente um subgrupo de pacientes, que esta habilidade é mantida com poucas amostras, mas que o seu desempenho é prejudicado quando são analisados poucos genes. Obtivemos fortes evidências biológicas da eficiência do método nos estudos com dados reais através da identificação de genes e vias previamente associados às doenças e da validação de novos genes candidatos através da técnica de PCR quantitativo em tempo real. Já o programa hunT identificou 4.602 genes de camundongo com o sítio de ligação para o domínio do T, sendo alguns deles já demonstrados experimentalmente. Identificamos 32 destes genes com expressão alterada em um estudo onde avaliamos o transcriptoma da diferenciação in vitro de células tronco embrionárias de camundongo para mesoderma, sugerindo a participação destes genes neste processo sendo regulados pelo T (AU)

Processo FAPESP: 08/10839-0 - Bioinformática para a identificação de vias de sinalização importantes para a pluripotencialidade celular
Beneficiário:Daniele Yumi Sunaga de Oliveira
Linha de fomento: Bolsas no Brasil - Doutorado