Busca avançada
Ano de início
Entree


Seleção de características e predição intrinsecamente multivariada em identificação de redes de regulação gênica

Texto completo
Autor(es):
Martins Junior, David Corrêa
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Paulo. 2009. 144 f.
Instituição: Universidade de São Paulo (USP). Instituto de Matemática e Estatística
Data de defesa:
Membros da banca:
César Júnior, Roberto Marcondes; Armelin, Hugo Aguirre; Barrera, Júnior; Souza, Sandro José de; Vencio, Ricardo Zorzetto Nicoliello
Orientador: César Júnior, Roberto Marcondes; Barrera, Júnior
Área do conhecimento: Ciências Exatas e da Terra - Ciência da Computação
Indexada em: Banco de Dados Bibliográficos da USP-DEDALUS; Biblioteca Digital de Teses e Dissertações - USP
Localização: Universidade de São Paulo. Instituto de Matemática e Estatística. Biblioteca Carlos Benjamin de Lyra; IME-T QA862.T e.1; M386s
Resumo

Seleção de características é um tópico muito importante em aplicações de reconhecimento de padrões, especialmente em bioinformática, cujos problemas são geralmente tratados sobre um conjunto de dados envolvendo muitas variáveis e poucas observações. Este trabalho analisa aspectos de seleção de características no problema de identificação de redes de regulação gênica a partir de sinais de expressão gênica. Particularmente, propusemos um modelo de redes gênicas probabilísticas (PGN) que devolve uma rede construída a partir da aplicação recorrente de algoritmos de seleção de características orientados por uma função critério baseada em entropia condicional. Tal critério embute a estimação do erro por penalização de amostras raramente observadas. Resultados desse modelo aplicado a dados sintéticos e a conjuntos de dados de microarray de Plasmodium falciparum, um agente causador da malária, demonstram a validade dessa técnica, tendo sido capaz não apenas de reproduzir conhecimentos já produzidos anteriormente, como também de produzir novos resultados. Outro aspecto investigado nesta tese é o fenômeno da predição intrinsecamente multivariada (IMP), ou seja, o fato de um conjunto de características ser um ótimo caracterizador dos objetos em questão, mas qualquer de seus subconjuntos propriamente contidos não conseguirem representá-los de forma satisfatória. Neste trabalho, as condições para o surgimento desse fenômeno foram obtidas de forma analítica para conjuntos de 2 e 3 características em relação a uma variável alvo. No contexto de redes de regulação gênica, foram obtidas evidências de que genes alvo de conjuntos IMP possuem um enorme potencial para exercerem funções vitais em sistemas biológicos. O fenômeno conhecido como canalização é particularmente importante nesse contexto. Em dados de microarray de melanoma, constatamos que o gene DUSP1, conhecido por exercer função canalizadora, foi aquele que obteve o maior número de conjuntos de genes IMP, sendo que todos eles possuem lógicas de predição canalizadoras. Além disso, simulações computacionais para construção de redes com 3 ou mais genes mostram que o tamanho do território de um gene alvo pode ter um impacto positivo em seu teor de IMP com relação a seus preditores. Esta pode ser uma evidência que confirma a hipótese de que genes alvo de conjuntos IMP possuem a tendência de controlar diversas vias metabólicas cruciais para a manutenção das funções vitais de um organismo. (AU)

Processo FAPESP: 04/03967-0 - Reducao de dimensionalidade para identificacao de arquitetura de redes de regulacao genica e projeto de operadores.
Beneficiário:David Corrêa Martins Junior
Linha de fomento: Bolsas no Brasil - Doutorado