Busca avançada
Ano de início
Entree

Análise de classificados de sequências projetados por aprendizado computacional supervisionado e não supervisionado

Processo: 01/03975-5
Linha de fomento:Bolsas no Brasil - Mestrado
Vigência (Início): 01 de agosto de 2001
Vigência (Término): 31 de julho de 2003
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Matemática da Computação
Pesquisador responsável:Junior Barrera
Beneficiário:Caetano Jimenez Carezzato
Instituição-sede: Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Assunto(s):Genética   Agrupamento de dados   Reconhecimento de padrões

Resumo

Nos últimos anos, milhares de seqüências de DNA e proteínas vêm sendo depositadas em bancos de dados públicos em todo o mundo. Atualmente, o principal desafio da Biologia Molecular Computacional é analisar e extrair informações úteis dessa grande quantidade de dados disponíveis. Este trabalho tem por objetivo estudar e comparar diversos métodos computacionais para a realização de busca de homologia e clustering (i.e., reconhecimento de padrões supervisionado e não supervisionado) em seqüências de nucleotídeos (i.e., DNA) e aminoácidos (i.e., proteínas). Para a comparação das diversas métodos, modelaremos os dados por Gramáticas Estocásticas que serão estimadas a partir de dados reais. Essas gramáticas estocásticas serão utilizadas para a geração dos dados de testes. Dados conjuntos de seqüências de categorias diferentes, treinamos uma gramática estocástica para cada conjunto e geramos dados de testes através de realizações dessas gramáticas. Aplicaremos os algoritmos que queremos comparar nos dados gerados e verificaremos a precisão de cada um. (AU)