Bolsa 22/10583-2 - Estatística e probabilidade, Biologia computacional - BV FAPESP
Busca avançada
Ano de início
Entree

Redes neurais recorrentes para classificação de proteínas em famílias e comparação com cadeias de Markov de memória variável

Processo: 22/10583-2
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de setembro de 2022
Data de Término da vigência: 31 de agosto de 2023
Área de conhecimento:Ciências Exatas e da Terra - Probabilidade e Estatística - Probabilidade e Estatística Aplicadas
Pesquisador responsável:Florencia Graciela Leonardi
Beneficiário:Alexandre Felix da Silva
Instituição Sede: Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Vinculado ao auxílio:17/10555-0 - Modelagem estocástica de sistemas interagentes, AP.TEM
Assunto(s):Estatística e probabilidade   Biologia computacional   Redes neurais (computação)   Cadeias de Markov   Análise de texto
Palavra(s)-Chave do Pesquisador:cadeias de Markov de memória variável | classificação de proteínas | Redes Neurais Recorrentes | Aprendizagem estatística

Resumo

Os modelos de redes neurais tem se tornado um dos mais promissores modelos estatísticos para análise de dados complexos. As redes neurais usuais podem ser utilizadas em problemas de classificação ou regressão, dependendo da natureza dos dados. Os modelos usuais de redes neurais assumem que os dados analisados são independentes. Por sua vez, os modelos de redes neurais recorrentes possibilitam a análise de dados com dependência, como é o caso de aplicações para análise de textos ou análise de sequências genômicas ou de amino-ácidos. O problema de classificação de proteínas em famílias é um problema clássico de Bioinformática. As proteínas estão constituídas por uma ou mais sequências de amino-ácidos, dos quais existem 20 diferentes tipos. A estrutura e a função de cada proteína estão determinadas pelos tipos de amino-ácidos usados na sua composição. Compreender a relação entre a sequência de amino-ácidos e a função da proteína é um problema de longa data na biologia molecular com implicações científicas de longo alcance. Alguns dos métodos mais utilizados para classificar sequências de amino-ácidos em famílias tem sido as cadeias de Markov, cadeias de Markov ocultas, e cadeias de Markov de memória variável. Mas muito recentemente, o modelo de redes neurais também tem sido utilizado para classificar as proteínas em famílias. Neste plano de atividades de iniciação científica propomos estudar o modelo de rede neural recorrente como possível modelo para classificar proteínas em famílias. Para isso, será estudada a bibliografia fundamental da área e também será estudado o modelo de cadeia de Markov de memória variável. Serão implementados algoritmos na linguagem R que permitam classificar as sequências de proteínas da base de dados Pfam v.34.0. Estes dados esta o disponíveis publicamente em http://ftp.ebi.ac.uk/pub/databases/Pfam/ releases/Pfam34.0/. Os resultados serão comparados com os obtidos com as cadeias de Markov de memória variável.(AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)