Busca avançada
Ano de início
Entree

Ferramentas de aprendizado de máquina para problemas de bioinformática

Processo: 19/21300-9
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de novembro de 2019
Vigência (Término): 31 de outubro de 2020
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:André Carlos Ponce de Leon Ferreira de Carvalho
Beneficiário:Victor Alexandre Padilha
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Assunto(s):Biologia computacional   Aprendizado computacional   Sistemas CRISPR-Cas   RNAs não codificadores

Resumo

Nos últimos anos, técnicas de aprendizado de máquina têm sido extensivamente utilizadas para problemas de bioinformática, devido às suas capacidades para a resolução de problemas complexos por meio do aprendizado de uma função, a partir de exemplos conhecidos, capaz de realizar predições para novos exemplos. Motivado por tais resultados, este projeto tem como objetivo abordar três problemas de bioinformática através de técnicas de aprendizado de máquina: (i) a classificação de proteínas associadas ao sistema CRISPR (proteínas Cas), por meio da extração de exemplos e suas características diretamente de um conjunto de sequências proteicas provenientes de diferentes genomas. A solução a ser desenvolvida será incluída em uma ferramenta de classificação de cadeias proteicas provenientes do CRISPR já desenvolvida e será comparada em desempenho com modelos ocultos de Markov, os quais são utilizados para a rotulação de proteínas em tal ferramenta; (ii) o desenvolvimento de uma nova ferramenta para a identificação de regiões de iniciação de tradução a partir de dados ribossômicos. Baseado em um conjunto de dados rotulados, serão extraídos picos que caracterizam tais regiões nos dados. Em seguida, um modelo será gerado para realizar a predição para novos exemplos; e (iii) a identificação de RNAs não-codificantes longos em plantas, através da extração de características a partir de alinhamentos de genomas completos, os quais tornam possível a predição de regiões proteicas conservadas com estrutura secundária conservada. (AU)