Busca avançada
Ano de início
Entree

Ferramentas de aprendizado de máquina para problemas de bioinformática

Processo: 19/21300-9
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de novembro de 2019
Data de Término da vigência: 30 de setembro de 2020
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:André Carlos Ponce de Leon Ferreira de Carvalho
Beneficiário:Victor Alexandre Padilha
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Assunto(s):Biologia computacional   Aprendizado computacional   Sistemas CRISPR-Cas   RNAs não codificadores
Palavra(s)-Chave do Pesquisador:Crispr | machine learning | non-coding RNAs | RiboSeq | Aprendizado de máquina, Bioinformática

Resumo

Nos últimos anos, técnicas de aprendizado de máquina têm sido extensivamente utilizadas para problemas de bioinformática, devido às suas capacidades para a resolução de problemas complexos por meio do aprendizado de uma função, a partir de exemplos conhecidos, capaz de realizar predições para novos exemplos. Motivado por tais resultados, este projeto tem como objetivo abordar três problemas de bioinformática através de técnicas de aprendizado de máquina: (i) a classificação de proteínas associadas ao sistema CRISPR (proteínas Cas), por meio da extração de exemplos e suas características diretamente de um conjunto de sequências proteicas provenientes de diferentes genomas. A solução a ser desenvolvida será incluída em uma ferramenta de classificação de cadeias proteicas provenientes do CRISPR já desenvolvida e será comparada em desempenho com modelos ocultos de Markov, os quais são utilizados para a rotulação de proteínas em tal ferramenta; (ii) o desenvolvimento de uma nova ferramenta para a identificação de regiões de iniciação de tradução a partir de dados ribossômicos. Baseado em um conjunto de dados rotulados, serão extraídos picos que caracterizam tais regiões nos dados. Em seguida, um modelo será gerado para realizar a predição para novos exemplos; e (iii) a identificação de RNAs não-codificantes longos em plantas, através da extração de características a partir de alinhamentos de genomas completos, os quais tornam possível a predição de regiões proteicas conservadas com estrutura secundária conservada. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (4)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
PADILHA, VICTOR A.; ALKHNBASHI, OMER S.; SHAH, SHIRAZ A.; DE CARVALHO, ANDRE C. P. L. F.; BACKOFEN, ROLF. CRISPRcasIdentifier: Machine learning for accurate identification and classification of CRISPR-Cas systems. GIGASCIENCE, v. 9, n. 6, . (16/18615-0, 13/07375-0, 19/21300-9)
ALKHNBASHI, OMER S.; MITROFANOV, ALEXANDER; BONIDIA, ROBSON; RADEN, MARTIN; TRAN, VAN DINH; EGGENHOFER, FLORIAN; SHAH, SHIRAZ A.; OEZTUERK, EKREM; PADILHA, VICTOR A.; SANCHES, DANILO S.; et al. CRISPRloci: comprehensive and accurate annotation of CRISPR-Cas systems. Nucleic Acids Research, v. 49, n. W1, p. W125-W130, . (13/07375-0, 19/21300-9)
PADILHA, VICTOR A.; ALKHNBASHI, OMER S.; TRAN, VAN DINH; SHAH, SHIRAZ A.; CARVALHO, ANDRE C. P. L. F.; BACKOFEN, ROLF. Casboundary: automated definition of integral Cas cassettes. Bioinformatics, v. 37, n. 10, p. 1352-1359, . (13/07375-0, 19/21300-9)
PADILHA, VICTOR A.; ALKHNBASHI, OMER S.; SHAH, SHIRAZ A.; DE CARVALHO, ANDRE C. P. L. F.; BACKOFEN, ROLF. CRISPRcasIdentifier: Machine learning for accurate identification and classification of CRISPR-Cas systems. GIGASCIENCE, v. 9, n. 6, p. 12-pg., . (13/07375-0, 19/21300-9, 16/18615-0)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
PADILHA, Victor Alexandre. Ferramentas de Aprendizado de Máquina para Problemas de Bioinformática. 2020. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.