Busca avançada
Ano de início
Entree


Ferramentas de Aprendizado de Máquina para Problemas de Bioinformática

Texto completo
Autor(es):
Victor Alexandre Padilha
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: São Carlos.
Instituição: Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB)
Data de defesa:
Membros da banca:
André Carlos Ponce de Leon Ferreira de Carvalho; Ricardo Cerri; Alexandre Rossi Paschoal; Adenilso da Silva Simão
Orientador: André Carlos Ponce de Leon Ferreira de Carvalho; Rolf Backofen
Resumo

Recentemente, técnicas de aprendizado de máquina têm sido utilizadas de maneira extensiva em problemas de bioinformática, devido à sua capacidade na resolução de problemas complexos por meio do aprendizado de uma função a partir de uma amostra finita de exemplos, sendo tal função capaz de realizar predições para novos dados. Motivado por essas aplicações bem sucedidas, este trabalho aborda três problemas diferentes de bioinformática por meio de técnicas de aprendizado de máquina. O primeiro problema está relacionado ao uso de medidas de coerência para a análise de resultados de bi-agrupamento em análise de dados de expressão gênica. Especificamente, foi conduzida uma investigação detalhada acerca das correlações entre diferentes medidas de coerência de bi-grupos em uma coleção de 19 bases de dados do organismo Saccharomyces cerevisiae. Com isso, tornou-se possível identificar pares de medidas redundantes e observar que tais medidas não apresentam qualquer relação com conhecimento externo disponível no formato de ontologias de genes. O segundo problema está relacionado à classificação de instâncias do sistema CRISPR em seus diferentes subtipos e a predição de proteínas potencialmente ausentes em tais instâncias. Para isso, uma nova ferramenta, chamada CRISPRcasIdentifier, foi proposta, a qual integra modelos de classificação e regressão para as tarefas mencionadas. Tal ferramenta atingiu melhores resultados do que os competidores encontrados na literatura na base de dados mais recente disponível. Ademais, a CRISPRcasIdentifier é a primeira ferramenta capaz de recomendar proteínas potencialmente ausentes em instâncias do sistema CRISPR. O terceiro problema está relacionado à identificação automática de instâncias do sistema CRISPR em genomas de organismos bacterianos e archaeanos. Para isso, a ferramenta Casboundary foi proposta, a qual detecta instâncias do CRISPR ao considerar as relações entre genes assinatura com seus vizinhos. Além disso, esta ferramenta é capaz de apontar genes cas potencialmente novos, tal como demonstrado em um estudo de caso. Finalmente, a ferramenta Casboundary é capaz de decompor as instâncias do CRISPR em seus diferentes módulos, os quais estão relacionados aos diferentes estágios do sistema CRISPR. (AU)

Processo FAPESP: 19/21300-9 - Ferramentas de aprendizado de máquina para problemas de bioinformática
Beneficiário:Victor Alexandre Padilha
Modalidade de apoio: Bolsas no Brasil - Doutorado