Busca avançada
Ano de início
Entree


Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração

Texto completo
Autor(es):
Gabriel Montenegro de Campos
Número total de Autores: 1
Tipo de documento: Dissertação de Mestrado
Imprenta: Ribeirão Preto.
Instituição: Universidade de São Paulo (USP). Faculdade de Medicina de Ribeirão Preto (PCARP/BC)
Data de defesa:
Membros da banca:
Svetoslav Nanev Slavov; Renato Tinós; Lívia Soares Zaramela
Orientador: Svetoslav Nanev Slavov
Resumo

Os métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae. (AU)

Processo FAPESP: 23/12155-0 - Aplicação de Algoritmos de Aprendizagem de Máquina para Identificação de Vírus em Dados Provenientes do dark matter (Matéria Escura) de Sequenciamento de Última Geração
Beneficiário:Gabriel Montenegro de Campos
Modalidade de apoio: Bolsas no Brasil - Mestrado