Busca avançada
Ano de início
Entree

Métodos de Embedding para Predição de Interações Multirrótulo entre piRNAs e Elementos Transponíveis

Processo: 25/03525-4
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de junho de 2025
Data de Término da vigência: 31 de dezembro de 2025
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Ricardo Cerri
Beneficiário:Maria Victória Brandão Barros
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Aprendizado computacional   Elementos de DNA transponíveis
Palavra(s)-Chave do Pesquisador:Aprendizado de Máquina | Elementos transponíveis | Embeddings | piRNA | Predição de Interações | Aprendizado de Máquina

Resumo

Os elementos transponíveis (TEs) são sequências de DNA capazes de se mover pelo genoma, influenciando a evolução genética. Os piRNAs são uma classe de pequenos RNAs não codificantes que desempenham um papel essencial no silenciamento de TEs, contribuindo para a estabilidade reprodutiva das espécies. A predição das interações entre piRNAs e TEs por meio de experimentos laboratoriais é demorada e custosa, tornando necessário o desenvolvimento de métodos computacionais eficientes.Os desafios desse problema incluem a natureza multirrótulo do problema (um piRNA pode interagir com vários TEs e vice-versa), a alta esparsidade dos dados (há poucos exemplos conhecidos de interações positivas) e a complexidade computacional (é necessário lidar com grandes volumes de dados biológicos).O projeto busca desenvolver e avaliar modelos de aprendizado de máquina que utilizem métodos de embedding para otimizar a predição das interações entre piRNAs e TEs. Os objetivos específicos incluem: desenvolver e avaliar métodos baseados em embeddings do espaço de rótulos para lidar com alta esparsidade; implementar e comparar modelos de aprendizado de máquina para predição das interações; estabelecer uma análise comparativa considerando múltiplas métricas de avaliação.Os dados utilizados são provenientes do estudo "Identification of piRNA Binding Sites Reveals the Argonaute Regulatory Landscape of the C. elegans Germline", contendo 19.092 interações registradas in vivo. Para estruturar essas informações, os dados são organizados em uma matriz binária, onde linhas representam piRNAs e colunas representam TEs. As interações conhecidas são representadas por 1, enquanto as desconhecidas são 0, resultando em uma matriz altamente esparsa.A predição será realizada com aprendizado supervisionado, sendo explorada uma abordagem local, que aplica embeddings separadamente nos espaços de piRNAs e TEs, reduzindo a dimensionalidade para lidar com a alta esparsidade.Dada a alta desproporção entre interações conhecidas e desconhecidas, métricas tradicionais como acurácia não são adequadas. O desempenho será avaliado com AUROC (Área Sob a Curva ROC) e AUPRC (Área Sob a Curva de Precisão e Revocação).Este estudo tem potencial para contribuir significativamente para a bioinformática, propondo um método computacional eficiente para um problema biológico complexo.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)