Busca avançada
Ano de início
Entree

Predição do valor genético genômico utilizando aprendizado de máquina e subconjunto de SNP

Processo: 24/09391-7
Modalidade de apoio:Bolsas no Brasil - Pós-Doutorado
Vigência (Início): 01 de agosto de 2024
Vigência (Término): 30 de junho de 2025
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:João Paulo Papa
Beneficiário:Thomaz Marques Sena
Instituição Sede: Faculdade de Ciências (FC). Universidade Estadual Paulista (UNESP). Campus de Bauru. Bauru , SP, Brasil
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Assunto(s):Aprendizado computacional   Inteligência artificial   Reconhecimento de padrões   Polimorfismo de um único nucleotídeo
Palavra(s)-Chave do Pesquisador:Inteligência Artificial | Reconhecimento de Padrões | Aprendizado de máquina

Resumo

Avaliações genéticas de produção de leite até os 305 dias de lactação (PL305) em bovinos Gir utiliza o modelo animal para estimação do valor genético genômico (GEBV), solucionado método ssGBLUP considerando as informações de parentesco genômico, calculado a partir dos polimorfismos genéticos de nucleotídeo único (SNP), o parentesco genético aditivo, combinados na matriz H, e o desempenho produtivo de toda a população. Devido aos custos elevados de sequenciamento genético e à baixa influência de muitos SNP em painéis de alta densidade, pesquisadores sugerem a criação de painéis de genotipagem de baixa densidade. Para este fim métodos de machine learning (ML) são investigados para classificar SNP conforme sua relevância para a característica. Portanto para compreender melhor a arquitetura genética da PL305, a proposta visa empregar algoritmos de ML Random Forest, XGBoost e Redes Neurais, utilizando os pacotes ranger, xgboost e h2o do R, respectivamente. Os animais serão divididos em grupos de treinamento e validação conforme as gerações, simulando programas de melhoramento genético e aleatoriamente, mantendo a mesma proporção de animais. As dez primeiras gerações compõem o treinamento, e as cinco restantes, a validação. Em ambos os cenários, serão testados efeitos fixos do ambiente que influenciam a característica. A variável resposta é a PL305, e os preditores são os SNPs e efeitos fixos. Os 4000 SNP mais importantes de cada cenário para PL305 serão utilizados para análise de predição do GEBV utilizando o método ssGBLUP, incluindo os efeitos fixos e com os parâmetros default do método. Poderá ainda verificar a presença de genes em uma janela de 400Mb dos 5 SNP mais importantes. A existência de genes poderá ser verificada por meio o pacote biomaRt do software R na versão 110 de Ensembl Genomes. O pacote clusterProfiler será utilizado para análises de enriquecimento funcional de genes, em conjunto com o pacote org.Bt.eg.db, que contém o banco de dados de anotação do Bos taurus taurus. A expectativa é que essas análises identifiquem poucos SNP com efeito positivo ou negativo na característica, com a maioria apresentando efeito nulo. O pequeno subconjunto de SNP usados para prever o GEBV não deve afetar acurácia do modelo, pois o tamanho efetivo da população é relativamente pequeno. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)