Busca avançada
Ano de início
Entree

Modelos preditivos para as fases dos fatores de estrutura de reflexões cêntricas em cristalografia de proteínas por aprendizado de máquina

Processo: 18/23946-0
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de maio de 2019
Vigência (Término): 30 de abril de 2020
Área do conhecimento:Ciências Biológicas - Bioquímica - Química de Macromoléculas
Pesquisador responsável:Andre Luis Berteli Ambrosio
Beneficiário:Felipe de Souza Lincoln
Instituição-sede: Instituto de Física de São Carlos (IFSC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:13/07600-3 - CIBFar - Centro de Inovação em Biodiversidade e Fármacos, AP.CEPID
Assunto(s):Biologia estrutural   Cristalografia de proteínas   Difração por raios X   Aprendizado computacional   Modelos de aprendizagem   Python

Resumo

O problema das fases é notório na cristalografia de proteínas por difração de raios X. Fundamentalmente, limitações tecnológicas inerentes aos sistemas de detecção dessa radiação resultam na perda de informações sobre as fases das ondas espalhadas construtivamente pelos componentes do cristal. Como consequência, o cálculo direto da função de distribuição de densidade eletrônica na cela unitária é impossibilitado. Atualmente, dois métodos experimentais podem ser aplicados para se contornar esse problema: (I) substituição parcial do solvente aquoso ordenado por íons elétron-densos (metálicos ou halogênicos) ou (II) quantificação seletiva do componente dispersivo (lambda-dependente) do fator de espalhamento atômico. Alternativamente, informações prévias, na forma de estruturas cristalinas conhecidas que são funcionalmente relacionadas ou homólogas a componentes no cristal, podem servir como fonte de um conjunto inicial de fases. Apesar de desafiadoras, quando viáveis, as aplicações desses diferentes métodos já possibilitaram a determinação de mais de uma centena de milhares de modelos atômicos, para as mais diversas proteínas (e seus complexos). Neste projeto, com base na coleção de informações estruturais já disponibilizadas no banco de dados Protein Data Bank, propomos analisar o problema das fases na perspectiva do aprendizado de máquina supervisionado. Mais precisamente, buscamos desenvolver um modelo preditivo para as fases dos fatores de estrutura de reflexões com restrições de fase. Empregando a linguagem de programação Python, verificaremos a viabilidade dessa abordagem utilizando, principalmente, a biblioteca open-source XGBoost, buscando compreender as suas limitações face à extensão do conjunto de informações disponíveis na base de dados PDB. O sucesso da nossa proposta representará um avanço no estudo do problema das fases sob a ótica da inteligência artificial.