Busca avançada
Ano de início
Entree

Estratégias para extração de atributos de polímeros para tarefas de aprendizado de máquina com bases de dados restritas

Processo: 22/13536-5
Modalidade de apoio:Bolsas no Exterior - Estágio de Pesquisa - Doutorado
Data de Início da vigência: 28 de fevereiro de 2023
Data de Término da vigência: 27 de fevereiro de 2024
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Marcos Gonçalves Quiles
Beneficiário:Gabriel Augusto Lins Leal Pinheiro
Supervisor: Cory Simon
Instituição Sede: Instituto de Ciência e Tecnologia (ICT). Universidade Federal de São Paulo (UNIFESP). Campus São José dos Campos. São José dos Campos , SP, Brasil
Instituição Anfitriã: Oregon State University (OSU), Estados Unidos  
Vinculado à bolsa:21/08852-2 - Predição de propriedades moleculares com alta acurácia: uma abordagem via aprendizado semi-supervisionado, BP.DR
Assunto(s):Aprendizado computacional   Propriedades moleculares   Macromolécula
Palavra(s)-Chave do Pesquisador:Contrastive learning | graph | kernel | machine learning | Molecular property | Aprendizado de Máquina

Resumo

Algoritmos de aprendizado de máquina (AM) visando minimizar tempo e custos associados com a descoberta de materiais tem apresentado grandes avanços. No entanto, é notável que tais avanços foram significativos apenas para moléculas com poucos átomos. Com isso, campos de pesquisa que envolvem o estudo de macromoléculas, como a área dos polímeros, ainda estão nos estágios iniciais de exploração de tais técnicas para o aprendizado da relação entre estrutura e propriedade. Entre os desafios de AM para polímeros, é possível destacar a pequena quantidade de dados disponível na literatura e a falta de uma representação do material para o algoritmo de AM. O processo de extração de atributo, em particular, desempenha um papel essencial no desempenho de um modelo de AM. Por exemplo, um conjunto de descritores representativos para um determinado problema pode reduzir a quantidade de dados e tempo necessário para a convergência do modelo. Geralmente, descritores são proposto com base no conhecimento prévio da área ou algoritmos de AM destinados para tal tarefa. Na literatura, informações relacionadas as unidades de repetição constitucionais (CRUs) e topologia molecular são comumente usadas para a criação de atributos para polímeros. Nesse contexto, este trabalho visa contornar tais limitações propondo um descritor para polímeros que utiliza graflets para a descrição da composição da estrutura molecular em termos de CRUs e conectividade entre os CRUs. A principal vantagem desta abordagem está relacionada ao processo de construção do fingerprint que irá: (1) contar com um conjunto de fragmentos moleculares representativo para o conjunto de dados; e (2) codificar informações dos vértices e arestas do grafo, ao invés de considerar somente os vértices, como é comumente feito na literatura. Como segundo objetivo, pretende-se estender o recente método contrastivo chamado SMICLR para realizar o aprendizado de representação em polímeros. Note que a proposta desse método apresenta dois principais desafios: (1) adoção de algoritmos de rede neural para moléculas grandes; e (2) redução de exemplos falsos negativos em tarefas contrastivas por meio do fingerprint baseado em graflet. Como resultado, espera-se que ambas técnicas propostas colaborem na geração de modelos de AM acurados em base de dados com poucas moléculas e, consequentemente, acelerando a descoberta de novos polímeros. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)