Busca avançada
Ano de início
Entree

Seleção de moléculas representativas via aprendizado de máquina

Processo: 20/05329-4
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de agosto de 2020
Vigência (Término): 31 de julho de 2021
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Marcos Gonçalves Quiles
Beneficiário:Felipe Vaiano Calderan
Instituição-sede: Instituto de Ciência e Tecnologia (ICT). Universidade Federal de São Paulo (UNIFESP). Campus São José dos Campos. São José dos Campos , SP, Brasil
Vinculado ao auxílio:17/11631-2 - Ciência Computacional de Materiais, AP.PCPE
Assunto(s):Química computacional   Aprendizado computacional   Agrupamento de dados   Desenvolvimento de novos materiais   Modelagem computacional   Simulação de dinâmica molecular

Resumo

A geração e a análise de novos materiais é um processo bastante lento e custoso, tanto do ponto de vista experimental quanto computacional. Métodos computacionais, como a dinâmica molecular e o cálculo DFT (Density Functional Theory), têm sido empregados para estudar compostos químicos. Contudo, mesmo fazendo uso de tais abordagens computacionais, o screening de materiais ainda é um processo bastante custo, a considerar que o número de compostos cresce de maneira exponencial em função do tamanho das moléculas e dos tipos de materiais considerados, tornando a análise de todas as combinações uma tarefa proibitiva. Entretanto, partindo da premissa que moléculas com características similares podem apresentar propriedades similares, a simulação acurada de tais materiais pode ser reduzida a partir da seleção de exemplos representativos. Assim, o cientista de materiais necessita de técnicas para seleção de moléculas/materiais representativos em um dado contexto, a permitir que apenas uns subconjuntos das possíveis estruturas sejam investigados. Neste contexto, métodos de aprendizado de máquina, como técnicas de agrupamento de dados, se apresentam como soluções promissoras para escolha de moléculas representativas. Contudo, por se tratar de uma técnica não-supervisionada, a formação dos agrupamentos leva em consideração apenas os atributos e a função de similaridade considerada nos experimentos. Dessa forma, os grupos formados podem revelar estruturas não adequada ao problema em análise. Para resolver essa limitação, um processo de supervisão (enviesamento) na formação dos agrupamentos pode ser considerado. Assim, visando auxiliar o trabalho do cientista de materiais na seleção automática de exemplos representativos, este trabalho irá investigar e implementar uma ferramenta de agrupamento de dados enviesada com informações externas (supervisão). Para isso, associado ao processo de formação de agrupamentos, um método de otimização será empregado para configurar os pesos associados aos atributos com o objetivo separar o conjunto de dados em agrupamentos coerentes com as propriedades estudadas pelo especialista do domínio.