Busca avançada
Ano de início
Entree
(Referência obtida automaticamente do Web of Science, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores.)

Correlation-Based Framework for Extraction of Insights from Quantum Chemistry Databases: Applications for Nanoclusters

Texto completo
Autor(es):
Mucelini, Johnatan [1] ; Quiles, Marcos G. [2] ; Prati, Ronaldo C. [3] ; Da Silva, Juarez L. F. [1]
Número total de Autores: 4
Afiliação do(s) autor(es):
[1] Univ Sao Paulo, Sao Carlos Inst Chem, BR-13560970 Sao Carlos, SP - Brazil
[2] Univ Fed Sao Paulo, Dept Sci & Technol, BR-12247014 Sao Jose Dos Campos, SP - Brazil
[3] Fed Univ ABC, Ctr Math Computat & Cognit, BR-09210580 Santo Andre, SP - Brazil
Número total de Afiliações: 3
Tipo de documento: Artigo Científico
Fonte: JOURNAL OF CHEMICAL INFORMATION AND MODELING; v. 61, n. 3, p. 1125-1135, MAR 22 2021.
Citações Web of Science: 0
Resumo

The amount of quantum chemistry (QC) data is increasing year by year due to the continuous increase of computational power and development of new algorithms. However, in most cases, our atom-level knowledge of molecular systems has been obtained by manual data analyses based on selected descriptors. In this work, we introduce a data mining framework to accelerate the extraction of insights from QC datasets, which starts with a featurization process that converts atomic features into molecular properties (AtoMF). Then, it employs correlation coefficients (Pearson, Spearman, and Kendall) to investigate the AtoMF features relationship with a target property. We applied our framework to investigate three nanocluster systems, namely, PtnTM55-n, CenZr15-nO30, and (CHn + mH)/TM13. We found several interesting and consistent insights using Spearman and Kendall correlation coefficients, indicating that they are suitable for our approach; however, our results indicate that the Pearson coefficient is very sensitive to outliers and should not be used. Moreover, we highlight problems that can occur during this analysis and discuss how to handle them. Finally, we make available a new Python package that implements the proposed QC data mining framework, which can be used as is or modified to include new features. (AU)

Processo FAPESP: 17/11631-2 - CINE: desenvolvimento computacional de materiais utilizando simulações atomísticas, meso-escala, multi-física e inteligência artificial para aplicações energéticas
Beneficiário:Juarez Lopes Ferreira da Silva
Modalidade de apoio: Auxílio à Pesquisa - Programa Centros de Pesquisa em Engenharia
Processo FAPESP: 18/21401-7 - EMU concedido no processo 2017/11631-2: cluster computacional de alto desempenho - ENIAC
Beneficiário:Juarez Lopes Ferreira da Silva
Modalidade de apoio: Auxílio à Pesquisa - Programa Equipamentos Multiusuários
Processo FAPESP: 18/11152-0 - Desenvolvimento de catalisadores para conversão direta de metano em metanol: uma investigação ab initio utilizando a da Teoria Funcional da Densidade
Beneficiário:Karla Furtado Andriani
Modalidade de apoio: Bolsas no Brasil - Pós-Doutorado