Busca avançada
Ano de início
Entree

Explorando Algoritmos de Agrupamento Alternativos além do k-means: O Exemplo de Estruturas Moleculares Usadas na Produção de Hidrogênio

Processo: 25/10719-0
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de setembro de 2025
Data de Término da vigência: 31 de agosto de 2026
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Juarez Lopes Ferreira da Silva
Beneficiário:Marcos Vinicius Cota Rodrigues da Trindade
Instituição Sede: Instituto de Química de São Carlos (IQSC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Empresa:Universidade de São Paulo (USP). Instituto de Química de São Carlos (IQSC)
Vinculado ao auxílio:17/11631-2 - CINE: desenvolvimento computacional de materiais utilizando simulações atomísticas, meso-escala, multi-física e inteligência artificial para aplicações energéticas, AP.PCPE
Assunto(s):Ciência de dados   Desenvolvimento de novos materiais
Palavra(s)-Chave do Pesquisador:Algoritmos de aprendizado não supervisionado | Aplicações em sistemas moleculares | Ciência de dados | Desenvolvimento de Novos Materiais | Implementação Computacional | Técnicas de agrupamento de dados | Ciência de Dados

Resumo

O agrupamento de dados é fundamental na análise de grandes conjuntos moleculares em química computacional, pois permite identificar padrões estruturais e energéticos relevantes. Embora o k-means seja popular por sua simplicidade, ele se mostra limitado em sistemas de alta dimensionalidade, dada a suposição de clusters esféricos, a sensibilidade à inicialização e a escalabilidade reduzida. Neste projeto, exploramos de forma sistemática algoritmos de clustering avançados - como Hierarchical Density-Based Spatial Clustering, Ordering Points to Identify Clustering Structure, Gaussian Mixture Models, Spectral Clustering e Dynamical Particle-Based Clustering - para aumentar a precisão, a eficiência e a capacidade de lidar com milhões de configurações moleculares.Focamos na otimização da ferramenta desenvolvida pelo Prof. Marcos G. Quiles, que atualmente emprega o k-means para agrupar configurações com base nos autovalores da matriz de Coulomb. Ao integrar algoritmos alternativos, esperamos superar gargalos no tratamento de grandes volumes de dados e geometrias complexas - incluindo grupos não convexos ou sobrepostos, comuns em simulações de dinâmica molecular. A metodologia envolve revisão da literatura, avaliação empírica dos algoritmos por métricas como o método da silhueta, índice de Dunn e índice de Rand ajustado, além de otimizações de desempenho por meio de paralelização, redução de dimensionalidade e ajuste fino de parâmetros.O projeto enfatiza a eficiência computacional, aproveitando a infraestrutura de alto desempenho do grupo QTNano (mais de 2 000 núcleos) para testar a escalabilidade. Compararemos o tempo de execução e o uso de memória das novas implementações com os resultados atuais do k-means, buscando reduzir custos computacionais sem comprometer a qualidade dos clusters. A incorporação de métodos hierárquicos e baseados em densidade visa ainda aumentar a robustez contra ruído e a adaptabilidade a formas irregulares de agrupamento, preenchendo lacunas das abordagens clássicas.Os resultados esperados incluem uma ferramenta aprimorada capaz de processar dados moleculares de alta dimensionalidade com maior fidelidade, facilitando a identificação eficiente de configurações representativas. Esse avanço apoiará a missão do QTNano de acelerar descobertas em química quântica e tecnologias energéticas sustentáveis. Ao disponibilizar a ferramenta à comunidade científica, pretendemos fomentar a colaboração, simplificar análises exploratórias e estabelecer práticas sólidas de ciência molecular orientada por dados.A ferramenta aprimorada fornecerá insights profundos sobre a organização estrutural de grandes conjuntos moleculares e contribuirá diretamente para a otimização dos processos de produção de hidrogênio ao identificar configurações mais estáveis e reativas. Sua disponibilização deverá acelerar a cooperação entre pesquisadores, impulsionando descobertas em química quântica e em tecnologias energéticas sustentáveis, estabelecendo práticas robustas de ciência molecular orientada por dados e abrindo caminho para inovações futuras no desenvolvimento de materiais avançados. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)