您的位置:首页 >生活 >

研究人员在世界上最强大的计算系统上展示了图神经网络的可扩展性

导读 解决当今最复杂的科学挑战通常意味着追踪数百、数千甚至数百万个变量之间的联系。科学数据集越大,这些联系就越复杂。随着时间的推移,实验...

解决当今最复杂的科学挑战通常意味着追踪数百、数千甚至数百万个变量之间的联系。科学数据集越大,这些联系就越复杂。

随着时间的推移,实验会产生拍字节甚至艾字节的数据,跟踪药物发现、材料开发或网络安全等过程中的连接可能是一项艰巨的任务。

值得庆幸的是,随着人工智能的出现,研究人员可以依靠图神经网络(GNN)来绘制连接图并阐明它们的关系,从而大大加快解决问题的时间,进而加快科学发现的速度。

美国能源部橡树岭国家实验室和劳伦斯伯克利国家实验室(ORNL和LBNL)的研究人员正在不断发展GNN,以扩展美国最强大的计算资源,这是应对当今以数据为中心的科学挑战的必要步骤。

ORNL的Massimiliano“Max”LupoPasini、JongYoulChoi和PeiZhu在2023年图学习会议上分享了多机构团队的发现,该会议于2023年11月27日至30日举行。使用HPC和超级计算设施进行网络训练”,说明了如何在DOE的领先级计算系统上扩展GNN。

具体来说,该团队在劳伦斯国家实验室国家能源研究科学计算中心的Perlmutter系统以及橡树岭领导计算设施的Summit和Frontier超级计算机上演示了HydraGNN的扩展。Frontier是世界上第一个百亿亿级系统,目前被评为世界上最强大的计算机。

HydraGNN是ORNL品牌的GNN架构实现,旨在快速准确地预测材料属性。它通过将固体材料的晶格结构抽象为图来使用原子信息,其中原子由节点表示,金属键由边表示。这种表示自然地包含了有关材料结构的信息,从而消除了更传统的神经网络所需的计算昂贵的数据预处理的需要。

“科学进步需要发现和设计具有改进的机械和热力学特性的材料,而HydraGNN是一个有前途的替代模型。一旦接受了大量第一性原理数据的训练,该模型就可以快速准确地估计材料特性,而只需花费一小部分时间。最先进的基于物理的模型所需的计算时间,”橡树岭国家实验室计算科学与工程部的研究员帕西尼说。“HydraGNN生成预测的速度提高,为有效的材料发现和设计提供了独特的探索能力。”

该团队的教程分为五个部分。第一个重点强调了推动可扩展GNN代理模型开发的科学应用,以加速复杂物理和工程系统的研究。第二个介绍了使用大量科学数据来扩展DOE领导级超级计算设施上的GNN的需要。第三部分涵盖了HydraGNN的可扩展性和灵活性,这使得它可以跨多个DOE系统移植。第四部分介绍了在开源数据集上运行HydraGNN的示例,第五部分也是最后一部分包括教程和结束语。

该教程在YouTube上进行了直播,并于1:01:00开始提供。HydraGNN的改进功能最近也记录在用户手册中,该手册已通过ORNL技术报告向公众发布。

该研究是ORNL人工智能计划的一部分,该计划是一项内部投资,致力于确保安全、可信和节能的人工智能服务于科学研究和国家安全。通过该计划,橡树岭国家实验室的研究人员利用实验室的计算基础设施和软件功能来加快解决方案并实现人工智能在国家和国际重要项目中的潜力。

例如,该计划帮助多学科团队证明机器学习算法可用于从低信噪比的信号中提取信息,开发能够在很少的训练数据下加速建模和仿真的算法,并设计能够实现快速建模和仿真的新型仿生神经形态设备。检测癫痫发作。

ORNL人工智能计划主任PrasannaBalaprakash表示:“扩展图神经网络带来了独特的挑战。”“这些模型能够接受广泛的科学数据集的训练,解锁了广泛的下游应用,特别是在新材料的开发和药物发现方面。这一成就强调了我们对开发人工智能的承诺,这种人工智能不仅功能强大,而且节能和可扩展,确保我们处于科学研究和国家安全的最前沿。”

免责声明:本文由用户上传,如有侵权请联系删除!