采用AMD技术并配备InstinctMI250XGPU的Frontier超级计算机已实现1万亿参数LLM运行,可与ChatGPT-4相媲美。
得益于AMDEPYCCPU和InstinctGPU,Frontier超级计算机在LLM培训领域创造了新记录
Frontier超级计算机是世界领先的超级计算机,也是目前唯一正在运行的百亿亿次计算机。该机器由AMD的EPYC和Instinct硬件提供支持,不仅提供顶级的HPC性能,而且还是地球上第二高效的超级计算机。个人在Arxiv上提交的一份报告显示,Frontier超级计算机已经达到了通过“超参数调优”训练万亿参数的能力,树立了新的行业标杆。
在深入讨论关键问题之前,让我们快速回顾一下Frontier超级计算机的功能。ORNL的超级计算机采用AMD第三代EPYCTrentoCPU和InstinctMI250XGPU加速器从头开始设计。它安装在美国田纳西州橡树岭国家实验室(ORNL),由能源部(DOE)运营。目前,它使用8,699,904个内核实现了1.194Exaflop/s。HPECrayEX架构结合了针对HPC和AI优化的第三代AMDEPYCCPU、AMDInstinct250X加速器和Slingshot-11互连。Frontier能够在Top500.org超级计算机排行榜上保持第一名,可见其力。
Frontier取得的新记录是实施有效策略来培训法学硕士并最有效地使用机载硬件的结果。团队通过对220亿、1750亿、1万亿个参数的广泛测试,取得了显着的成果,这些数据是对模型训练过程进行优化和微调的结果。这一成果是通过使用多达3,000个AMDMI250XAI加速器来实现的,尽管它是一种相对过时的硬件,但仍显示出其强大功能。
更有趣的是,整个Frontier超级计算机配备了37,000个MI250XGPU,因此可以想象使用整个GPU池为LLM提供动力时的性能。AMD也即将在全新超级计算机中实施其MI300GPU加速器,并拥有强大的ROCm6.0生态系统,进一步加速人工智能性能。
对于220亿、1750亿和1万亿参数,我们分别实现了38.38%、36.14%和31.96%的GPU吞吐量。对于1750亿参数模型和1万亿参数模型的训练,我们分别在1024和3072MI250XGPU上实现了100%的弱缩放效率。我们还为这两个模型实现了89%和87%的强大扩展效率。
-阿尔维克斯
服务器和数据中心领域的未来充满机遇,值得注意的是,Frontier目前使用的硬件在行业中并不是相对较新的。随着生成式人工智能领域的不断进步,市场显然需要更多的计算能力来向前发展,这就是为什么为该领域设计的硬件的进步对于下一代发展至关重要。