导读 Meta公布了其AI训练基础设施的详细信息,透露它目前依靠近50,000个NvidiaH100GPU来训练其开源Llama3LLM。该公司表示,到2024年底,其将拥有
Meta公布了其AI训练基础设施的详细信息,透露它目前依靠近50,000个NvidiaH100GPU来训练其开源Llama3LLM。
该公司表示,到2024年底,其将拥有超过350,000块NvidiaH100GPU投入使用,与其他来源的硬件结合时,其计算能力相当于近600,000块H100。
Meta在分享其24,576GPU数据中心规模集群的详细信息时披露了这些数据。
该公司解释说:“这些集群支持我们当前和下一代AI模型,包括Llama3(Llama2的后继者)、我们公开发布的LLM,以及GenAI和其他领域的AI研究和开发。”
这些集群建立在GrandTeton(以怀俄明州国家公园命名)上,这是一个内部设计的开放式GPU硬件平台。GrandTeton将电源、控制、计算和结构接口集成到单个机箱中,以实现更好的整体性能和可扩展性。
这些集群还具有高性能网络结构,使其能够支持比以前更大、更复杂的模型。Meta表示,一个集群使用基于Arista7800的远程直接内存访问网络结构解决方案,而另一个集群则采用NVIDIAQuantum2InfiniBand结构。这两种解决方案都互连了400Gbps端点。
Meta表示:“这些集群中的高性能网络结构的效率、一些关键的存储决策,加上每个集群中的24,576个NVIDIATensorCoreH100GPU,使得两个集群版本能够支持比RSC中支持的更大、更复杂的模型,并为GenAI产品开发和人工智能研究的进步铺平了道路。”