Meta进一步透露了其如何改进Llama3训练

导读 Meta公布了其AI训练基础设施的详细信息，透露它目前依靠近50,000个NvidiaH100GPU来训练其开源Llama3LLM。该公司表示，到2024年底，其将拥有...

Meta公布了其AI训练基础设施的详细信息，透露它目前依靠近50,000个NvidiaH100GPU来训练其开源Llama3LLM。

该公司表示，到2024年底，其将拥有超过350,000块NvidiaH100GPU投入使用，与其他来源的硬件结合时，其计算能力相当于近600,000块H100。

Meta在分享其24,576GPU数据中心规模集群的详细信息时披露了这些数据。

该公司解释说：“这些集群支持我们当前和下一代AI模型，包括Llama3(Llama2的后继者)、我们公开发布的LLM，以及GenAI和其他领域的AI研究和开发。”

这些集群建立在GrandTeton(以怀俄明州国家公园命名)上，这是一个内部设计的开放式GPU硬件平台。GrandTeton将电源、控制、计算和结构接口集成到单个机箱中，以实现更好的整体性能和可扩展性。

这些集群还具有高性能网络结构，使其能够支持比以前更大、更复杂的模型。Meta表示，一个集群使用基于Arista7800的远程直接内存访问网络结构解决方案，而另一个集群则采用NVIDIAQuantum2InfiniBand结构。这两种解决方案都互连了400Gbps端点。

Meta表示：“这些集群中的高性能网络结构的效率、一些关键的存储决策，加上每个集群中的24,576个NVIDIATensorCoreH100GPU，使得两个集群版本能够支持比RSC中支持的更大、更复杂的模型，并为GenAI产品开发和人工智能研究的进步铺平了道路。”