Nscale利用GEMM调优框架测试了AMD的旗舰InstinctMI300XAI加速器,实现了7倍的性能提升。
Nscale最新的AMDMI300X基准测试显示,GEMM调优带来了显著的性能提升
[新闻稿]:在Nscale最新的技术深度研究中,我们探索了AI模型优化的一个关键方面:使用GEMM(通用矩阵乘法)调整进行吞吐量基准测试、性能调整和减少延迟。
最大限度地提高GPU加速任务的性能不仅仅涉及原始速度。优化GEMM可确保高效处理、更高的吞吐量以及有效处理复杂模型和数据集的能力。
AMD的InstinctMI300XAI吞吐量性能和延迟通过GEMMTuning2提高了7倍
在本博客中,我们将探讨跨多个模型的vLLM吞吐量基准测试,并深入研究GEMM调优的重大影响。rocBLAS(ROCm基本线性代数子程序)和hipBLASlt(用于可移植性的异构计算接口,基本线性代数子程序)等强大的库在此过程中发挥了重要作用。
这些库提供了GEMM操作的优化实现以及一系列调整参数,使开发人员能够微调他们的应用程序并充分发挥其底层硬件的潜力,最终最大限度地提高vLLM性能。
什么是GEMM调优?
GEMM调优是一种增强矩阵乘法运算性能的强大技术。此过程包括根据内存、缓存和计算能力等因素选择最合适的算法。
通过微调参数和选择最佳算法,我们确保GEMM操作能够最大程度地提高可用计算资源的利用效率。这意味着人工智能和机器学习模型的速度将显著提高。
指标比较
我们的分析比较了两次基准测试之间的几个关键性能指标。
生成速度(每秒令牌数):使我们能够衡量输入和输出过程的令牌生成效率。
每秒请求数:清楚地表明系统有效管理多个并发请求的能力。
总体吞吐量(每秒处理的令牌数):封装生成速度和请求处理的综合效率,提供不同配置下系统性能的全面视图。
平均延迟(秒):测量产生响应所需的时间。
基准测试运行的设置
我们使用以下设置配置每个基准测试运行:
每个请求的输入提示长度:256个token
每个请求的输出长度:256个token
张量并行大小:1(利用单个GPU,特别是MI300X)
批次大小:1、2和4