llama.cpp多GPU推理速度实测记录(张量并行祛魅记)

发布于 / 运维 / 0 条评论

26年上半年Qwen团队发布了两个神级模型:qwen3.5 27b和qwen3.6 35BA3B,两个模型在Agent、Coding和Chat的表现可以给到夯。正巧两个模型一个是Dense架构,一个是MoE架构,所以以这两个模型作为测试对象。

GPU使用性价比之神2080Ti 22G*2涡轮版,测试针对有无nvlink、张量并行(row)和流水线并行(layer)测试,并对显卡锁功耗后的性能进行评测

先说结论:普通消费级显卡不要折腾张量并行了,老老实实的用流水线并行。涡轮卡功耗可以限制到170w,能节约30%的能耗,风扇噪声减少大约6-7分贝(手机app测量)

2080Ti 22G的显存带宽为616G/s,PCIE3.0 x16带宽为15.5G/s,nvlink带宽为50G/s。

测试结果:(测试使用的模型如无特殊说明,均为Q4量化,kv使用Q8量化,system prompt为空,user prompt为 llama.cpp的row模式和layer模式下差距有多大?

单GPU

27B,无限制功耗:26.4 tokens/s(发热和噪声巨大,风扇大约66%)

27B,功耗限制200w:23.5 tokens/s

27B,功耗限制180w:22.6 tokens/s

27B,功耗限制170w:21.4 tokens/s(此时涡轮风扇噪声已经很低,风扇稳定55%)

27B,功耗限制160w:20.3 tokens/s

27B,功耗限制150w:18.6 tokens/s

35BA3B,无限制功耗:85 tokens/s

35BA3B,功耗限制170w:80 tokens/s

双GPU无nvlink(无限制功耗)

27B,layer模式:26 tokens/s

27B,row模式:22 tokens/s

35BA3B,layer模式:85 tokens/s

35BA3B,row模式:37 tokens/s

双GPU有nvlink(无限制功耗)

27B,layer模式:27 tokens/s(流处理器利用率47%,显存带宽利用率46%)

27B,row模式:25 tokens/s(流处理器利用率50%,显存带宽利用率44%)

35BA3B,layer模式:85 tokens/s(流处理器利用率45%,显存带宽利用率28%)

35BA3B,row模式:43 tokens/s(流处理器利用率36%,显存带宽利用率17%)

35BA3B,layer模式,使用 --presence_penalty 1.5 参数:59 tokens/s

35BA3BQ8,layer模式:86 token/s

转载原创文章请注明,转载自: 斐斐のBlog » llama.cpp多GPU推理速度实测记录(张量并行祛魅记)
目前还没有评论,快来抢沙发吧~