26年上半年Qwen团队发布了两个神级模型:qwen3.5 27b和qwen3.6 35BA3B,两个模型在Agent、Coding和Chat的表现可以给到夯。正巧两个模型一个是Dense架构,一个是MoE架构,所以以这两个模型作为测试对象。
GPU使用性价比之神2080Ti 22G*2涡轮版,测试针对有无nvlink、张量并行(row)和流水线并行(layer)测试,并对显卡锁功耗后的性能进行评测
先说结论:普通消费级显卡不要折腾张量并行了,老老实实的用流水线并行。涡轮卡功耗可以限制到170w,能节约30%的能耗,风扇噪声减少大约6-7分贝(手机app测量)
2080Ti 22G的显存带宽为616G/s,PCIE3.0 x16带宽为15.5G/s,nvlink带宽为50G/s。
测试结果:(测试使用的模型如无特殊说明,均为Q4量化,kv使用Q8量化,system prompt为空,user prompt为 llama.cpp的row模式和layer模式下差距有多大?)
单GPU
27B,无限制功耗:26.4 tokens/s(发热和噪声巨大,风扇大约66%)
27B,功耗限制200w:23.5 tokens/s
27B,功耗限制180w:22.6 tokens/s
27B,功耗限制170w:21.4 tokens/s(此时涡轮风扇噪声已经很低,风扇稳定55%)
27B,功耗限制160w:20.3 tokens/s
27B,功耗限制150w:18.6 tokens/s
35BA3B,无限制功耗:85 tokens/s
35BA3B,功耗限制170w:80 tokens/s
双GPU无nvlink(无限制功耗)
27B,layer模式:26 tokens/s
27B,row模式:22 tokens/s
35BA3B,layer模式:85 tokens/s
35BA3B,row模式:37 tokens/s
双GPU有nvlink(无限制功耗)
27B,layer模式:27 tokens/s(流处理器利用率47%,显存带宽利用率46%)
27B,row模式:25 tokens/s(流处理器利用率50%,显存带宽利用率44%)
35BA3B,layer模式:85 tokens/s(流处理器利用率45%,显存带宽利用率28%)
35BA3B,row模式:43 tokens/s(流处理器利用率36%,显存带宽利用率17%)
35BA3B,layer模式,使用 --presence_penalty 1.5 参数:59 tokens/s
35BA3BQ8,layer模式:86 token/s