llama.cpp多GPU推理速度实测记录(张量并行祛魅记)

26.4.28更新：

2*2080Ti 22G vllm跑Qwen3.6 27B速度可以达到47tokens/s，上下文256K拉满，比llama.cpp快了接近两倍，双卡功率限制170w，利用率均为100%。实测Agent效果和Qwen3.6 35B差不多，Coding效果比Qwen3.6 35B显著优秀，视觉效果比Qwen3.6 35B弱（细节上把控不到位）

使用的模型：https://huggingface.co/groxaxo/Qwen3.6-27B-GPTQ-Pro-4bit

启动参数：

vllm serve Qwen3.6-27B-GPTQ-Pro-4bit \
    --host 0.0.0.0 \
    --port 8080 \
    --tensor-parallel-size 2 \
    --max-model-len 262144 \
    --gpu-memory-utilization 0.92 \
    --dtype float16 \
    --max-num-seqs 4 \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --skip-mm-profiling \
    --trust-remote-code \
    --enable-prefix-caching

26年上半年Qwen团队发布了两个神级模型：qwen3.5 27b和qwen3.6 35BA3B，两个模型在Agent、Coding和Chat的表现可以给到夯。正巧两个模型一个是Dense架构，一个是MoE架构，所以以这两个模型作为测试对象。

GPU使用性价比之神2080Ti 22G*2涡轮版，测试针对有无nvlink、张量并行（row）和流水线并行（layer）测试，并对显卡锁功耗后的性能进行评测

先说结论：普通消费级显卡不要折腾张量并行了，老老实实的用流水线并行。涡轮卡功耗可以限制到170w，能节约30%的能耗，风扇噪声减少大约6-7分贝（手机app测量）

2080Ti 22G的显存带宽为616G/s，PCIE3.0 x16带宽为15.5G/s，nvlink带宽为50G/s。

测试结果：（测试使用的模型如无特殊说明，均为Q4量化，kv使用Q8量化，system prompt为空，user prompt为 llama.cpp的row模式和layer模式下差距有多大？）

单GPU

27B，无限制功耗：26.4 tokens/s（发热和噪声巨大，风扇大约66%）

27B，功耗限制200w：23.5 tokens/s

27B，功耗限制180w：22.6 tokens/s

27B，功耗限制170w：21.4 tokens/s（此时涡轮风扇噪声已经很低，风扇稳定55%）

27B，功耗限制160w：20.3 tokens/s

27B，功耗限制150w：18.6 tokens/s

35BA3B，无限制功耗：85 tokens/s

35BA3B，功耗限制170w：80 tokens/s

双GPU无nvlink（无限制功耗）

27B，layer模式：26 tokens/s

27B，row模式：22 tokens/s

35BA3B，layer模式：85 tokens/s

35BA3B，row模式：37 tokens/s

双GPU有nvlink（无限制功耗）

27B，layer模式：27 tokens/s（流处理器利用率47%，显存带宽利用率46%）

27B，row模式：25 tokens/s（流处理器利用率50%，显存带宽利用率44%）

35BA3B，layer模式：85 tokens/s（流处理器利用率45%，显存带宽利用率28%）

35BA3B，row模式：43 tokens/s（流处理器利用率36%，显存带宽利用率17%）

35BA3B，layer模式，使用 --presence_penalty 1.5 参数：59 tokens/s

35BA3BQ8，layer模式：86 token/s

斐斐のBlog

斐斐のBlog

llama.cpp多GPU推理速度实测记录(张量并行祛魅记)

单GPU

双GPU无nvlink（无限制功耗）

双GPU有nvlink（无限制功耗）