26.4.28更新:
2*2080Ti 22G vllm跑Qwen3.6 27B速度可以达到47tokens/s,上下文256K拉满,比llama.cpp快了接近两倍,双卡功率限制170w,利用率均为100%。实测Agent效果和Qwen3.6 35B差不多,Coding效果比Qwen3.6 35B显著优秀,视觉效果比Qwen3.6 35B弱(细节上把控不到位)
使用的模型:https://huggingface.co/groxaxo/Qwen3.6-27B-GPTQ-Pro-4bit
启动参数:
vllm serve Qwen3.6-27B-GPTQ-Pro-4bit \
--host 0.0.0.0 \
--port 8080 \
--tensor-parallel-size 2 \
--max-model-len 262144 \
--gpu-memory-utilization 0.92 \
--dtype float16 \
--max-num-seqs 4 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--skip-mm-profiling \
--trust-remote-code \
--enable-prefix-caching
26年上半年Qwen团队发布了两个神级模型:qwen3.5 27b和qwen3.6 35BA3B,两个模型在Agent、Coding和Chat的表现可以给到夯。正巧两个模型一个是Dense架构,一个是MoE架构,所以以这两个模型作为测试对象。
GPU使用性价比之神2080Ti 22G*2涡轮版,测试针对有无nvlink、张量并行(row)和流水线并行(layer)测试,并对显卡锁功耗后的性能进行评测
先说结论:普通消费级显卡不要折腾张量并行了,老老实实的用流水线并行。涡轮卡功耗可以限制到170w,能节约30%的能耗,风扇噪声减少大约6-7分贝(手机app测量)
2080Ti 22G的显存带宽为616G/s,PCIE3.0 x16带宽为15.5G/s,nvlink带宽为50G/s。
测试结果:(测试使用的模型如无特殊说明,均为Q4量化,kv使用Q8量化,system prompt为空,user prompt为 llama.cpp的row模式和layer模式下差距有多大?)
单GPU
27B,无限制功耗:26.4 tokens/s(发热和噪声巨大,风扇大约66%)
27B,功耗限制200w:23.5 tokens/s
27B,功耗限制180w:22.6 tokens/s
27B,功耗限制170w:21.4 tokens/s(此时涡轮风扇噪声已经很低,风扇稳定55%)
27B,功耗限制160w:20.3 tokens/s
27B,功耗限制150w:18.6 tokens/s
35BA3B,无限制功耗:85 tokens/s
35BA3B,功耗限制170w:80 tokens/s
双GPU无nvlink(无限制功耗)
27B,layer模式:26 tokens/s
27B,row模式:22 tokens/s
35BA3B,layer模式:85 tokens/s
35BA3B,row模式:37 tokens/s
双GPU有nvlink(无限制功耗)
27B,layer模式:27 tokens/s(流处理器利用率47%,显存带宽利用率46%)
27B,row模式:25 tokens/s(流处理器利用率50%,显存带宽利用率44%)
35BA3B,layer模式:85 tokens/s(流处理器利用率45%,显存带宽利用率28%)
35BA3B,row模式:43 tokens/s(流处理器利用率36%,显存带宽利用率17%)
35BA3B,layer模式,使用 --presence_penalty 1.5 参数:59 tokens/s
35BA3BQ8,layer模式:86 token/s