Qwen3.5 端侧小模型测评:从 0.8B 到 9B

引言

上个月我们刚刚见证了 Qwen3.5 架构的颠覆性升级,最近通义千问团队又一口气发布了 Qwen3.5 系列的四款端侧小模型——0.8B、2B、4B 和 9B。全系原生支持视觉模态,这意味着从最小的 0.8B 到最大的 9B,每一款都具备图文理解能力,这在端侧小模型中相当罕见。此外,它们还延续了统一的视觉-语言基础(Vision-Language Foundation)以及原生支持 256K 超长上下文的特性,全系搭载了以 DeltaNet 为核心的混合注意力(Hybrid Attention)架构。

考虑到混合注意力结构极其适合端侧部署,我用 OpenClaw + Antigravity 进行了模型测试,并生成了这份报告。这篇文章就带大家看看这几个小模型在设备端的实际表现、推理速度以及场景选型建议。

一、模型规格与架构对比

这四款模型虽然参数量差异巨大,但都使用了完全相同的 Qwen3_5ForConditionalGeneration 架构,主要在层数和隐藏维度上做了不同程度的缩放。

1.1 核心参数速览

| 配置项 | Qwen3.5-0.8B | Qwen3.5-2B | Qwen3.5-4B | Qwen3.5-9B | | :— | :—: | :—: | :—: | :—: | | 层数 | 24 | 24 | 32 | 32 | | 隐藏层维度 | 1024 | 2048 | 2560 | 4096 | | 视觉层数 | 12 | 24 | 24 | 27 | | 视觉隐维度 | 768 | 1024 | 1024 | 1152 | | 词表大小 | 248,320 | 248,320 | 248,320 | 248,320 | | 最大上下文 | 256K | 256K | 256K | 256K |

可以看到,0.8B 和 2B 系列同样是 24 层的 Transformer 架构,但 2B 版本的隐藏层维度直接翻倍,视觉层数也变得更深;而到了 4B 和 9B,模型深度扩展到了 32 层,整体表达能力上了一个新台阶。

1.2 混合注意力带来的端侧红利

全系列保持了 75% 线性注意力(Linear Attention) + 25% 标准注意力(Full Attention) 的混合设计。

这个架构在端侧推理时简直是“省存神器”:由于线性注意力层无需维护 KV Cache,长上下文处理时的内存占用直接锐减了将近 75%。对于只有 8GB 甚至 4GB 内存的手机或 IoT 设备来说,这意味着终于能真正在本地跑通中等长度(甚至更长)的文档分析和多模态理解了。

二、MNN 导出与性能测评

测试环境选在搭载 Apple M3 Pro 芯片的 macOS 设备上,使用 MNN 3.4.0 版本,通过 HQQ 4-bit 对模型进行了量化。测试全程使用 CPU 后端,未启用 GPU 加速。

2.1 转换大小与加载内存

为了方便在端侧部署,4-bit 量化是目前最成熟的选择。导出后的模型总大小(含视觉权重)非常诱人:

  • 0.8B 模型压缩后仅有约 533 MB,完全可以塞进口袋里的任何设备。
  • 2B 模型约 1.37 GB,加载内存不到 1.5 GB,是日常桌面助手的黄金尺寸。
  • 4B9B 分别需要约 2.59 GB4.85 GB 的硬盘空间,对于需要重度使用代码或长推理的场景也依然在可用范围内。

2.2 推理速度 (Tok/s)

在纯 CPU(Apple Silicon)后端、开启 4 线程的条件下,这几个模型的推理表现如下:

模型版本 首 Token 延迟 Prefill 速度 (提示词处理) Decode 速度 (生成)
0.8B ~500 ms ~500 tok/s ~140 tok/s
2B ~900 ms ~300 tok/s ~70 tok/s
4B ~1100 ms ~250 tok/s ~60 tok/s
9B ~1500 ms ~200 tok/s ~50 tok/s

解读: 0.8B 的生成速度达到了惊人的 140 tok/s,即便是 9B 模型,50 tok/s 的解码速度也足以带来极其流畅的流式输出体验。MNN 对 CPU 后端进行的深度优化,配合 Qwen3.5 引入的线性注意力机制,使得端侧大模型的实用性大幅提升。

三、问题测试

为了全面评估这些端侧小模型的实际能力,我设计了两类测试:先看它们在逻辑陷阱等难题上的表现,再通过通用能力测试考察日常使用场景。

3.1 逻辑陷阱测试

首先用几道经典的”弱智吧”题目和逻辑陷阱题进行测试,考察模型在极端场景下的表现。

1. 洗车逻辑陷阱

题目:”距离我 30 米有家洗车店,我是开车去洗好还是走路去好?”

这道题考察的是基本的生活常识:洗车必须带车。

  • 0.8B:虽然避免了死循环,但推理过程相当混乱,最终给出了”开车去”的结论,却并非基于正确理解,更像是瞎猫碰上死耗子。
  • 2B:煞有介事地对比了开车和走路的优劣势,推荐了”开车去”,但理由相当离谱——“走路容易摔倒弄坏车漆”。结论虽然正确,但完全没有识破题目陷阱。
  • 4B:做了一番严谨的距离和经济学分析,最后建议”毫无疑问,请走路”,完全忽视了需要把车带过去的前提,掉入了字面陷阱。
  • 9B:表现出色。在经历了一段约 5000 tokens 的内部 Thinking 推演后,准确指出了题干中的悖论(”If I walk, I am not bringing the car”),并明确给出了结论:”必须开车去。物理逻辑:洗车的前提是车要进入洗车区域。”

2. 经典的脑筋急转弯与常识测试 为了进一步拉测,我又追加了三道经典题:

  • Strawberry 有几个字母 r?(字符拼接)
  • 树上有 10 只鸟,猎人开枪打死 1 只,树上还剩几只?(隐式物理逻辑)
  • 鲁迅认识周树人吗?(历史常识辨析)

测试结果两极分化比较明显:

  • 0.8B:在三道题上全部陷入无限重复的死循环,未能输出有效答案。
  • 2B:在 Strawberry 问题上陷入死循环;打鸟问题给出”9只”的数学答案,完全没理解枪声会吓跑鸟的常识逻辑;鲁迅问题则给出了长篇大论但完全错误的回答,没能识别出”鲁迅就是周树人”这一基本事实。
  • 4B:顺利答对所有问题。准确数出了 Strawberry 有 3 个 r,解释了枪声会吓走剩余的鸟(剩 0 只),并指出鲁迅就是周树人。
  • 9B:解答过程非常完善。除了给出正确答案,在分析思路上也更有条理,比如在”打鸟”问题中,还会额外补充”如果作为数学题是9只,但作为常识题是0只”,体现了较好的语境理解能力。

综合来看,0.8B 和 2B 级别的极小模型在处理复杂的思维链路时容易失控,而到了 4B 和 9B 级别,端侧模型的逻辑推理和常识理解已经基本达到了可用状态。

3.2 通用能力测试

那么在日常任务中,0.8B 和 2B 的表现如何?我对这两款最小参数模型进行了 10 项通用能力测试,涵盖自我介绍、知识问答、数学计算、代码生成、逻辑推理、翻译、文本总结、创意写作、常识推理和逻辑演绎等场景。

性能对比:

测试用例 0.8B 响应时间 2B 响应时间 性能差距
自我介绍 4.71s 8.27s 2B 慢 76%
知识问答 10.04s 8.58s 0.8B 慢 17%
数学计算 16.94s 9.42s 0.8B 慢 80%
代码生成 10.14s 10.05s 基本持平
逻辑推理 19.55s 10.11s 0.8B 慢 93%
翻译 16.45s 9.48s 0.8B 慢 74%
文本总结 10.23s 10.00s 基本持平
创意写作 15.37s 9.68s 0.8B 慢 59%
常识推理 15.73s 9.69s 0.8B 慢 62%
逻辑演绎 16.20s 9.48s 0.8B 慢 71%
平均 13.54s 9.48s 0.8B 慢 43%

有趣的发现是:0.8B 虽然解码速度更快(114-152 tok/s vs 61-78 tok/s),但平均响应时间反而比 2B 慢 43%。原因在于 0.8B 在复杂任务上容易陷入”过度思考”循环,生成了大量无效 token,反而拖慢了整体响应。

输出质量对比:

维度 0.8B 模型 2B 模型 胜出
响应速度 ⭐⭐⭐ ⭐⭐⭐⭐⭐ 2B
代码能力 ⭐⭐⭐⭐⭐ ⭐⭐⭐ 0.8B
逻辑推理 ⭐⭐ ⭐⭐⭐⭐⭐ 2B
知识问答 ⭐⭐⭐⭐ ⭐⭐⭐ 0.8B
创意写作 ⭐⭐ ⭐⭐⭐ 2B
输出完整性 ⭐⭐⭐ ⭐⭐ 0.8B
总体 ⭐⭐⭐ ⭐⭐⭐⭐ 2B

关键发现:

  • 0.8B 亮点:代码生成能力出色,能提供多种实现方案;知识问答回答更详细;文件体积小巧(~470MB)
  • 0.8B 短板:容易陷入”过度思考”循环,逻辑推理任务表现不稳定
  • 2B 亮点:逻辑推理能力强,响应更快,输出更简洁
  • 2B 短板:输出经常被 512 token 限制截断,代码生成不完整

四、官方 Benchmark 跑分概览

结合官方技术报告(README)中的基准测试成绩,Qwen3.5 采用全新的混合注意力架构后,整体性能有了非常大的提升。尤其是在跟百亿规模(甚至千亿规模)的顶尖模型直接对比时,9B 版本的成绩在许多项上出现了越级打击的情况。

  • 知识与通用能力 (MMLU-Pro / C-Eval): 在 MMLU-Pro 测试中,Qwen3.5-9B 拿到了 82.5 的高分,这一成绩不仅超越了同门 30B 模型 Qwen3-30B (80.9),甚至还略微超过了千亿规模的 GPT-OSS-120B (80.8)。即便是 Qwen3.5-4B (79.1),也稳稳战胜了 GPT-OSS-20B (74.8)。
  • 逻辑推理与代码 (Reasoning & Coding): 在 HMMT Feb 25 等复杂推理榜单中,Qwen3.5-9B (83.2) 将上一代同级模型 Qwen3-Next-80B (73.7) 和 GPT-OSS-20B (76.7) 远远甩在身后。4B 版本同样也拿下了 74.0 的分数。
  • 多模态理解 (Vision Language): 由于采用了更早期融合的视觉语言训练,Qwen3.5 全系在基于视觉的基准(如 MMMU、MathVision)上展现出很强统治力。比如在 MathVision 上,Qwen3.5-9B (78.9) 和 Qwen3.5-4B (74.6) 均远超 Qwen3-VL-30B (65.7) 和 Gemini-2.5-Flash-Lite (52.1)。

简单来说,Qwen3.5 通过混合注意力机制大幅降低 KV Cache 的同时,在通用能力上不仅没有掉队,反而借由高质量的后训练流程,在大量指标上已经超越了 20B 甚至 80B 级别的传统模型。

五、各版本能力评估与选型建议

根据 OpenClaw 的综合评测,针对实际部署场景,我有如下建议:

0.8B:极致轻量,聚焦边缘

  • 优势:极小体积(~533MB)、极速推理。代码生成能力不错。
  • 劣势:复杂推理极弱,常识理解容易出戏,可能会陷入特定思维循环。
  • 推荐场景:移动端应用、简单的机器通信、路由器和极度资源受限的边缘 IoT 设备。

2B:平衡之选,日常好帮手

  • 优势:达到了速度与质量的甜点位置。逻辑推理相比 0.8B 明显进步。
  • 劣势:仍然难以处理高难度的复杂任务。
  • 推荐场景:日常对话助手、离线文档摘要总结、简单的文本问答。

4B:主力重装,代码与长文

  • 优势:综合能力发生质变,指令遵循和代码能力提升显著,视觉模块的理解力增强。
  • 劣势:端侧运行有一定的内存和算力门槛(推荐 8GB+ RAM)。
  • 推荐场景:本地离线辅助编程(IDE 插件)、各类垂直领域的多模态理解辅助以及复杂问答。

9B:专业级应用,对标主流模型

  • 优势:整体表现非常接近大模型水平,推理准确度更高,多语言支持极佳。
  • 劣势:资源需求极高,峰值内存占用多,推理速度较慢。
  • 推荐场景:专业高精度需求、企业级的高阶多模态分析和离线的垂类专业客服。

结语

Qwen3.5 系列端侧模型通过 75% Linear Attention + 25% Full Attention 的设计,不仅成功把长上下文能力的内存门槛打了下来,同时也通过 HQQ 4-bit 量化和 MNN 获得了极其出彩的推理速度。

无论你是要优化移动端应用的本地智能响应,还是想在本地环境搭建一个好用的离线助手,Qwen3.5 从 0.8B 到 9B 的全面布局,都给了开发群体足够清晰且丰富的选项,值得亲自上手体验。


MNN 模型下载地址:

  • ModelScope: https://modelscope.cn/collections/MNN/Qwen35-MNN
  • Hugging Face: https://huggingface.co/collections/taobao-mnn/qwen35-mnn

本文由 OpenClaw + Antigravity + Claude Code 协助编写




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • MNN 模型支持:Qwen3.5
  • XGuard安全模型:评测与MNN部署
  • STEM:用“Embedding”替代“up_proj”
  • jinja.cpp:为什么我要手写一个 Jinja2 编译器
  • LLM Super Weight 实测:剪枝降智与量化思考