Qwen3.5 端侧小模型测评：从 0.8B 到 9B

引言

上个月我们刚刚见证了 Qwen3.5 架构的颠覆性升级，最近通义千问团队又一口气发布了 Qwen3.5 系列的四款端侧小模型——0.8B、2B、4B 和 9B。全系原生支持视觉模态，这意味着从最小的 0.8B 到最大的 9B，每一款都具备图文理解能力，这在端侧小模型中相当罕见。此外，它们还延续了统一的视觉-语言基础（Vision-Language Foundation）以及原生支持 256K 超长上下文的特性，全系搭载了以 DeltaNet 为核心的混合注意力（Hybrid Attention）架构。

考虑到混合注意力结构极其适合端侧部署，我用 OpenClaw + Antigravity 进行了模型测试，并生成了这份报告。这篇文章就带大家看看这几个小模型在设备端的实际表现、推理速度以及场景选型建议。

一、模型规格与架构对比

这四款模型虽然参数量差异巨大，但都使用了完全相同的 Qwen3_5ForConditionalGeneration 架构，主要在层数和隐藏维度上做了不同程度的缩放。

1.1 核心参数速览

| 配置项 | Qwen3.5-0.8B | Qwen3.5-2B | Qwen3.5-4B | Qwen3.5-9B | | :— | :—: | :—: | :—: | :—: | | 层数 | 24 | 24 | 32 | 32 | | 隐藏层维度 | 1024 | 2048 | 2560 | 4096 | | 视觉层数 | 12 | 24 | 24 | 27 | | 视觉隐维度 | 768 | 1024 | 1024 | 1152 | | 词表大小 | 248,320 | 248,320 | 248,320 | 248,320 | | 最大上下文 | 256K | 256K | 256K | 256K |

可以看到，0.8B 和 2B 系列同样是 24 层的 Transformer 架构，但 2B 版本的隐藏层维度直接翻倍，视觉层数也变得更深；而到了 4B 和 9B，模型深度扩展到了 32 层，整体表达能力上了一个新台阶。

1.2 混合注意力带来的端侧红利

全系列保持了 75% 线性注意力（Linear Attention） + 25% 标准注意力（Full Attention） 的混合设计。

这个架构在端侧推理时简直是“省存神器”：由于线性注意力层无需维护 KV Cache，长上下文处理时的内存占用直接锐减了将近 75%。对于只有 8GB 甚至 4GB 内存的手机或 IoT 设备来说，这意味着终于能真正在本地跑通中等长度（甚至更长）的文档分析和多模态理解了。

二、MNN 导出与性能测评

测试环境选在搭载 Apple M3 Pro 芯片的 macOS 设备上，使用 MNN 3.4.0 版本，通过 HQQ 4-bit 对模型进行了量化。测试全程使用 CPU 后端，未启用 GPU 加速。

2.1 转换大小与加载内存

为了方便在端侧部署，4-bit 量化是目前最成熟的选择。导出后的模型总大小（含视觉权重）非常诱人：

0.8B 模型压缩后仅有约 533 MB，完全可以塞进口袋里的任何设备。
2B 模型约 1.37 GB，加载内存不到 1.5 GB，是日常桌面助手的黄金尺寸。
4B 和 9B 分别需要约 2.59 GB 和 4.85 GB 的硬盘空间，对于需要重度使用代码或长推理的场景也依然在可用范围内。

2.2 推理速度 (Tok/s)

在纯 CPU（Apple Silicon）后端、开启 4 线程的条件下，这几个模型的推理表现如下：

模型版本	首 Token 延迟	Prefill 速度 (提示词处理)	Decode 速度 (生成)
0.8B	~500 ms	~500 tok/s	~140 tok/s
2B	~900 ms	~300 tok/s	~70 tok/s
4B	~1100 ms	~250 tok/s	~60 tok/s
9B	~1500 ms	~200 tok/s	~50 tok/s

解读： 0.8B 的生成速度达到了惊人的 140 tok/s，即便是 9B 模型，50 tok/s 的解码速度也足以带来极其流畅的流式输出体验。MNN 对 CPU 后端进行的深度优化，配合 Qwen3.5 引入的线性注意力机制，使得端侧大模型的实用性大幅提升。

三、问题测试

为了全面评估这些端侧小模型的实际能力，我设计了两类测试：先看它们在逻辑陷阱等难题上的表现，再通过通用能力测试考察日常使用场景。

3.1 逻辑陷阱测试

首先用几道经典的”弱智吧”题目和逻辑陷阱题进行测试，考察模型在极端场景下的表现。

1. 洗车逻辑陷阱

题目：”距离我 30 米有家洗车店，我是开车去洗好还是走路去好？”

这道题考察的是基本的生活常识：洗车必须带车。

0.8B：虽然避免了死循环，但推理过程相当混乱，最终给出了”开车去”的结论，却并非基于正确理解，更像是瞎猫碰上死耗子。
2B：煞有介事地对比了开车和走路的优劣势，推荐了”开车去”，但理由相当离谱——“走路容易摔倒弄坏车漆”。结论虽然正确，但完全没有识破题目陷阱。
4B：做了一番严谨的距离和经济学分析，最后建议”毫无疑问，请走路”，完全忽视了需要把车带过去的前提，掉入了字面陷阱。
9B：表现出色。在经历了一段约 5000 tokens 的内部 Thinking 推演后，准确指出了题干中的悖论（”If I walk, I am not bringing the car”），并明确给出了结论：”必须开车去。物理逻辑：洗车的前提是车要进入洗车区域。”

2. 经典的脑筋急转弯与常识测试 为了进一步拉测，我又追加了三道经典题：

Strawberry 有几个字母 r？（字符拼接）
树上有 10 只鸟，猎人开枪打死 1 只，树上还剩几只？（隐式物理逻辑）
鲁迅认识周树人吗？（历史常识辨析）

测试结果两极分化比较明显：

0.8B：在三道题上全部陷入无限重复的死循环，未能输出有效答案。
2B：在 Strawberry 问题上陷入死循环；打鸟问题给出”9只”的数学答案，完全没理解枪声会吓跑鸟的常识逻辑；鲁迅问题则给出了长篇大论但完全错误的回答，没能识别出”鲁迅就是周树人”这一基本事实。
4B：顺利答对所有问题。准确数出了 Strawberry 有 3 个 r，解释了枪声会吓走剩余的鸟（剩 0 只），并指出鲁迅就是周树人。
9B：解答过程非常完善。除了给出正确答案，在分析思路上也更有条理，比如在”打鸟”问题中，还会额外补充”如果作为数学题是9只，但作为常识题是0只”，体现了较好的语境理解能力。

综合来看，0.8B 和 2B 级别的极小模型在处理复杂的思维链路时容易失控，而到了 4B 和 9B 级别，端侧模型的逻辑推理和常识理解已经基本达到了可用状态。

3.2 通用能力测试

那么在日常任务中，0.8B 和 2B 的表现如何？我对这两款最小参数模型进行了 10 项通用能力测试，涵盖自我介绍、知识问答、数学计算、代码生成、逻辑推理、翻译、文本总结、创意写作、常识推理和逻辑演绎等场景。

性能对比：

测试用例	0.8B 响应时间	2B 响应时间	性能差距
自我介绍	4.71s	8.27s	2B 慢 76%
知识问答	10.04s	8.58s	0.8B 慢 17%
数学计算	16.94s	9.42s	0.8B 慢 80%
代码生成	10.14s	10.05s	基本持平
逻辑推理	19.55s	10.11s	0.8B 慢 93%
翻译	16.45s	9.48s	0.8B 慢 74%
文本总结	10.23s	10.00s	基本持平
创意写作	15.37s	9.68s	0.8B 慢 59%
常识推理	15.73s	9.69s	0.8B 慢 62%
逻辑演绎	16.20s	9.48s	0.8B 慢 71%
平均	13.54s	9.48s	0.8B 慢 43%

有趣的发现是：0.8B 虽然解码速度更快（114-152 tok/s vs 61-78 tok/s），但平均响应时间反而比 2B 慢 43%。原因在于 0.8B 在复杂任务上容易陷入”过度思考”循环，生成了大量无效 token，反而拖慢了整体响应。

输出质量对比：

维度	0.8B 模型	2B 模型	胜出
响应速度	⭐⭐⭐	⭐⭐⭐⭐⭐	2B
代码能力	⭐⭐⭐⭐⭐	⭐⭐⭐	0.8B
逻辑推理	⭐⭐	⭐⭐⭐⭐⭐	2B
知识问答	⭐⭐⭐⭐	⭐⭐⭐	0.8B
创意写作	⭐⭐	⭐⭐⭐	2B
输出完整性	⭐⭐⭐	⭐⭐	0.8B
总体	⭐⭐⭐	⭐⭐⭐⭐	2B

关键发现：

0.8B 亮点：代码生成能力出色，能提供多种实现方案；知识问答回答更详细；文件体积小巧（~470MB）
0.8B 短板：容易陷入”过度思考”循环，逻辑推理任务表现不稳定
2B 亮点：逻辑推理能力强，响应更快，输出更简洁
2B 短板：输出经常被 512 token 限制截断，代码生成不完整

四、官方 Benchmark 跑分概览

结合官方技术报告（README）中的基准测试成绩，Qwen3.5 采用全新的混合注意力架构后，整体性能有了非常大的提升。尤其是在跟百亿规模（甚至千亿规模）的顶尖模型直接对比时，9B 版本的成绩在许多项上出现了越级打击的情况。

知识与通用能力 (MMLU-Pro / C-Eval)：在 MMLU-Pro 测试中，Qwen3.5-9B 拿到了 82.5 的高分，这一成绩不仅超越了同门 30B 模型 Qwen3-30B (80.9)，甚至还略微超过了千亿规模的 GPT-OSS-120B (80.8)。即便是 Qwen3.5-4B (79.1)，也稳稳战胜了 GPT-OSS-20B (74.8)。
逻辑推理与代码 (Reasoning & Coding)：在 HMMT Feb 25 等复杂推理榜单中，Qwen3.5-9B (83.2) 将上一代同级模型 Qwen3-Next-80B (73.7) 和 GPT-OSS-20B (76.7) 远远甩在身后。4B 版本同样也拿下了 74.0 的分数。
多模态理解 (Vision Language)：由于采用了更早期融合的视觉语言训练，Qwen3.5 全系在基于视觉的基准（如 MMMU、MathVision）上展现出很强统治力。比如在 MathVision 上，Qwen3.5-9B (78.9) 和 Qwen3.5-4B (74.6) 均远超 Qwen3-VL-30B (65.7) 和 Gemini-2.5-Flash-Lite (52.1)。

简单来说，Qwen3.5 通过混合注意力机制大幅降低 KV Cache 的同时，在通用能力上不仅没有掉队，反而借由高质量的后训练流程，在大量指标上已经超越了 20B 甚至 80B 级别的传统模型。

五、各版本能力评估与选型建议

根据 OpenClaw 的综合评测，针对实际部署场景，我有如下建议：

0.8B：极致轻量，聚焦边缘

优势：极小体积（~533MB）、极速推理。代码生成能力不错。
劣势：复杂推理极弱，常识理解容易出戏，可能会陷入特定思维循环。
推荐场景：移动端应用、简单的机器通信、路由器和极度资源受限的边缘 IoT 设备。

2B：平衡之选，日常好帮手

优势：达到了速度与质量的甜点位置。逻辑推理相比 0.8B 明显进步。
劣势：仍然难以处理高难度的复杂任务。
推荐场景：日常对话助手、离线文档摘要总结、简单的文本问答。

4B：主力重装，代码与长文

优势：综合能力发生质变，指令遵循和代码能力提升显著，视觉模块的理解力增强。
劣势：端侧运行有一定的内存和算力门槛（推荐 8GB+ RAM）。
推荐场景：本地离线辅助编程（IDE 插件）、各类垂直领域的多模态理解辅助以及复杂问答。

9B：专业级应用，对标主流模型

优势：整体表现非常接近大模型水平，推理准确度更高，多语言支持极佳。
劣势：资源需求极高，峰值内存占用多，推理速度较慢。
推荐场景：专业高精度需求、企业级的高阶多模态分析和离线的垂类专业客服。

结语

Qwen3.5 系列端侧模型通过 75% Linear Attention + 25% Full Attention 的设计，不仅成功把长上下文能力的内存门槛打了下来，同时也通过 HQQ 4-bit 量化和 MNN 获得了极其出彩的推理速度。

无论你是要优化移动端应用的本地智能响应，还是想在本地环境搭建一个好用的离线助手，Qwen3.5 从 0.8B 到 9B 的全面布局，都给了开发群体足够清晰且丰富的选项，值得亲自上手体验。

MNN 模型下载地址：

ModelScope: https://modelscope.cn/collections/MNN/Qwen35-MNN
Hugging Face: https://huggingface.co/collections/taobao-mnn/qwen35-mnn

本文由 OpenClaw + Antigravity + Claude Code 协助编写

引言