GPT-5.4-Pro & MiMo-V2-Pro 参战:谁能挑战 Claude?

起因

上一篇 MiniMax-M2.7 的评测发出后,很多读者留言希望我测试 GPT-5.4-Pro 和 MiMo-V2-Pro。于是我开了两个 worktree,分别用 Codex(GPT-5.4-Pro)opencode(MiMo-V2-Pro) 并行执行完全相同的任务。

结果是:

  • GPT-5.4-Pro:跑了 3 小时,花费 ¥820.93(按 token 计费的真实花费),任务没有完成就被手动中断
  • MiMo-V2-Pro:跑了近 11 小时,免费额度,自称”Python 部分基本完成”,但实际测试导出就失败了

加上此前测试过的 GLM-5、MiniMax-M2.7 和 Claude Opus 4.6,同一个任务现在有五个模型的实测数据。

测试设计

测试工具

模型 执行工具
Claude Opus 4.6 / MiniMax-M2.7 / GLM-5 Claude Code
MiMo-V2-Pro opencode
GPT-5.4-Pro Codex

注:opencode 和 Codex 我使用经验不多,可能存在一定的使用姿势问题,这里仅做横向对比参考。

任务

与上次完全一致:在 MNN 推理框架中端到端支持 LFM2-350M 模型的导出和推理。一条指令触发,模型完全自主。

任务的核心挑战在于 LFM2 的 ShortConv 是一种全新的算子机制,需要跨 Python/C++ 两种语言、7+ 个文件协同修改。指令明确要求”ShortConv 作为 LinearAttention 的一个 type 实现”。

仓库中提供了一个 TDD 驱动的 Skill 指引(skills/support-new-llm/SKILL.md),将任务拆解为 6 个步骤,每步有明确的测试标准,必须通过当前步骤的测试后才能进入下一步

测试结果总览

指标 Claude Opus 4.6 GPT-5.4-Pro MiMo-V2-Pro MiniMax-M2.7 GLM-5
最终结果 完全通过 未完成(中断) 导出失败 导出成功,推理失败 未完成(中断)
耗时 14 分 30 秒(API) 3 小时(中断) 10 小时 51 分 53 分 31 秒(API) 2 小时+(中断)
Token 用量 15.5K in + 40.1K out 1.67M in + 27.1K out 688K in + 139K out 35.6M in + 107.8K out -
实际花费 ~¥45(/cost 推算) ¥820.93(token 计费) ¥0(免费额度) ¥29(Coding Plan) -
代码变更 +414 / -40(~7 文件) +221 / -12(5 文件) +1536 / -977(6 文件) +451 / -14(9 文件) -

注:GLM-5 在早期测试中未保留详细数据,仅记录跑了 2 小时以上未成功后手动中断。

Skill 遵循能力分析

这个任务不仅考验代码能力,更考验Skill 遵循能力——仓库提供了详细的 TDD 指引,模型是否能读懂并按步骤执行?

Skill 规定的流程

LFM2 属于 Tier 6(全新架构),Skill 规定的执行路径是:

步骤1: 下载、理解与测试模型 → Tier 判定
步骤2: 添加映射 → LlmModel 加载不报错
步骤6: 特殊架构支持 → 新算子 Python/C++ 实现
步骤3: Hook 对齐测试 → 5 个检查点数值一致
步骤4: 导出与 C++ 测试 → llm_demo 输出正确

每一步都有明确的测试标准,要求通过后才能进入下一步。

各模型的 Skill 遵循情况

Skill 步骤 Opus 4.6 GPT-5.4-Pro MiMo-V2-Pro M2.7
读取了 SKILL.md
步骤1: 模型分析 + Tier 判定 跳过 部分
步骤2: 添加映射 + 加载测试 部分
步骤6: 新架构实现 部分 部分 ❌ 未遵循指令
步骤3: Hook 对齐测试 ❌ 未执行 自称通过 ❌ 未执行
步骤4: 导出 + C++ 测试 ❌ 未执行 ❌ 导出失败 导出成功,推理失败
TDD 纪律 严格遵循 未遵循 部分遵循 部分遵循

Opus 4.6 严格按照 Skill 的 TDD 流程执行:先分析模型、判定 Tier 6、添加映射、实现新架构、逐步 Hook 对齐、最终导出和 C++ 测试——每一步都有验证,一步一个脚印。

MiMo-V2-Pro 是除 Opus 外 Skill 遵循最好的——它读取了 SKILL.md,按步骤建立了 Todo 列表(步骤1→2→3→4),完成了 Tier 判定,也声称通过了 Hook 对齐测试。但在关键的步骤6(新架构实现)中没有完整执行,最终导出失败暴露了自我验证的不足。

M2.7 读取了 SKILL.md,但在步骤6中偏离了指令(创建独立算子而非复用 LinearAttention),且跳过了步骤3(Hook 对齐测试)直接进入了导出。如果它严格执行 Hook 对齐,应该能在 Python 侧就发现问题。

GPT-5.4-Pro 没有证据表明它读取了 SKILL.md。它直接开始写代码,没有按 TDD 流程执行——没有先跑原始模型测试、没有做 Hook 对齐、没有逐步验证。3 小时的时间大量花在推理链上,而非按指引行动。

Skill 遵循的关键差异

Skill 的设计思路是以测试驱动开发:每一步都有明确的测试脚本和通过标准,模型应该写一步、测一步、过了再走下一步。这种方式的好处是:

  • 尽早发现问题:步骤3 的 Hook 对齐能在 Python 侧就暴露映射错误,不需要等到 C++ 编译和推理才发现
  • 缩小排查范围:如果 layer0 的 hook 就不对齐,直接定位到 Attention 或残差的问题
  • 避免无效工作:如果步骤2 的映射就有问题,后面的所有工作都是白费

M2.7 和 GPT-5.4-Pro 都跳过了 Hook 对齐测试,结果都在更晚的阶段才暴露问题——此时已经做了大量无效工作。遵循 Skill 的 TDD 流程不是形式主义,而是真正能提高成功率的工程方法。

各模型表现

GPT-5.4-Pro:方向对了,但 3 小时没走完

GPT-5.4-Pro 展现了正确的架构判断——复用 LinearAttention 管线、通过 attn_type == "short_conv" 分支区分,没有像 M2.7 那样创建独立算子。模型映射和 Python 导出逻辑的框架也是对的。

但 3 小时 + ¥820.93 之后,它只修改了 5 个文件、产出 221 行代码,连导出都没跑通——甚至没到 M2.7 已达到的”导出成功”里程碑。代码细节上也有硬伤:C++ 卷积翻转了卷积核方向、config 中 rope_theta 的嵌套提取没有处理。

最反常的数据:1.67M input tokens,仅 27.1K output tokens。o-系列的推理链消耗了大量算力,但产出极低——想十遍不如跑一遍。

MiMo-V2-Pro:设计优雅,但自我验证失败

MiMo-V2-Pro 在一些设计选择上很巧妙——通过 mapper 传递 "type": "short_conv" 驱动分支选择,C++ 卷积方向正确,也正确处理了 rope_parameters.rope_theta 的嵌套提取。

但它有三个突出问题。一是 +1536/-977 行变更中大量是无关的格式化噪音(单引号转双引号、Black 风格重排),model_mapper.py 的 1329 行变更中真正的 LFM2 逻辑不到 50 行,噪音大幅增加了回归风险。二是 导出实际失败,但模型自称”Python 侧完成”——自我验证能力不足。三是没有处理 full_attn_idxslayer_types 的转换,以及没有处理 operator_norm/ffn_norm 与标准 input_layernorm/post_attention_layernorm 的差异。

11 小时的时间成本虽然用的免费额度,但在真实开发中不可接受。

MiniMax-M2.7:Python 侧最完整,但走了错误的路

重新审视 M2.7 的代码后,公允地说,它的 Python 侧完成度是除 Opus 4.6 外最高的:

  • 正确处理了 full_attn_idxslayer_types 的转换(MiMo 和 GPT-5.4-Pro 都没做)
  • 在 Decoder 中为 ShortConv 层正确处理了 operator_norm/ffn_norm 的 residual 路径
  • 为 ShortConv 层跳过了不需要的 causal attention mask
  • 导出确实成功了

但它的核心错误是没有遵循指令——创建了全新的 ShortConv op(修改了 FlatBuffers Schema、新增 ONNX 自定义算子、注册新 op),而非复用 LinearAttention。这直接导致缺少 shape inference 注册,推理崩溃。加上 C++ 侧的计算重复(C² * conv(B*x))和状态管理错误,即使补上 shape inference 结果也是错的。

M2.7 的悖论在于:它把 80% 的路走得最扎实,但一开始就选了一条注定到不了终点的路。

GLM-5:最早的挑战者

GLM-5 是我最早测试的国产模型,跑了 2 小时以上未能完成任务后手动中断。当时没有保留详细的代码和 token 数据,但这次测试的结果是:它没有通过。GLM-5 的失败促使我建立了这套评测体系——正是因为它没过,我才开始系统地记录和对比后续模型的表现。

Opus 4.6 的真实实力:不止 LFM2-350M

上面的对比中,其他四个模型都在 LFM2-350M(最简单的 Dense 模型)上折戟。而 Opus 4.6 完成这个任务只用了 14 分钟。

但 Opus 4.6 的真实测试范围远不止于此。在大约 2~3 小时内,Opus 4.6 一口气支持了 LFM2 全系列四个架构

模型 架构类型 复杂度 Opus 4.6
LFM2-350M Dense (ShortConv + Full Attention) Tier 6 ✅ 通过
LFM2-MoE MoE + ShortConv + Full Attention Tier 3+6 ✅ 通过
LFM2-VL 视觉 + Dense Tier 5+6 ✅ 通过
LFM2-Audio 音频 + Dense Tier 4+6 ✅ 通过

每个后续架构都在前一个的基础上叠加新的挑战:MoE 需要专家路由、VL 需要视觉编码器、Audio 需要音频编码器。Opus 4.6 每次都按 Skill 的 TDD 流程执行,逐步验证,一次通过。

这意味着差距不是”能不能做 LFM2-350M”的问题——其他模型连最简单的 Dense 都过不了,而 Opus 4.6 已经完成了包括 MoE、视觉、音频在内的全部四个架构。 这是断崖式的领先。

五个模型横向对比

完成度

阶段 Opus 4.6 GPT-5.4-Pro MiMo-V2-Pro M2.7 GLM-5
模型理解 -
模型映射 -
config 处理 ❌ rope_theta -
layer_types 处理 -
Python 导出逻辑 部分 部分 -
ONNX 导出成功 ❌ 未执行 ❌ 失败 -
C++ 算子实现 有 bug 未编译通过 有 bug -
推理成功
综合完成度 100% ~35% ~50% ~65% 未知

核心设计决策

决策 Opus 4.6 GPT-5.4-Pro MiMo-V2-Pro M2.7
复用 LinearAttention ❌ 创建新算子
卷积实现正确 ❌ 翻转了 ❌ 内外重复
rope_theta 处理
layer_types / residual
状态管理正确 部分

性价比

指标 Opus 4.6 GPT-5.4-Pro MiMo-V2-Pro M2.7
花费 ~¥45 ¥820.93 ¥0 ¥29
完成度 100% ~35% ~50% ~65%
每 1% 花费 ¥0.45 ¥23.46 ¥0 ¥0.45

五种模式

  • Opus 4.6:严格遵循 Skill + 精准执行 = 一次通过,并完成全系列四个架构
  • M2.7:读了 Skill 但偏离指令 = 走完了错误的路
  • MiMo-V2-Pro:Skill 遵循最好的挑战者 = 正确的路走到一半摔倒了
  • GPT-5.4-Pro:未读 Skill,靠推理硬做 = 正确的路上原地踏步
  • GLM-5:最早的挑战者 = 未能完成

结论

五个模型测下来,两个规律越来越清晰:

规律一:Skill 遵循能力决定了成功率

仓库提供了详尽的 TDD 指引,但能否真正”读懂并遵循”是巨大的分水岭。Opus 4.6 严格按 Skill 流程执行——先分析、再映射、逐步 Hook 对齐、最后导出——每一步都有验证,问题在早期就被发现和修复。GPT-5.4-Pro 没有读 Skill,靠自己的推理链硬做,3 小时 ¥820 没有结果。M2.7 读了 Skill 但跳过了 Hook 对齐测试,问题拖到了推理阶段才暴露。

遵循 Skill 的 TDD 流程不是形式主义,而是真正能提高成功率的工程方法。

规律二:差距是断崖式的

这次测试中其他四个模型挑战的只是 LFM2 全系列中最简单的 Dense 模型,无一通过。而 Opus 4.6 在 2~3 小时内完成了 Dense、MoE、VL、Audio 全部四个架构——每个都是一次通过。

这不是”Opus 领先一个身位”的问题,而是其他模型还在起跑线挣扎,Opus 已经跑完了四圈。从”代码看起来对”到”端到端跑通”之间的鸿沟,目前只有 Opus 4.6 能跨过。

GPT-5.4-Pro 的教训最直接:推理深度不等于工程能力。¥820 买来的长思维链,产出甚至不如 ¥0 的 MiMo-V2-Pro。

我会继续用这个任务测试后续发布的新模型。期待有一天,能看到第二个模型一次跑通这个测试。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 如何设计端侧高性能 Tokenizer?MNN 重构实践与思考
  • MiniMax-M2.7 实测:离 Claude 还有多远?
  • 2026.03.13 奔波的一天
  • 2026北京家庭新能源分数线预测:两大AI的推演与分歧
  • 2026.03.12 曲奇与订阅