GPT-5.4-Pro & MiMo-V2-Pro 参战:谁能挑战 Claude?
起因
上一篇 MiniMax-M2.7 的评测发出后,很多读者留言希望我测试 GPT-5.4-Pro 和 MiMo-V2-Pro。于是我开了两个 worktree,分别用 Codex(GPT-5.4-Pro) 和 opencode(MiMo-V2-Pro) 并行执行完全相同的任务。
结果是:
- GPT-5.4-Pro:跑了 3 小时,花费 ¥820.93(按 token 计费的真实花费),任务没有完成就被手动中断
- MiMo-V2-Pro:跑了近 11 小时,免费额度,自称”Python 部分基本完成”,但实际测试导出就失败了
加上此前测试过的 GLM-5、MiniMax-M2.7 和 Claude Opus 4.6,同一个任务现在有五个模型的实测数据。
测试设计
测试工具
| 模型 | 执行工具 |
|---|---|
| Claude Opus 4.6 / MiniMax-M2.7 / GLM-5 | Claude Code |
| MiMo-V2-Pro | opencode |
| GPT-5.4-Pro | Codex |
注:opencode 和 Codex 我使用经验不多,可能存在一定的使用姿势问题,这里仅做横向对比参考。
任务
与上次完全一致:在 MNN 推理框架中端到端支持 LFM2-350M 模型的导出和推理。一条指令触发,模型完全自主。
任务的核心挑战在于 LFM2 的 ShortConv 是一种全新的算子机制,需要跨 Python/C++ 两种语言、7+ 个文件协同修改。指令明确要求”ShortConv 作为 LinearAttention 的一个 type 实现”。
仓库中提供了一个 TDD 驱动的 Skill 指引(skills/support-new-llm/SKILL.md),将任务拆解为 6 个步骤,每步有明确的测试标准,必须通过当前步骤的测试后才能进入下一步。
测试结果总览
| 指标 | Claude Opus 4.6 | GPT-5.4-Pro | MiMo-V2-Pro | MiniMax-M2.7 | GLM-5 |
|---|---|---|---|---|---|
| 最终结果 | 完全通过 | 未完成(中断) | 导出失败 | 导出成功,推理失败 | 未完成(中断) |
| 耗时 | 14 分 30 秒(API) | 3 小时(中断) | 10 小时 51 分 | 53 分 31 秒(API) | 2 小时+(中断) |
| Token 用量 | 15.5K in + 40.1K out | 1.67M in + 27.1K out | 688K in + 139K out | 35.6M in + 107.8K out | - |
| 实际花费 | ~¥45(/cost 推算) | ¥820.93(token 计费) | ¥0(免费额度) | ¥29(Coding Plan) | - |
| 代码变更 | +414 / -40(~7 文件) | +221 / -12(5 文件) | +1536 / -977(6 文件) | +451 / -14(9 文件) | - |
注:GLM-5 在早期测试中未保留详细数据,仅记录跑了 2 小时以上未成功后手动中断。
Skill 遵循能力分析
这个任务不仅考验代码能力,更考验Skill 遵循能力——仓库提供了详细的 TDD 指引,模型是否能读懂并按步骤执行?
Skill 规定的流程
LFM2 属于 Tier 6(全新架构),Skill 规定的执行路径是:
步骤1: 下载、理解与测试模型 → Tier 判定
步骤2: 添加映射 → LlmModel 加载不报错
步骤6: 特殊架构支持 → 新算子 Python/C++ 实现
步骤3: Hook 对齐测试 → 5 个检查点数值一致
步骤4: 导出与 C++ 测试 → llm_demo 输出正确
每一步都有明确的测试标准,要求通过后才能进入下一步。
各模型的 Skill 遵循情况
| Skill 步骤 | Opus 4.6 | GPT-5.4-Pro | MiMo-V2-Pro | M2.7 |
|---|---|---|---|---|
| 读取了 SKILL.md | ✅ | ❌ | ✅ | ✅ |
| 步骤1: 模型分析 + Tier 判定 | ✅ | 跳过 | ✅ | 部分 |
| 步骤2: 添加映射 + 加载测试 | ✅ | 部分 | ✅ | ✅ |
| 步骤6: 新架构实现 | ✅ | 部分 | 部分 | ❌ 未遵循指令 |
| 步骤3: Hook 对齐测试 | ✅ | ❌ 未执行 | 自称通过 | ❌ 未执行 |
| 步骤4: 导出 + C++ 测试 | ✅ | ❌ 未执行 | ❌ 导出失败 | 导出成功,推理失败 |
| TDD 纪律 | 严格遵循 | 未遵循 | 部分遵循 | 部分遵循 |
Opus 4.6 严格按照 Skill 的 TDD 流程执行:先分析模型、判定 Tier 6、添加映射、实现新架构、逐步 Hook 对齐、最终导出和 C++ 测试——每一步都有验证,一步一个脚印。
MiMo-V2-Pro 是除 Opus 外 Skill 遵循最好的——它读取了 SKILL.md,按步骤建立了 Todo 列表(步骤1→2→3→4),完成了 Tier 判定,也声称通过了 Hook 对齐测试。但在关键的步骤6(新架构实现)中没有完整执行,最终导出失败暴露了自我验证的不足。
M2.7 读取了 SKILL.md,但在步骤6中偏离了指令(创建独立算子而非复用 LinearAttention),且跳过了步骤3(Hook 对齐测试)直接进入了导出。如果它严格执行 Hook 对齐,应该能在 Python 侧就发现问题。
GPT-5.4-Pro 没有证据表明它读取了 SKILL.md。它直接开始写代码,没有按 TDD 流程执行——没有先跑原始模型测试、没有做 Hook 对齐、没有逐步验证。3 小时的时间大量花在推理链上,而非按指引行动。
Skill 遵循的关键差异
Skill 的设计思路是以测试驱动开发:每一步都有明确的测试脚本和通过标准,模型应该写一步、测一步、过了再走下一步。这种方式的好处是:
- 尽早发现问题:步骤3 的 Hook 对齐能在 Python 侧就暴露映射错误,不需要等到 C++ 编译和推理才发现
- 缩小排查范围:如果
layer0的 hook 就不对齐,直接定位到 Attention 或残差的问题 - 避免无效工作:如果步骤2 的映射就有问题,后面的所有工作都是白费
M2.7 和 GPT-5.4-Pro 都跳过了 Hook 对齐测试,结果都在更晚的阶段才暴露问题——此时已经做了大量无效工作。遵循 Skill 的 TDD 流程不是形式主义,而是真正能提高成功率的工程方法。
各模型表现
GPT-5.4-Pro:方向对了,但 3 小时没走完
GPT-5.4-Pro 展现了正确的架构判断——复用 LinearAttention 管线、通过 attn_type == "short_conv" 分支区分,没有像 M2.7 那样创建独立算子。模型映射和 Python 导出逻辑的框架也是对的。
但 3 小时 + ¥820.93 之后,它只修改了 5 个文件、产出 221 行代码,连导出都没跑通——甚至没到 M2.7 已达到的”导出成功”里程碑。代码细节上也有硬伤:C++ 卷积翻转了卷积核方向、config 中 rope_theta 的嵌套提取没有处理。
最反常的数据:1.67M input tokens,仅 27.1K output tokens。o-系列的推理链消耗了大量算力,但产出极低——想十遍不如跑一遍。
MiMo-V2-Pro:设计优雅,但自我验证失败
MiMo-V2-Pro 在一些设计选择上很巧妙——通过 mapper 传递 "type": "short_conv" 驱动分支选择,C++ 卷积方向正确,也正确处理了 rope_parameters.rope_theta 的嵌套提取。
但它有三个突出问题。一是 +1536/-977 行变更中大量是无关的格式化噪音(单引号转双引号、Black 风格重排),model_mapper.py 的 1329 行变更中真正的 LFM2 逻辑不到 50 行,噪音大幅增加了回归风险。二是 导出实际失败,但模型自称”Python 侧完成”——自我验证能力不足。三是没有处理 full_attn_idxs → layer_types 的转换,以及没有处理 operator_norm/ffn_norm 与标准 input_layernorm/post_attention_layernorm 的差异。
11 小时的时间成本虽然用的免费额度,但在真实开发中不可接受。
MiniMax-M2.7:Python 侧最完整,但走了错误的路
重新审视 M2.7 的代码后,公允地说,它的 Python 侧完成度是除 Opus 4.6 外最高的:
- 正确处理了
full_attn_idxs→layer_types的转换(MiMo 和 GPT-5.4-Pro 都没做) - 在 Decoder 中为 ShortConv 层正确处理了
operator_norm/ffn_norm的 residual 路径 - 为 ShortConv 层跳过了不需要的 causal attention mask
- 导出确实成功了
但它的核心错误是没有遵循指令——创建了全新的 ShortConv op(修改了 FlatBuffers Schema、新增 ONNX 自定义算子、注册新 op),而非复用 LinearAttention。这直接导致缺少 shape inference 注册,推理崩溃。加上 C++ 侧的计算重复(C² * conv(B*x))和状态管理错误,即使补上 shape inference 结果也是错的。
M2.7 的悖论在于:它把 80% 的路走得最扎实,但一开始就选了一条注定到不了终点的路。
GLM-5:最早的挑战者
GLM-5 是我最早测试的国产模型,跑了 2 小时以上未能完成任务后手动中断。当时没有保留详细的代码和 token 数据,但这次测试的结果是:它没有通过。GLM-5 的失败促使我建立了这套评测体系——正是因为它没过,我才开始系统地记录和对比后续模型的表现。
Opus 4.6 的真实实力:不止 LFM2-350M
上面的对比中,其他四个模型都在 LFM2-350M(最简单的 Dense 模型)上折戟。而 Opus 4.6 完成这个任务只用了 14 分钟。
但 Opus 4.6 的真实测试范围远不止于此。在大约 2~3 小时内,Opus 4.6 一口气支持了 LFM2 全系列四个架构:
| 模型 | 架构类型 | 复杂度 | Opus 4.6 |
|---|---|---|---|
| LFM2-350M | Dense (ShortConv + Full Attention) | Tier 6 | ✅ 通过 |
| LFM2-MoE | MoE + ShortConv + Full Attention | Tier 3+6 | ✅ 通过 |
| LFM2-VL | 视觉 + Dense | Tier 5+6 | ✅ 通过 |
| LFM2-Audio | 音频 + Dense | Tier 4+6 | ✅ 通过 |
每个后续架构都在前一个的基础上叠加新的挑战:MoE 需要专家路由、VL 需要视觉编码器、Audio 需要音频编码器。Opus 4.6 每次都按 Skill 的 TDD 流程执行,逐步验证,一次通过。
这意味着差距不是”能不能做 LFM2-350M”的问题——其他模型连最简单的 Dense 都过不了,而 Opus 4.6 已经完成了包括 MoE、视觉、音频在内的全部四个架构。 这是断崖式的领先。
五个模型横向对比
完成度
| 阶段 | Opus 4.6 | GPT-5.4-Pro | MiMo-V2-Pro | M2.7 | GLM-5 |
|---|---|---|---|---|---|
| 模型理解 | ✅ | ✅ | ✅ | ✅ | - |
| 模型映射 | ✅ | ✅ | ✅ | ✅ | - |
| config 处理 | ✅ | ❌ rope_theta | ✅ | ✅ | - |
| layer_types 处理 | ✅ | ❌ | ❌ | ✅ | - |
| Python 导出逻辑 | ✅ | 部分 | 部分 | ✅ | - |
| ONNX 导出成功 | ✅ | ❌ 未执行 | ❌ 失败 | ✅ | - |
| C++ 算子实现 | ✅ | 有 bug | 未编译通过 | 有 bug | - |
| 推理成功 | ✅ | ❌ | ❌ | ❌ | ❌ |
| 综合完成度 | 100% | ~35% | ~50% | ~65% | 未知 |
核心设计决策
| 决策 | Opus 4.6 | GPT-5.4-Pro | MiMo-V2-Pro | M2.7 |
|---|---|---|---|---|
| 复用 LinearAttention | ✅ | ✅ | ✅ | ❌ 创建新算子 |
| 卷积实现正确 | ✅ | ❌ 翻转了 | ✅ | ❌ 内外重复 |
| rope_theta 处理 | ✅ | ❌ | ✅ | ✅ |
| layer_types / residual | ✅ | ❌ | ❌ | ✅ |
| 状态管理正确 | ✅ | 部分 | ✅ | ❌ |
性价比
| 指标 | Opus 4.6 | GPT-5.4-Pro | MiMo-V2-Pro | M2.7 |
|---|---|---|---|---|
| 花费 | ~¥45 | ¥820.93 | ¥0 | ¥29 |
| 完成度 | 100% | ~35% | ~50% | ~65% |
| 每 1% 花费 | ¥0.45 | ¥23.46 | ¥0 | ¥0.45 |
五种模式
- Opus 4.6:严格遵循 Skill + 精准执行 = 一次通过,并完成全系列四个架构
- M2.7:读了 Skill 但偏离指令 = 走完了错误的路
- MiMo-V2-Pro:Skill 遵循最好的挑战者 = 正确的路走到一半摔倒了
- GPT-5.4-Pro:未读 Skill,靠推理硬做 = 正确的路上原地踏步
- GLM-5:最早的挑战者 = 未能完成
结论
五个模型测下来,两个规律越来越清晰:
规律一:Skill 遵循能力决定了成功率
仓库提供了详尽的 TDD 指引,但能否真正”读懂并遵循”是巨大的分水岭。Opus 4.6 严格按 Skill 流程执行——先分析、再映射、逐步 Hook 对齐、最后导出——每一步都有验证,问题在早期就被发现和修复。GPT-5.4-Pro 没有读 Skill,靠自己的推理链硬做,3 小时 ¥820 没有结果。M2.7 读了 Skill 但跳过了 Hook 对齐测试,问题拖到了推理阶段才暴露。
遵循 Skill 的 TDD 流程不是形式主义,而是真正能提高成功率的工程方法。
规律二:差距是断崖式的
这次测试中其他四个模型挑战的只是 LFM2 全系列中最简单的 Dense 模型,无一通过。而 Opus 4.6 在 2~3 小时内完成了 Dense、MoE、VL、Audio 全部四个架构——每个都是一次通过。
这不是”Opus 领先一个身位”的问题,而是其他模型还在起跑线挣扎,Opus 已经跑完了四圈。从”代码看起来对”到”端到端跑通”之间的鸿沟,目前只有 Opus 4.6 能跨过。
GPT-5.4-Pro 的教训最直接:推理深度不等于工程能力。¥820 买来的长思维链,产出甚至不如 ¥0 的 MiMo-V2-Pro。
我会继续用这个任务测试后续发布的新模型。期待有一天,能看到第二个模型一次跑通这个测试。
Enjoy Reading This Article?
Here are some more articles you might like to read next: