GPT-5.4-Pro & MiMo-V2-Pro 参战：谁能挑战 Claude？

起因

上一篇 MiniMax-M2.7 的评测发出后，很多读者留言希望我测试 GPT-5.4-Pro 和 MiMo-V2-Pro。于是我开了两个 worktree，分别用 Codex（GPT-5.4-Pro） 和 opencode（MiMo-V2-Pro） 并行执行完全相同的任务。

结果是：

GPT-5.4-Pro：跑了 3 小时，花费 ¥820.93（按 token 计费的真实花费），任务没有完成就被手动中断
MiMo-V2-Pro：跑了近 11 小时，免费额度，自称”Python 部分基本完成”，但实际测试导出就失败了

加上此前测试过的 GLM-5、MiniMax-M2.7 和 Claude Opus 4.6，同一个任务现在有五个模型的实测数据。

测试设计

测试工具

模型	执行工具
Claude Opus 4.6 / MiniMax-M2.7 / GLM-5	Claude Code
MiMo-V2-Pro	opencode
GPT-5.4-Pro	Codex

注：opencode 和 Codex 我使用经验不多，可能存在一定的使用姿势问题，这里仅做横向对比参考。

任务

与上次完全一致：在 MNN 推理框架中端到端支持 LFM2-350M 模型的导出和推理。一条指令触发，模型完全自主。

任务的核心挑战在于 LFM2 的 ShortConv 是一种全新的算子机制，需要跨 Python/C++ 两种语言、7+ 个文件协同修改。指令明确要求”ShortConv 作为 LinearAttention 的一个 type 实现”。

仓库中提供了一个 TDD 驱动的 Skill 指引（skills/support-new-llm/SKILL.md），将任务拆解为 6 个步骤，每步有明确的测试标准，必须通过当前步骤的测试后才能进入下一步。

测试结果总览

指标	Claude Opus 4.6	GPT-5.4-Pro	MiMo-V2-Pro	MiniMax-M2.7	GLM-5
最终结果	完全通过	未完成（中断）	导出失败	导出成功，推理失败	未完成（中断）
耗时	14 分 30 秒（API）	3 小时（中断）	10 小时 51 分	53 分 31 秒（API）	2 小时+（中断）
Token 用量	15.5K in + 40.1K out	1.67M in + 27.1K out	688K in + 139K out	35.6M in + 107.8K out	-
实际花费	~¥45（/cost 推算）	¥820.93（token 计费）	¥0（免费额度）	¥29（Coding Plan）	-
代码变更	+414 / -40（~7 文件）	+221 / -12（5 文件）	+1536 / -977（6 文件）	+451 / -14（9 文件）	-

注：GLM-5 在早期测试中未保留详细数据，仅记录跑了 2 小时以上未成功后手动中断。

Skill 遵循能力分析

这个任务不仅考验代码能力，更考验Skill 遵循能力——仓库提供了详细的 TDD 指引，模型是否能读懂并按步骤执行？

Skill 规定的流程

LFM2 属于 Tier 6（全新架构），Skill 规定的执行路径是：

步骤1: 下载、理解与测试模型 → Tier 判定
步骤2: 添加映射 → LlmModel 加载不报错
步骤6: 特殊架构支持 → 新算子 Python/C++ 实现
步骤3: Hook 对齐测试 → 5 个检查点数值一致
步骤4: 导出与 C++ 测试 → llm_demo 输出正确

每一步都有明确的测试标准，要求通过后才能进入下一步。

各模型的 Skill 遵循情况

Skill 步骤	Opus 4.6	GPT-5.4-Pro	MiMo-V2-Pro	M2.7
读取了 SKILL.md	✅	❌	✅	✅
步骤1: 模型分析 + Tier 判定	✅	跳过	✅	部分
步骤2: 添加映射 + 加载测试	✅	部分	✅	✅
步骤6: 新架构实现	✅	部分	部分	❌ 未遵循指令
步骤3: Hook 对齐测试	✅	❌ 未执行	自称通过	❌ 未执行
步骤4: 导出 + C++ 测试	✅	❌ 未执行	❌ 导出失败	导出成功，推理失败
TDD 纪律	严格遵循	未遵循	部分遵循	部分遵循

Opus 4.6 严格按照 Skill 的 TDD 流程执行：先分析模型、判定 Tier 6、添加映射、实现新架构、逐步 Hook 对齐、最终导出和 C++ 测试——每一步都有验证，一步一个脚印。

MiMo-V2-Pro 是除 Opus 外 Skill 遵循最好的——它读取了 SKILL.md，按步骤建立了 Todo 列表（步骤1→2→3→4），完成了 Tier 判定，也声称通过了 Hook 对齐测试。但在关键的步骤6（新架构实现）中没有完整执行，最终导出失败暴露了自我验证的不足。

M2.7 读取了 SKILL.md，但在步骤6中偏离了指令（创建独立算子而非复用 LinearAttention），且跳过了步骤3（Hook 对齐测试）直接进入了导出。如果它严格执行 Hook 对齐，应该能在 Python 侧就发现问题。

GPT-5.4-Pro 没有证据表明它读取了 SKILL.md。它直接开始写代码，没有按 TDD 流程执行——没有先跑原始模型测试、没有做 Hook 对齐、没有逐步验证。3 小时的时间大量花在推理链上，而非按指引行动。

Skill 遵循的关键差异

Skill 的设计思路是以测试驱动开发：每一步都有明确的测试脚本和通过标准，模型应该写一步、测一步、过了再走下一步。这种方式的好处是：

尽早发现问题：步骤3 的 Hook 对齐能在 Python 侧就暴露映射错误，不需要等到 C++ 编译和推理才发现
缩小排查范围：如果 layer0 的 hook 就不对齐，直接定位到 Attention 或残差的问题
避免无效工作：如果步骤2 的映射就有问题，后面的所有工作都是白费

M2.7 和 GPT-5.4-Pro 都跳过了 Hook 对齐测试，结果都在更晚的阶段才暴露问题——此时已经做了大量无效工作。遵循 Skill 的 TDD 流程不是形式主义，而是真正能提高成功率的工程方法。

各模型表现

GPT-5.4-Pro：方向对了，但 3 小时没走完

GPT-5.4-Pro 展现了正确的架构判断——复用 LinearAttention 管线、通过 attn_type == "short_conv" 分支区分，没有像 M2.7 那样创建独立算子。模型映射和 Python 导出逻辑的框架也是对的。

但 3 小时 + ¥820.93 之后，它只修改了 5 个文件、产出 221 行代码，连导出都没跑通——甚至没到 M2.7 已达到的”导出成功”里程碑。代码细节上也有硬伤：C++ 卷积翻转了卷积核方向、config 中 rope_theta 的嵌套提取没有处理。

最反常的数据：1.67M input tokens，仅 27.1K output tokens。o-系列的推理链消耗了大量算力，但产出极低——想十遍不如跑一遍。

MiMo-V2-Pro：设计优雅，但自我验证失败

MiMo-V2-Pro 在一些设计选择上很巧妙——通过 mapper 传递 "type": "short_conv" 驱动分支选择，C++ 卷积方向正确，也正确处理了 rope_parameters.rope_theta 的嵌套提取。

但它有三个突出问题。一是 +1536/-977 行变更中大量是无关的格式化噪音（单引号转双引号、Black 风格重排），model_mapper.py 的 1329 行变更中真正的 LFM2 逻辑不到 50 行，噪音大幅增加了回归风险。二是 导出实际失败，但模型自称”Python 侧完成”——自我验证能力不足。三是没有处理 full_attn_idxs → layer_types 的转换，以及没有处理 operator_norm/ffn_norm 与标准 input_layernorm/post_attention_layernorm 的差异。

11 小时的时间成本虽然用的免费额度，但在真实开发中不可接受。

MiniMax-M2.7：Python 侧最完整，但走了错误的路

重新审视 M2.7 的代码后，公允地说，它的 Python 侧完成度是除 Opus 4.6 外最高的：

正确处理了 full_attn_idxs → layer_types 的转换（MiMo 和 GPT-5.4-Pro 都没做）
在 Decoder 中为 ShortConv 层正确处理了 operator_norm/ffn_norm 的 residual 路径
为 ShortConv 层跳过了不需要的 causal attention mask
导出确实成功了

但它的核心错误是没有遵循指令——创建了全新的 ShortConv op（修改了 FlatBuffers Schema、新增 ONNX 自定义算子、注册新 op），而非复用 LinearAttention。这直接导致缺少 shape inference 注册，推理崩溃。加上 C++ 侧的计算重复（C² * conv(B*x)）和状态管理错误，即使补上 shape inference 结果也是错的。

M2.7 的悖论在于：它把 80% 的路走得最扎实，但一开始就选了一条注定到不了终点的路。

GLM-5：最早的挑战者

GLM-5 是我最早测试的国产模型，跑了 2 小时以上未能完成任务后手动中断。当时没有保留详细的代码和 token 数据，但这次测试的结果是：它没有通过。GLM-5 的失败促使我建立了这套评测体系——正是因为它没过，我才开始系统地记录和对比后续模型的表现。

Opus 4.6 的真实实力：不止 LFM2-350M

上面的对比中，其他四个模型都在 LFM2-350M（最简单的 Dense 模型）上折戟。而 Opus 4.6 完成这个任务只用了 14 分钟。

但 Opus 4.6 的真实测试范围远不止于此。在大约 2~3 小时内，Opus 4.6 一口气支持了 LFM2 全系列四个架构：

模型	架构类型	复杂度	Opus 4.6
LFM2-350M	Dense (ShortConv + Full Attention)	Tier 6	✅ 通过
LFM2-MoE	MoE + ShortConv + Full Attention	Tier 3+6	✅ 通过
LFM2-VL	视觉 + Dense	Tier 5+6	✅ 通过
LFM2-Audio	音频 + Dense	Tier 4+6	✅ 通过

每个后续架构都在前一个的基础上叠加新的挑战：MoE 需要专家路由、VL 需要视觉编码器、Audio 需要音频编码器。Opus 4.6 每次都按 Skill 的 TDD 流程执行，逐步验证，一次通过。

这意味着差距不是”能不能做 LFM2-350M”的问题——其他模型连最简单的 Dense 都过不了，而 Opus 4.6 已经完成了包括 MoE、视觉、音频在内的全部四个架构。这是断崖式的领先。

五个模型横向对比

完成度

阶段	Opus 4.6	GPT-5.4-Pro	MiMo-V2-Pro	M2.7	GLM-5
模型理解	✅	✅	✅	✅	-
模型映射	✅	✅	✅	✅	-
config 处理	✅	❌ rope_theta	✅	✅	-
layer_types 处理	✅	❌	❌	✅	-
Python 导出逻辑	✅	部分	部分	✅	-
ONNX 导出成功	✅	❌ 未执行	❌ 失败	✅	-
C++ 算子实现	✅	有 bug	未编译通过	有 bug	-
推理成功	✅	❌	❌	❌	❌
综合完成度	100%	~35%	~50%	~65%	未知

核心设计决策

决策	Opus 4.6	GPT-5.4-Pro	MiMo-V2-Pro	M2.7
复用 LinearAttention	✅	✅	✅	❌ 创建新算子
卷积实现正确	✅	❌ 翻转了	✅	❌ 内外重复
rope_theta 处理	✅	❌	✅	✅
layer_types / residual	✅	❌	❌	✅
状态管理正确	✅	部分	✅	❌

性价比

指标	Opus 4.6	GPT-5.4-Pro	MiMo-V2-Pro	M2.7
花费	~¥45	¥820.93	¥0	¥29
完成度	100%	~35%	~50%	~65%
每 1% 花费	¥0.45	¥23.46	¥0	¥0.45

五种模式

Opus 4.6：严格遵循 Skill + 精准执行 = 一次通过，并完成全系列四个架构
M2.7：读了 Skill 但偏离指令 = 走完了错误的路
MiMo-V2-Pro：Skill 遵循最好的挑战者 = 正确的路走到一半摔倒了
GPT-5.4-Pro：未读 Skill，靠推理硬做 = 正确的路上原地踏步
GLM-5：最早的挑战者 = 未能完成

结论

五个模型测下来，两个规律越来越清晰：

规律一：Skill 遵循能力决定了成功率

仓库提供了详尽的 TDD 指引，但能否真正”读懂并遵循”是巨大的分水岭。Opus 4.6 严格按 Skill 流程执行——先分析、再映射、逐步 Hook 对齐、最后导出——每一步都有验证，问题在早期就被发现和修复。GPT-5.4-Pro 没有读 Skill，靠自己的推理链硬做，3 小时 ¥820 没有结果。M2.7 读了 Skill 但跳过了 Hook 对齐测试，问题拖到了推理阶段才暴露。

遵循 Skill 的 TDD 流程不是形式主义，而是真正能提高成功率的工程方法。

规律二：差距是断崖式的

这次测试中其他四个模型挑战的只是 LFM2 全系列中最简单的 Dense 模型，无一通过。而 Opus 4.6 在 2~3 小时内完成了 Dense、MoE、VL、Audio 全部四个架构——每个都是一次通过。

这不是”Opus 领先一个身位”的问题，而是其他模型还在起跑线挣扎，Opus 已经跑完了四圈。从”代码看起来对”到”端到端跑通”之间的鸿沟，目前只有 Opus 4.6 能跨过。

GPT-5.4-Pro 的教训最直接：推理深度不等于工程能力。¥820 买来的长思维链，产出甚至不如 ¥0 的 MiMo-V2-Pro。

我会继续用这个任务测试后续发布的新模型。期待有一天，能看到第二个模型一次跑通这个测试。

起因