Claude有多大?从推理速度反推参数量

起因

3 月 26 日,一次 CMS 配置错误让 Anthropic 下一代旗舰模型 Claude Capybara(内部代号 Mythos)意外曝光,Anthropic 随后向 Fortune 杂志确认了它的存在,称其为”我们构建过的最强大模型”。要知道现在的 Opus 4.6 已经是我日常编程的主力工具了,而 Capybara 在 Terminal-Bench 2.0 等编程基准上还要远超 Opus,网络安全领域的漏洞利用能力更是被描述为”远超任何其他 AI 模型”——强到 Anthropic 只敢先给少数网络防御客户测试。

不过能力提升的代价也很直观:Capybara 的推理速度可能只有 Opus 4.6 的 40%,这背后大概率是参数量的大幅增加。这篇文章就是尝试从推理速度反推 Claude 的参数规模——结论是 Opus 4.6 激活参数约 80–110B,总参数约 1.5–2.5T;而 Capybara 激活参数可能在 150–250B,总参数突破 4T

数据与方法

Anthropic 不公开参数量,但参数量可以从推理速度反推。思路很简单:在 Google Vertex、Amazon Bedrock 这类第三方托管平台上,同一个服务商为所有模型提供的是同一套推理基础设施,没有理由针对某个特定模型故意降速或加速。那么不同模型之间的吞吐量差异,反映的就是模型本身参数规模的差异。

所以我的做法是:在同一平台上收集一批参数量已知的开源模型(DeepSeek、GLM、Kimi、Llama 等)的推理速度,建立参数和速度的对应关系,再用这个关系去反推 Claude 的参数量。

Google Vertex 平台

模型 Total Params Active Params Architecture Precision Throughput (TPS) Latency
DeepSeek V3.1 685B 37B MoE FP8 110 0.78s
GLM-4.7 355B 32B MoE FP8 108 0.78s
Kimi K2 Thinking 1.04T 32B MoE FP4 206.5 0.37s
MiniMax M2 230B 10B MoE FP8 131.5 3.25s
GPT-OSS-120B 117B 5.1B MoE FP8 297 0.33s
GPT-OSS-20B 21B 3.6B MoE FP8 267 0.30s
Llama 3.3 70B 70B 70B Dense FP8 61 0.20s
Claude Opus 4.6 ? ? ? FP8 41 1.37s
Claude Sonnet 4.6 ? ? ? FP8 46 1.35s

Amazon Bedrock 平台

模型 Total Params Active Params Architecture Throughput (TPS) Latency
GPT-OSS-20B 21B 3.6B MoE 210 1.02s
GPT-OSS-120B 117B 5.1B MoE 171 1.32s
Claude Opus 4.6 ? ? ? 35 2.49s
Claude Sonnet 4.6 ? ? ? 39 1.99s

Bedrock 上 Claude 的速度比 Vertex 慢约 15%,这是 provider 端的队列策略差异,不影响模型本身的判断。后续分析以 Vertex 数据为准。

推导逻辑

LLM 的 Decode 阶段是逐 token 自回归生成,瓶颈在显存带宽(memory-bound)。理论吞吐量满足:

TPS ≈ Memory_Bandwidth / (Active_Params × Bytes_Per_Param)
→ Active_Params × TPS × Precision_Factor ≈ Constant

简单说:在同一硬件平台、同一量化精度下,激活参数 × 吞吐量 应该近似等于一个常数。如果这个常数靠谱,用它除以 Claude 的 TPS,就能算出 Claude 的激活参数。

先用开源模型验证一下。设 FP8 factor = 1.0,FP4 factor = 0.5,归一化后的乘积:

模型 Active TPS Raw Product Precision Normalized
DeepSeek V3.1 37B 110 4,070 FP8 4,070
GLM-4.7 32B 108 3,456 FP8 3,456
Kimi K2 Thinking 32B 206.5 6,608 FP4 3,304
MiniMax M2 10B 131.5 1,315 FP8 1,315
GPT-OSS-120B 5.1B 297 1,515 FP8 1,515
GPT-OSS-20B 3.6B 267 961 FP8 961
Llama 3.3 70B 70B 61 4,270 FP8 4,270

几个观察:

  1. 大模型的乘积比较稳定:Llama 3.3 70B (4,270)、DeepSeek (4,070)、GLM (3,456)、Kimi FP4 归一化后 (3,304),四者都在 3,300–4,300 区间。这说明 30B+ 激活参数的模型(不管是 Dense 还是 MoE),decode 确实是 memory-bound 主导,乘积近似常数的假设成立。
  2. Llama 3.3 70B 是最有价值的参考点:它是 Dense 架构,Active = Total = 70B,没有 MoE 的 expert routing 开销,也没有激活参数不确定性的问题。而且 70B 正好接近 Claude 的预测区间,作为锚点比 30B 级别的 MoE 模型更直接。
  3. 小模型的乘积明显偏低:GPT-OSS-120B (1,515)、GPT-OSS-20B (961)、MiniMax M2 (1,315),active 越小乘积越低。这是因为小模型的 compute-bound 占比更高,达不到 memory-bound 的理论上限——换句话说,小模型跑得比”应该”的速度慢,乘积就偏低了。
  4. Kimi K2 Thinking 的原始乘积 (6,608) 远高于 FP8 模型,按 FP4 归一化后落回 3,304,和 DeepSeek、GLM 一个区间。这说明 Kimi 大概率用了 FP4 或混合精度部署。

Claude 的激活参数预计在 70B+(后面会算出来),属于大模型范畴,用大模型的乘积作为基准是合理的。基准常数取 3,300–4,300 这个区间,中心值约 3,800。

Claude 激活参数计算

原始反推

用基准常数的范围来算:

Opus Active  ≈ 3,300~4,300 / 41 ≈ 80~105B
Sonnet Active ≈ 3,300~4,300 / 46 ≈ 72~93B

Thinking Tokens

Vertex 标注的 TPS “Includes reasoning tokens”。不过 thinking tokens 的生成和普通 tokens 一样,都是 decode 阶段的自回归操作,计算模式完全相同。所以 TPS 已经反映了模型的真实 decode 性能,不需要额外修正。

Context Length 修正

Opus/Sonnet 支持 1M context,KV cache 和 attention 的开销比 128K 模型多约 3% 的带宽消耗,小幅上调:

Opus  ≈ (3,300~4,300 / 41) × 1.03 ≈ 83~108B
Sonnet ≈ (3,300~4,300 / 46) × 1.03 ≈ 74~96B

综合两个平台的数据:

  • Opus 激活参数: 80–110B(中心值约 95B)
  • Sonnet 激活参数: 70–95B(中心值约 83B)

值得注意的是,Llama 3.3 70B 的 Dense 70B 在 Vertex 上只有 61 TPS,而 Claude Opus 只有 41 TPS——如果 Claude 也是 Dense 架构,那它的参数至少在 70 × (61/41) ≈ 104B。但 Claude 大概率是 MoE(从 Opus 和 Sonnet 速度接近但能力差距明显来看),MoE 的 routing overhead 会让实际 TPS 略低于纯 memory-bound 预测,所以激活参数的真实值可能在这个范围的中下部。

总参数估计

MoE 架构的 Total / Active ratio 在不同模型之间差异很大,看一下开源模型的数据:

模型 Active Total Ratio
GPT-OSS-20B 3.6B 21B 5.8x
GLM-4.7 32B 355B 11.1x
DeepSeek V3.1 37B 685B 18.5x
MiniMax M2 10B 230B 23x
Kimi K2 32B 1.04T 32.5x

这个 ratio 没有简单的规律——同样是 32B 激活参数,GLM 取 11x 而 Kimi 取 32.5x,差了 3 倍。ratio 的大小更多取决于各家的设计选择:expert 数量、expert 粒度、是否共享 expert 等等,不能简单地从激活参数推断。

不过可以缩小范围。从工程实践看,ratio 的主流区间在 10x–25x 之间(Kimi 的 32.5x 属于比较极端的设计)。以 Opus 80–110B 的激活参数为基础:

  • 取保守的 15x:Total ≈ 1.2–1.7T
  • 取中间的 20x:Total ≈ 1.6–2.2T
  • 取激进的 25x:Total ≈ 2.0–2.8T

考虑到 Anthropic 的工程风格偏稳健,不太可能走 Kimi 那种极端路线,Opus 4.6 的总参数大概在 1.5–2.5T 这个量级,2T 附近是一个合理的中心估计。Sonnet 4.6 则略小,大概在 1.0–2.0T。

Capybara 参数预测

泄露信息显示 Capybara 定位是超越 Opus 的下一代旗舰,在编程(Terminal-Bench 2.0 新纪录)、推理和网络安全方面都有大幅提升,目前仅对少数”网络防御”方向的客户开放早期测试。

如果 Opus 4.6 的激活参数约 95B、总参数约 2T,那 Capybara 有多大?

最直接的线索是推理速度。泄露信息暗示 Capybara 的 TPS 约为 Opus 的 40%,也就是大约 16–17 TPS。用同样的反推方法:

Capybara Active ≈ 3,800 / 16.5 ≈ 230B

当然这个估计的不确定性更大——Capybara 可能用了不同的量化精度、不同的硬件集群、甚至不同的架构设计。但数量级上,激活参数 150–250B、总参数 4–6T 是一个合理的推测范围。

这也解释了为什么 Anthropic 选择先给少数客户测试——这个规模的模型,推理成本不是一般的高。

不确定性

需要强调的是,Capybara 的预测比 Opus 的估计多了一层不确定性。Opus 的数据至少能从两个平台交叉验证,而 Capybara 目前只有泄露信息中”速度约为 Opus 40%”这一个数据点,且 Anthropic 完全可能在架构上做了创新(比如更激进的量化、混合精度、或者全新的 attention 机制),使得参数-速度的对应关系发生变化。

结论

Throughput Analysis 左:激活参数与吞吐量的关系,红色虚线为 memory-bound 理论曲线;中:各模型的 Active × TPS 乘积验证;右:MoE 模型的 Total/Active Ratio 分布。

通过收集 Google Vertex 平台上多款开源模型(包括 Dense 架构的 Llama 3.3 70B 和多款 MoE 模型)的推理速度,验证了 memory-bound 条件下”激活参数 × TPS ≈ 常数”的关系在大模型上成立。用这个关系反推 Claude 的参数量:Opus 4.6 的激活参数约 80–110B,总参数约 1.5–2.5TSonnet 4.6 略小,激活参数约 70–95B,总参数约 1.0–2.0T。两者都采用 FP8 量化的 MoE 架构。

至于下一代的 Capybara,如果泄露的速度数据可信,其激活参数可能在 150–250B 区间,总参数有望突破 4T——这也直接解释了它为什么这么慢。当然,这些数字本身的误差不小(基准常数就有约 ±15% 的波动),对 Capybara 的推测更是多了一层假设,权当一个数量级的参考。

说实话,作为一个每天都在用 Opus 4.6 写代码的人,我很难想象还能比现在强多少。但如果 Capybara 真的能兑现泄露信息里描述的那些能力,那 AI 辅助编程这件事可能又要翻一个台阶了。期待它正式开放的那天。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • TurboQuant:一篇论文砸崩存储股价?MNN在手机上跑通了
  • Google Stitch 体验:解决 CC 写 UI 的痛
  • MNN 任务实测:七个模型,三个梯队
  • MiMo-V2-Pro 测评:同一模型,两种结局
  • 如何设计端侧高性能 Tokenizer?MNN 重构实践与思考