一图读懂Qwen

随着最近举办的云栖大会,“通义千问”系列模型的密集发布引发了不少讨论。 网络上流传的表情包所调侃的,从最初的几个核心模型,到现在“全家桶”式的发布,让不少人直呼“跟不上了”。

gpt-qwen

不过调侃归调侃,通义千问命名相比GPT的“阴间”命名风格还是很“阳间”的。为了帮助大家更清晰地梳理“Qwen家族”的全貌,我制作了一张Qwen全系列模型汇总及发布时间线图

从这张图中,你可以直观地看到:

  • 迭代速度快:通义千问在短时间内完成了多次重要更新,快速覆盖了从小型到超大规模(如参数超过万亿的Qwen3-Max)的完整模型尺寸梯度。
  • 家族成员多:除了基础的语言模型,Qwen还衍生出了众多针对特定任务和场景的“专家模型”,例如强化数学和逻辑推理能力的模型、专注于代码生成的Coder系列以及具备音视频理解能力的多模态模型。
  • 技术路线广:Qwen系列不仅有传统的密集(Dense)模型,还积极探索了混合专家(MoE)架构,旨在实现性能与效率的平衡。

gpt-qwen

标题图由Nano Banana生成,网页由Qwen Coder模型辅助生成,图片原始网页




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 端侧LLM硬件系列(二):内存容量
  • Qwen3-Next:下一代MoE模型架构解析
  • 端侧LLM硬件系列(一):内存带宽
  • CoreML踩坑记:慎用Conv1D
  • 深入 gpt-oss-20b 架构:MNN 移动端性能实践