阿里发布国内首个“混合推理模型”Qwen3 并开源:支持两种思考模式,预训练约 36 万亿个 token、119 种语言和方言

4月29日讯 今日凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型。

Models LayersHeads (Q / KV)Tie EmbeddingContext Length
Qwen3-0.6B2816 / 8Yes32K
Qwen3-1.7B 2816 / 8Yes32K
Qwen3-4B3632 / 8Yes32K
Qwen3-8B 3632 / 8No128K
Qwen3-14B 4040 / 8No128K
Qwen3-32B6464 / 8No128K
Models LayersHeads (Q / KV)Experts (Total/ Activated)Context Length
Qwen3-30B-A3B4832 / 4128 / 8128K
Qwen3-235B-A22B9464 / 4128 / 8128K

这是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗。

经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base)已在各大平台上开放使用。同时,阿里云开源了两个 MoE 模型的权重:

  • Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型
  • Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。

此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

声明:魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net!我们将及时沟通与处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索