全流程昇腾平台训练，华为推出准万亿参数盘古 Ultra MoE 模型

5月30日讯 华为今日推出参数规模高达 7180 亿的全新模型盘古 Ultra MoE，这是一个全流程在昇腾 AI 计算平台上训练的准万亿 MoE 模型。

据了解，盘古团队提出 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化的方法，在昇腾平台上实现了超过 18TB 数据的长期稳定训练。

在训练方法上，华为团队首次披露在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习（RL）后训练框架的关键技术，使 RL 后训练进入超节点集群时代。

在 5 月初发布的预训练系统加速技术基础上，在不到一个月的时间内，华为团队又完成了一轮迭代升级，包括：适配昇腾硬件的自适应流水掩盖策略，进一步优化算子执行序，进一步降低 Host-Bound 以及提升 EP 通信的掩盖；自适应管理内存优化策略的开发；数据重排实现 DP 间 Attention 负载均衡；以及昇腾亲和的算子优化，这些技术实现万卡集群预训练 MFU 由 30% 大幅提升至 41%。

技术报告：点此前往

项目文件预览：点此前往

声明：魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net！我们将及时沟通与处理。

{{userData.name}}已认证

全流程昇腾平台训练，华为推出准万亿参数盘古 Ultra MoE 模型

QQ

微信

邮箱

{{userData.name}}已认证

关于我们

Content

About

Contact

QQ

微信

邮箱

人工智能领域全媒体矩阵