华为昇腾 0 Day 支持智谱 GLM-5.2 模型,提供全面推理优化

6月18日讯 “昇腾 AI 开发者”公众号 6 月 17 日宣布,昇腾 0 Day 支持 GLM-5.2,为编程与长程任务提供全面推理优化。

据官方介绍,目前昇腾 A3 系列产品已经支持 GLM5.2 的单双机以及大 EP 推理部署。针对 GLM5.2 模型的结构特点,昇腾围绕以下几个关键技术开展了高效推理优化:

  • MOE 大融合算子:将专家路由、加权计算与结果归约融合为统一算子,消除中间张量冗余读写,显著提升计算效率。
  • 通信与计算融合:通过将 AllReduce 优化为 ReduceScatter 与 AllGather 通信原语,并与矩阵计算形成紧耦合流水线,实现通信延迟的有效隐藏。
  • 注意力前处理与多 Token 预测优化:采用注意力前处理融合算子,结合多 Token 预测(MTP)机制的加速,提升单步生成效率。
  • 高并发调度与预填充延迟机制:在高并发混合负载场景下引入预填充延迟调度,平滑计算峰值,降低 Prefill 阶段对 Decode 阶段的资源抢占。
  • 智能缓存与索引优化:结合 IndexCache 技术缓存高频专家路径与静态路由表,并采用 Chunked Prefill、稀疏索引检索等方法,优化长上下文推理性能。
  • PD 分离与 Prefix Cache:通过 Prefill 与 Decode 阶段分离及前缀缓存技术,压缩解码时延抖动,提升在线服务吞吐稳定性。
声明:魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net!我们将及时沟通与处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索