DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

2月18日讯 DeepSeek 今日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

NSA 的核心组件包括:

  • 动态分层稀疏策略
  • 粗粒度 token 压缩
  • 细粒度 token 选择

DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
声明:魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net!我们将及时沟通与处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索