马斯克邀你体验 Cursor 最强 AI 模型:Composer 2.5 登场,基于 Kimi K2.5 打造

5月19日讯 特斯拉首席执行官埃隆 · 马斯克(Elon Musk)今天(5 月 19 日)发布推文,邀请用户测试 Cursor Composer 2.5 模型,并称该模型部分调用 Colossus 2 训练而成。

马斯克邀你体验 Cursor 最强 AI 模型:Composer 2.5 登场,基于 Kimi K2.5 打造

Cursor 官方称 Composer 2.5 是其最强大的 AI 模型,基于月之暗面的 Kimi K2.5 模型训练,重点提升长任务稳定性、复杂指令遵循能力和协作体验。

马斯克邀你体验 Cursor 最强 AI 模型:Composer 2.5 登场,基于 Kimi K2.5 打造

技术上,最关键的改动之一是基于文本反馈的定向 RL(强化学习)。当一次 rollout 可能跨越数十万个 token 后,仅依赖最终奖励,很难定位到底是哪一步决策出了问题。

马斯克邀你体验 Cursor 最强 AI 模型:Composer 2.5 登场,基于 Kimi K2.5 打造

Composer 2.5 会在具体错误发生的位置插入简短反馈提示,把这个局部上下文下生成的分布当作教师信号,再用蒸馏 KL 损失拉近学生策略。这样能更精准地纠正错误工具调用、混乱解释和不符合要求的风格。

为了继续提升编码能力,Cursor 还把合成任务规模扩大到 Composer 2 的 25 倍,并在训练中动态筛选更难任务。其中一种方法是先从真实代码库中删除可测试功能,再要求模型把功能补回去,测试结果直接作为奖励信号。

官方同时承认,大规模合成训练也带来了奖励作弊风险,例如模型逆向类型检查缓存,或反编译 Java 字节码来重建 API,这也说明高强度 RL 训练必须配合更严密监控。

在训练基础设施上,Composer 2.5 使用分片 Muon 与双网格 HSDP。其中,专家权重的正交化是主要开销,团队通过异步 all-to-all 通信让网络传输与计算重叠,在 1T 模型上把优化器单步耗时控制在 0.2 秒。

与此同时,非专家权重与专家权重采用不同的 HSDP 布局,既减少小规模状态的大范围通信,也让专家优化任务分摊到更多 GPU,提高整体训练效率。

价格方面,Composer 2.5 标准版为每百万 token 输入 0.50 美元,每百万 token 输出 2.50 美元。另有一个智能水平相同、但速度更快的 fast 版本,价格为每百万 token 输入 3.00 美元,每百万 token 输出 15.00 美元。

声明:魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net!我们将及时沟通与处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索