昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

AI大模型
24年9月13日
编辑

魔果智讯魔果智讯官方账号，魔果智能创始人。

9月13日讯 昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，让智能体能够学习到在特定环境下如何做出最优选择。

奖励模型在大语言模型（Large Language Model，LLM）的训练中尤为重要，可以帮助模型更好地理解和生成符合人类偏好的内容。

与现有奖励模型不同，Skywork-Reward 的偏序数据仅来自网络公开数据，采用特定的筛选策略，以获得针对特定能力和知识领域的高质量的偏好数据集。

Skywork-Reward 偏序训练数据集包含约 80,000 个样本，通过在这些样本上微调 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 基座模型，获得最终的 Skywork-Reward 奖励模型。

相关链接如下：

RewardBench 排行榜：https://huggingface.co/spaces/allenai/reward-bench
27B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B
8B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B
偏序数据地址：https://huggingface.co/collections/Skywork/skywork-reward-data-collection-66d7fda6a5098dc77035336d

声明：魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net！我们将及时沟通与处理。

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

Content

About

Contact