昆仑万维开源Skywork-Reward-V2系列奖励模型，刷新七大评测基准SOTA成绩

AI产品动态4个月前发布 AI视野

昆仑万维于2025年7月4日正式开源第二代奖励模型 Skywork-Reward-V2系列，该系列包含8个基于不同基座模型的版本，参数规模覆盖6亿至80亿，成为当前开源奖励模型领域的技术标杆。此次发布标志着昆仑万维在强化学习人类反馈（RLHF）关键技术上的又一次突破。

技术性能方面，Skywork-Reward-V2系列在RewardBench v1/v2、PPE Preference & Correctness等七大主流评测基准中均刷新最优成绩（SOTA）。其中，基于Llama-3.1架构的80亿参数模型表现尤为突出，其综合性能超越当前开源领域最高水平，部分指标甚至媲美谷歌闭源模型Gemini2.5Pro。值得注意的是，即便是6亿参数的轻量级模型，其性能也已达到上一代最强模型的平均水平。

数据构建的创新是本次突破的核心。研究团队构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M，采用独创的人机协同两阶段流程：第一阶段通过人工标注建立高质量金标准数据集，结合大语言模型生成银标准数据；第二阶段利用训练完成的奖励模型进行自动化扩展，最终筛选出2600万条高质量样本。该方法有效解决了传统奖励模型常见的过度优化问题。

生态影响层面，这是昆仑万维继2024年9月首次开源奖励模型后的重要升级。前代模型在HuggingFace平台累计下载量超75万次，已支持多个前沿模型的训练优化。新一代模型的开源将进一步降低RLHF技术门槛，预计在智能客服、内容审核、教育辅助等领域产生规模化应用。

目前，相关技术论文、完整模型及数据集已在arXiv和GitHub平台开放获取。行业分析认为，此举将强化昆仑万维在AI基础设施层的竞争力，其”算力-算法-应用”的全链条布局有望通过开源生态加速商业化进程。

文章版权归作者所有，未经允许请勿转载。

昆仑万维开源Skywork-Reward-V2系列奖励模型，刷新七大评测基准SOTA成绩

Meta测试突破性AI功能：定制聊天机器人可主动发送后续消息

美图WHEE推出“一句话修图”功能：AI图像处理迈入新阶段

相关文章

MiniMax Agent全新升级，新增智能图像搜索等四大功能提AI协作效率

阿里通义千问推出Qwen Chat桌面端应用，支持MCP跨应用调用

腾讯QQ浏览器AI高考通服务5000万用户，2025年高考AI工具使用量激增40%

Rokid与支付宝联合推出全球首款语音支付智能眼镜，开启可穿戴支付新时代

最新资讯

热门AI工具

热门资讯