昆仑万维于2025年7月4日正式开源第二代奖励模型Skywork-Reward-V2系列,该系列包含8个基于不同基座模型的版本,参数规模覆盖6亿至80亿,成为当前开源奖励模型领域的技术标杆。此次发布标志着昆仑万维在强化学习人类反馈(RLHF)关键技术上的又一次突破。
技术性能方面,Skywork-Reward-V2系列在RewardBench v1/v2、PPE Preference & Correctness等七大主流评测基准中均刷新最优成绩(SOTA)。其中,基于Llama-3.1架构的80亿参数模型表现尤为突出,其综合性能超越当前开源领域最高水平,部分指标甚至媲美谷歌闭源模型Gemini2.5Pro。值得注意的是,即便是6亿参数的轻量级模型,其性能也已达到上一代最强模型的平均水平。
数据构建的创新是本次突破的核心。研究团队构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M,采用独创的人机协同两阶段流程:第一阶段通过人工标注建立高质量金标准数据集,结合大语言模型生成银标准数据;第二阶段利用训练完成的奖励模型进行自动化扩展,最终筛选出2600万条高质量样本。该方法有效解决了传统奖励模型常见的过度优化问题。
生态影响层面,这是昆仑万维继2024年9月首次开源奖励模型后的重要升级。前代模型在HuggingFace平台累计下载量超75万次,已支持多个前沿模型的训练优化。新一代模型的开源将进一步降低RLHF技术门槛,预计在智能客服、内容审核、教育辅助等领域产生规模化应用。
目前,相关技术论文、完整模型及数据集已在arXiv和GitHub平台开放获取。行业分析认为,此举将强化昆仑万维在AI基础设施层的竞争力,其”算力-算法-应用”的全链条布局有望通过开源生态加速商业化进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。