必看!昆仑万维开源 Skywork-Reward-V2,多维度能力全面领先

AI ToolBox
AI ToolBox
2025年7月4日

全新升级的Skywork-Reward-V2系列正式亮相

昆仑万维再度发力,开源推出其第二代奖励模型------Skywork-Reward-V2系列。该系列包含8个基于不同基座模型、参数规模从6亿至80亿不等的模型,甫一发布便包揽七大主流奖励模型评测榜单榜首,迅速成为开源领域关注焦点。

图片

奖励模型的关键作用与数据构建创新

奖励模型在基于人类反馈的强化学习(RLHF)中扮演着至关重要的角色。为打造更强大的新一代模型,昆仑万维精心构建了名为Skywork-SynPref-40M的混合偏好数据集,包含高达4000万对偏好对比数据。

在数据处理方面,团队采用"人机协同"的两阶段流程:第一阶段,通过大语言模型辅助生成初始偏好池,并由人工标注者依据严格协议进行精细审核,构建出高质量的"金标准"数据集;随后以这些数据为引导,大规模生成"银标准"数据,并通过多轮迭代持续优化。进入第二阶段后,团队借助训练完成的奖励模型执行自动化一致性过滤,有效降低人工负担,实现数据规模与质量的双重提升。

性能全面领先,适用性广泛

得益于优质的数据基础,Skywork-Reward-V2展现出极强的泛化能力与适应性,涵盖多个关键维度:通用偏好对齐、客观正确性、安全性、风格偏差抵抗 以及best-of-N扩展能力

在包括Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench在内的七项主流评估基准上,该系列全面达到当前最优水平(SOTA)。即便是最小模型------Skywork-Reward-V2-Qwen3-0.6B,其整体性能也几乎追平上一代最强模型的平均水平;而Skywork-Reward-V2-Qwen3-1.7B更是超越现有开源模型的SOTA表现;最大版本Skywork-Reward-V2-Llama-3.1-8B则在所有测试中全面领先,成为目前综合性能最强的开源奖励模型。

多维偏好覆盖,性能全面提升

该模型系列不仅具备广泛的偏好适配能力,在多项高级任务中同样表现出色。例如在通用偏好评估基准上,其表现优于许多更大参数量模型及最新生成型奖励模型;在知识密集型任务中展现出更强的客观正确性判断力;在Best-of-N任务、偏见抵抗测试、复杂指令理解以及真实性判断等高阶评估中均名列前茅,彰显出出色的实用价值和泛化能力。

高效数据筛选机制显著提升模型性能

高度可扩展的数据筛选流程是模型成功的关键之一。实验表明,仅使用1.8%的高质量数据训练8B级模型,即可超越当前70B级SOTA奖励模型的表现,充分验证了Skywork-SynPref数据集在质量和规模上的优势。

资源链接