700 步 RL 炼金术!字节跳动 POLARIS 让 4B 小模型数学吊打 Claude-4-Opus

AI ToolBox
AI ToolBox
2025年7月16日

创新训练方法提升小模型推理能力

字节跳动Seed团队联合香港大学与复旦大学推出全新强化学习训练方法------POLARIS。该方法通过精心设计的Scaling RL策略,显著增强了小模型在数学推理方面的表现。

实验数据显示,在AIME25和AIME24测试中,采用POLARIS训练的Qwen3-4B模型分别取得了79.4% 和**81.2%**的准确率,表现出色,甚至优于部分闭源的大规模模型。

图片

轻量化设计实现高效部署

POLARIS-4B模型具备良好的轻量化特性,能够在消费级显卡上顺利运行,极大降低了实际应用门槛。

核心训练策略解析

研究团队围绕待训练模型定制了训练数据和超参数配置,以有效增强其推理能力:

  • 动态调整训练数据难度分布,构建略微偏向难题的数据集,避免样本难度过于集中;
  • 引入数据动态更新机制,根据模型表现实时剔除简单样本,确保训练有效性。

采样控制优化多样性

POLARIS通过精确控制采样温度,在模型性能与生成路径多样性之间实现了良好平衡:

  • 过高的采样温度可能引发不稳定输出,而过低则限制多样性;
  • 团队提出"探索区"温度初始化方案,并在训练过程中动态调整,维持内容生成质量。

应对长上下文挑战

为解决长文本处理难题,POLARIS引入长度外推技术:

  • 通过对位置编码RoPE进行调整,使模型能处理超出训练时所见长度的序列;
  • 这一改进显著提升了模型在长文本任务中的适应能力和表现。

多阶段RL训练策略

POLARIS采用渐进式训练方式:

  • 初期使用较短的上下文窗口进行训练;
  • 待模型表现趋于稳定后逐步增加窗口长度;
  • 有助于模型逐步适应复杂推理任务,提高训练稳定性与最终效果。

开源成果与广泛应用验证

目前,POLARIS的完整训练方法、数据集、代码及实验模型均已公开发布。

研究团队在多个主流推理评测集上进行了验证,结果显示,无论是不同规模还是不同架构的模型,在采用POLARIS训练后均有明显提升。

项目地址

Github 主页:https://github.com/ChenxinAn-fdu/POLARIS

Hugging Face 主页:https://huggingface.co/POLARIS-Project