AI 在线工具 | 最新人工智能新闻与工具

创新训练方法提升小模型推理能力

字节跳动Seed团队联合香港大学与复旦大学推出全新强化学习训练方法------POLARIS。该方法通过精心设计的Scaling RL策略，显著增强了小模型在数学推理方面的表现。

实验数据显示，在AIME25和AIME24测试中，采用POLARIS训练的Qwen3-4B模型分别取得了79.4% 和**81.2%**的准确率，表现出色，甚至优于部分闭源的大规模模型。

POLARIS-4B模型具备良好的轻量化特性，能够在消费级显卡上顺利运行，极大降低了实际应用门槛。

研究团队围绕待训练模型定制了训练数据和超参数配置，以有效增强其推理能力：

POLARIS通过精确控制采样温度，在模型性能与生成路径多样性之间实现了良好平衡：

为解决长文本处理难题，POLARIS引入长度外推技术：

POLARIS采用渐进式训练方式：

目前，POLARIS的完整训练方法、数据集、代码及实验模型均已公开发布。

研究团队在多个主流推理评测集上进行了验证，结果显示，无论是不同规模还是不同架构的模型，在采用POLARIS训练后均有明显提升。