英伟达“黑科技”来袭!OpenReasoning-Nemotron让普通游戏电脑秒变AI推理高手

AI ToolBox
AI ToolBox
2025年7月21日

轻量化推理模型助力科研与开发

英伟达近日发布全新推理模型套件 OpenReasoning-Nemotron,包含四个基于 Qwen-2.5 微调的模型,参数规模分别为 1.5B、7B、14B 和 32B。这些模型均源自 6710 亿参数的 DeepSeek R1 0528 大模型,通过"蒸馏"技术实现轻量化,使普通游戏电脑也能运行高级推理任务,显著降低了 GPU 与云计算的使用成本。

图片

数据驱动提升推理能力

该模型的核心优势在于强大的数据支撑。英伟达借助 NeMo Skills 生成了 500 万个涵盖数学、科学与编程领域的解答数据集,并采用纯监督学习方式对模型进行微调。 测试结果显示,32B 模型在 AIME24 数学竞赛中获得 89.2 分,在 HMMT 2 月赛中得分为 73.8 分;即便最小的 1.5B 模型也分别取得了 55.5 和 31.5 的优异成绩,展现出出色的逻辑推理与问题解决能力。

面向科研开放,支持定制优化

OpenReasoning-Nemotron 被定位为科研探索的高效工具,所有模型的完整检查点将在 Hugging Face 平台开放下载,方便研究人员进行强化学习实验或针对特定任务进行定制优化。 此外,模型支持"GenSelect 模式",可为每个问题生成多个解答版本,并通过筛选最优解提升准确率。在此模式下,32B 模型在多项基准测试中已超越 OpenAI o3-high 的表现。

简化训练流程,便于后续研究

值得注意的是,此次训练全程未引入强化学习,仅采用监督微调方式,为社区提供了技术前沿且干净的起点,有利于后续相关研究的开展。 对于拥有高性能游戏 GPU 的玩家或个人开发者而言,OpenReasoning-Nemotron 让本地运行接近业界顶尖水平的推理模型成为可能。