Hugging Face SmolLM3:双模式推理,开启AI新篇章

AI ToolBox
AI ToolBox
2025年7月9日

glmos-code-explain

小巧而强大:SmolLM3引领小参数模型新高度

近日,全球知名 AI 开源平台 Hugging Face 正式推出了其最新语言模型 ------ SmolLM3。该模型虽仅有30亿参数,却在性能上显著优于 Llama-3.2-3B 和 Qwen2.5-3B 等同类开源模型。

SmolLM3 不仅支持高达128k的上下文窗口,还具备流畅处理英语、法语、西班牙语、德语等多种语言的能力,展现了小参数模型在多语言理解上的巨大潜力。

多种推理模式,灵活适配各类任务

SmolLM3 提供了深度思考与非思考两种推理模式,用户可根据实际需求自由切换。这种创新设计使模型在面对复杂问题时能更高效地调动推理能力,尤其适用于需深入分析的应用场景。

全面开源,推动技术共创

Hugging Face 将 SmolLM3 的架构细节、数据混合策略及训练流程全部公开。这一开放举措将极大促进开发者对模型的理解与优化,助力开源 AI 生态持续繁荣。

图片

先进架构,夯实模型基础

SmolLM3 延续并优化了 SmolLM2 的 transformer 解码器架构,并借鉴 Llama 模型进行关键改进,进一步提升了效率与长文本处理表现。通过采用分组查询注意力机制和文档内掩码技术,确保了长上下文训练的稳定性和效果。

该模型拥有 3.08B 参数,包含 36 层网络结构,使用 AdamW 优化器,经过长达 24 天的分布式训练,最终构建出性能优异的小型语言模型。

三阶段混合训练,全面提升能力

SmolLM3 的训练过程分为三个阶段:

  1. 第一阶段:利用网络、数学与代码等多源数据建立通用理解能力;
  2. 第二阶段:引入更高品质的数学与代码数据强化专业技能;
  3. 第三阶段:加大数学与代码数据采样比例,显著提升推理与指令执行能力。

随着 SmolLM3 的正式发布,Hugging Face 再次巩固了其在人工智能领域的前沿地位。该模型凭借出色的推理能力和高效的运行表现,为开发者提供了广泛的应用空间。未来,在开源社区的共同努力下,SmolLM3 有望在更多领域展现其价值。