Hugging Face SmolLM3:双模式推理,开启AI新篇章
AI ToolBox
2025年7月9日
glmos-code-explain
小巧而强大:SmolLM3引领小参数模型新高度
近日,全球知名 AI 开源平台 Hugging Face 正式推出了其最新语言模型 ------ SmolLM3。该模型虽仅有30亿参数,却在性能上显著优于 Llama-3.2-3B 和 Qwen2.5-3B 等同类开源模型。
SmolLM3 不仅支持高达128k的上下文窗口,还具备流畅处理英语、法语、西班牙语、德语等多种语言的能力,展现了小参数模型在多语言理解上的巨大潜力。
多种推理模式,灵活适配各类任务
SmolLM3 提供了深度思考与非思考两种推理模式,用户可根据实际需求自由切换。这种创新设计使模型在面对复杂问题时能更高效地调动推理能力,尤其适用于需深入分析的应用场景。
全面开源,推动技术共创
Hugging Face 将 SmolLM3 的架构细节、数据混合策略及训练流程全部公开。这一开放举措将极大促进开发者对模型的理解与优化,助力开源 AI 生态持续繁荣。
先进架构,夯实模型基础
SmolLM3 延续并优化了 SmolLM2 的 transformer 解码器架构,并借鉴 Llama 模型进行关键改进,进一步提升了效率与长文本处理表现。通过采用分组查询注意力机制和文档内掩码技术,确保了长上下文训练的稳定性和效果。
该模型拥有 3.08B 参数,包含 36 层网络结构,使用 AdamW 优化器,经过长达 24 天的分布式训练,最终构建出性能优异的小型语言模型。
三阶段混合训练,全面提升能力
SmolLM3 的训练过程分为三个阶段:
- 第一阶段:利用网络、数学与代码等多源数据建立通用理解能力;
- 第二阶段:引入更高品质的数学与代码数据强化专业技能;
- 第三阶段:加大数学与代码数据采样比例,显著提升推理与指令执行能力。
随着 SmolLM3 的正式发布,Hugging Face 再次巩固了其在人工智能领域的前沿地位。该模型凭借出色的推理能力和高效的运行表现,为开发者提供了广泛的应用空间。未来,在开源社区的共同努力下,SmolLM3 有望在更多领域展现其价值。