AI 在线工具 | 最新人工智能新闻与工具

glmos-code-explain

小巧而强大：SmolLM3引领小参数模型新高度

近日，全球知名 AI 开源平台 Hugging Face 正式推出了其最新语言模型 ------ SmolLM3。该模型虽仅有30亿参数，却在性能上显著优于 Llama-3.2-3B 和 Qwen2.5-3B 等同类开源模型。

SmolLM3 不仅支持高达128k的上下文窗口，还具备流畅处理英语、法语、西班牙语、德语等多种语言的能力，展现了小参数模型在多语言理解上的巨大潜力。

SmolLM3 提供了深度思考与非思考两种推理模式，用户可根据实际需求自由切换。这种创新设计使模型在面对复杂问题时能更高效地调动推理能力，尤其适用于需深入分析的应用场景。

Hugging Face 将 SmolLM3 的架构细节、数据混合策略及训练流程全部公开。这一开放举措将极大促进开发者对模型的理解与优化，助力开源 AI 生态持续繁荣。

SmolLM3 延续并优化了 SmolLM2 的 transformer 解码器架构，并借鉴 Llama 模型进行关键改进，进一步提升了效率与长文本处理表现。通过采用分组查询注意力机制和文档内掩码技术，确保了长上下文训练的稳定性和效果。

该模型拥有 3.08B 参数，包含 36 层网络结构，使用 AdamW 优化器，经过长达 24 天的分布式训练，最终构建出性能优异的小型语言模型。

SmolLM3 的训练过程分为三个阶段：

随着 SmolLM3 的正式发布，Hugging Face 再次巩固了其在人工智能领域的前沿地位。该模型凭借出色的推理能力和高效的运行表现，为开发者提供了广泛的应用空间。未来，在开源社区的共同努力下，SmolLM3 有望在更多领域展现其价值。