微软推出 Phi-4-mini-flash-reasoning 端侧 AI 模型

AI ToolBox
AI ToolBox
2025年7月11日

微软发布新一代端侧 AI 模型:Phi-4-mini-flash-reasoning

据科技媒体 NeoWin 报道,微软近日推出了 Phi-4-mini-flash-reasoning 小语言模型,重点强化了在数学和逻辑推理方面的表现,特别适用于资源受限的端侧设备。

图片

该模型能够在边缘设备、移动应用以及嵌入式系统中实现高级别的推理能力,为轻量级设备带来更强的智能支持。

在架构设计上,Phi-4-mini-flash-reasoning 引入了创新性的 SambaY 架构。其核心组件------Gated Memory Unit(GMU),实现了模型内部信息的高效共享,从而大幅提升整体运算效率。

这一改进使得模型不仅能在面对长文本或复杂输入时快速响应、稳定处理,还能胜任大规模数据的理解与分析任务。

性能飞跃:吞吐量提升 10 倍,延迟降低至 1/3

相较于其他 Phi 系列模型,Phi-4-mini-flash-reasoning 的性能表现尤为突出:

  • 最高达 10 倍的吞吐量提升,可在单位时间内处理更多请求或生成更大量级文本;
  • 延迟降至原有模型的 1/2 至 1/3,显著增强实时交互体验。

这些突破性提升为实际应用场景带来了实质性优化,尤其适合对响应速度与计算效率有高要求的项目部署。

多平台上线,即刻可用

目前,Phi-4-mini-flash-reasoning 已正式上线以下平台,开发者可立即接入使用:

  1. Azure AI Foundry
  2. NVIDIA API Catalog
  3. Hugging Face