微软推出 Phi-4-mini-flash-reasoning 端侧 AI 模型
AI ToolBox
2025年7月11日
微软发布新一代端侧 AI 模型:Phi-4-mini-flash-reasoning
据科技媒体 NeoWin 报道,微软近日推出了 Phi-4-mini-flash-reasoning 小语言模型,重点强化了在数学和逻辑推理方面的表现,特别适用于资源受限的端侧设备。
该模型能够在边缘设备、移动应用以及嵌入式系统中实现高级别的推理能力,为轻量级设备带来更强的智能支持。
在架构设计上,Phi-4-mini-flash-reasoning 引入了创新性的 SambaY 架构。其核心组件------Gated Memory Unit(GMU),实现了模型内部信息的高效共享,从而大幅提升整体运算效率。
这一改进使得模型不仅能在面对长文本或复杂输入时快速响应、稳定处理,还能胜任大规模数据的理解与分析任务。
性能飞跃:吞吐量提升 10 倍,延迟降低至 1/3
相较于其他 Phi 系列模型,Phi-4-mini-flash-reasoning 的性能表现尤为突出:
- 最高达 10 倍的吞吐量提升,可在单位时间内处理更多请求或生成更大量级文本;
- 延迟降至原有模型的 1/2 至 1/3,显著增强实时交互体验。
这些突破性提升为实际应用场景带来了实质性优化,尤其适合对响应速度与计算效率有高要求的项目部署。
多平台上线,即刻可用
目前,Phi-4-mini-flash-reasoning 已正式上线以下平台,开发者可立即接入使用:
- Azure AI Foundry
- NVIDIA API Catalog
- Hugging Face