苹果AI新招:端侧瘦身37.5%,云端PT-MoE架构成秘密武器

AI ToolBox
AI ToolBox
2025年7月22日

端侧模型双区块架构

苹果AI采用端侧与云端协同部署策略,其中端侧模型参数量约为30亿(3B)。

研究报告指出,该模型被划分为两个区块:第一部分包含约62.5%的transformer层,第二部分则包含剩余的37.5%,并去除了键(Key)和值(Value)的映射结构。

苹果强调,这一设计在不牺牲性能与输出质量的前提下,成功将缓存时的内存需求降低37.5%,同时将首个token生成时间缩短了同等比例。

云端创新 PT-MoE 架构

在云端模型方面,苹果开发了专为其私有云计算平台定制的架构------Parallel-Track Mixture-of-Experts(PT-MoE)

该架构基于混合专家理念,将大型模型拆分为多个子网络(专家),仅在相关任务触发时激活对应模块。例如,烹饪类输入仅激活"烹饪专家",其余模块保持休眠状态。

此外,苹果引入了Parallel Track Transformer机制,将tokens分配至多个并行轨道进行处理,并在特定节点同步结果,从而显著提升整体运算效率。

在每个轨道中,传统transformer层被替换为MoE层,每个token仅激活部分专家,其余处于闲置状态。结合全局与本地关注层的融合设计,最终实现高效且模块化的架构。

显著提升多语言支持能力

早期 Apple Intelligence 受到批评的原因之一,是其语言支持范围有限。随着新模型发布,苹果大幅拓展了多语言覆盖能力,并在报告中披露了实现路径。

数据显示,苹果将外语训练数据占比从8%提升至30%,同时扩大标记器容量50%,使其可识别150K个不同标记,相较此前的100K有显著提升。

数据收集与使用原则

关于训练数据来源,苹果强调其重视数据的多样性与质量,并明确表示不会抓取未获授权的出版商内容。

"我们相信,使用多样且高质量的数据来训练我们的模型是必要的。这些数据包括我们从出版商那里获得授权的数据、公开可用或开源数据集中的数据,以及通过我们的网络爬虫 Applebot 抓取的公开信息。"