AI 在线工具 | 最新人工智能新闻与工具

传统分词技术的局限

在大语言模型（LLM）研究中，文本数据的分解始终是一个核心课题。传统方法如字节对编码（Byte Pair Encoding）通常在处理前将文本切分为固定单元，并建立静态词汇表。

尽管这一方式被广泛应用，但其弊端也显而易见。一旦完成分词，模型便难以再进行动态调整。尤其在处理低资源语言或特殊字符结构时，效果明显受限。

为克服上述难题，Meta 研究团队推出了 AU-Net ------ 一种基于自回归 U-Net 结构的创新架构。

与传统方法不同，AU-Net 能够直接从原始字节 开始学习，动态地将字节组合为单词、词组，甚至多达四个词的组合，构建出多层次文本表示。

AU-Net 的设计灵感源自医学图像分割领域的 U-Net 架构，包含收缩路径 与扩张路径两大核心模块。

在收缩路径中，AU-Net 分为三个阶段逐步抽象语义信息：

扩张路径采用多线性上采样策略，使每个位置的向量可根据相对位置进行调整，从而更高效地融合高层语义与局部特征。

同时，跳跃连接的设计有效保留了关键细节，显著提升模型的生成质量与预测精度。

在推理阶段，AU-Net 采用自回归生成机制，不仅确保输出文本的连贯与准确，还提升了整体推理效率。

这种创新性架构为未来大语言模型的发展提供了全新方向，展现出更强的灵活性与广泛适用性。