返回上一页

Character.AI 推出 TalkingMachines，让 AI 角色视频互动逼真如面对面

AI ToolBox

AI ToolBox

2025年7月5日

突破性模型让 AI 角色互动更自然

AI 聊天机器人平台 Character.AI 发布了名为 TalkingMachines 的自回归扩散模型研究，展示了一项能够显著增强 AI 角色互动真实感的技术突破。

输入图片和声音即可实现 FaceTime 式互动

目前该模型尚未上线主平台。根据研究论文与演示视频，用户仅需提供一张静态图像和一段音频，系统便可生成类似 FaceTime 的实时视觉对话效果。

核心技术：DiT 架构赋能实时生成

TalkingMachines 基于 Diffusion Transformer（DiT） 技术构建，这种模型如同一位"数字艺术家"，能从噪声中逐步生成高质量图像，并持续优化直至输出清晰画面。Character.AI 此次的关键进展在于大幅提升了生成速度，实现了近乎即时的响应。

多项创新技术协同驱动自然表现

该模型融合了以下几项关键技术：

流匹配扩散：通过学习大量动作数据，包括面部表情变化与肢体语言，使 AI 表现更加自然；
音频驱动交叉注意力机制：不仅能识别语音内容，还能解析语调、节奏与停顿，进而精确控制口型、点头、眨眼等细节；
稀疏因果注意力：优化帧处理方式，提高计算效率；
不对称蒸馏：加速推理过程，支持实时视频生成，带来流畅如 FaceTime 的交互体验。

多样化风格支持拓宽应用场景

Character.AI 特别指出，TalkingMachines 不仅限于人类面部动画，还可适配动漫人物、3D 虚拟形象等多种风格，为未来互动式 AI 应用提供了广阔空间。

相关资源链接