Character.AI 推出 TalkingMachines,让 AI 角色视频互动逼真如面对面
AI ToolBox
2025年7月5日
突破性模型让 AI 角色互动更自然
AI 聊天机器人平台 Character.AI 发布了名为 TalkingMachines 的自回归扩散模型研究,展示了一项能够显著增强 AI 角色互动真实感的技术突破。
输入图片和声音即可实现 FaceTime 式互动
目前该模型尚未上线主平台。根据研究论文与演示视频,用户仅需提供一张静态图像和一段音频,系统便可生成类似 FaceTime 的实时视觉对话效果。
核心技术:DiT 架构赋能实时生成
TalkingMachines 基于 Diffusion Transformer(DiT) 技术构建,这种模型如同一位"数字艺术家",能从噪声中逐步生成高质量图像,并持续优化直至输出清晰画面。Character.AI 此次的关键进展在于大幅提升了生成速度,实现了近乎即时的响应。
多项创新技术协同驱动自然表现
该模型融合了以下几项关键技术:
- 流匹配扩散:通过学习大量动作数据,包括面部表情变化与肢体语言,使 AI 表现更加自然;
- 音频驱动交叉注意力机制:不仅能识别语音内容,还能解析语调、节奏与停顿,进而精确控制口型、点头、眨眼等细节;
- 稀疏因果注意力:优化帧处理方式,提高计算效率;
- 不对称蒸馏:加速推理过程,支持实时视频生成,带来流畅如 FaceTime 的交互体验。
多样化风格支持拓宽应用场景
Character.AI 特别指出,TalkingMachines 不仅限于人类面部动画,还可适配动漫人物、3D 虚拟形象等多种风格,为未来互动式 AI 应用提供了广阔空间。