字节跳动放大招!Seed LiveInterpret 2.0 实现同传新突破,翻译延迟低至 2 秒
突破性模型问世,机器同传迈向新高度
字节跳动Seed团队正式发布其最新研究成果------Seed LiveInterpret2.0 端到端同声传译大模型。这一技术突破标志着机器同传迈入新阶段,其翻译准确率已逼近专业同传人员水平,响应延迟控制在仅3秒以内,同时支持实时声音复刻功能,以原说话者音色输出翻译语音,极大提升跨语言交流的自然度与流畅性。
挑战翻译巅峰,打造技术新标杆
同声传译长期被视为语言处理领域的高峰,要求在极短时间内完成边听边说的高难度语言转换。Seed LiveInterpret2.0不仅在中英同传质量上达到当前业界最佳水平(SOTA),更实现了极低延迟,为该领域树立了全新的技术标杆。
核心技术架构与功能亮点
该模型基于全双工端到端语音生成理解框架,支持中英互译,能够实时处理多人语音输入,像专业译员一样实现低延迟"边听边说"。此外,模型具备零样本声音复刻能力,无需预先采集语音样本,即可在实时对话中合成与原声高度相似的翻译语音,显著提升沟通沉浸感。
测试表现亮眼,展现强大适应力
在实际测试中,Seed LiveInterpret2.0展现卓越性能。面对40秒长段中文输入,模型能低延迟输出同音色英文翻译。更令人惊叹的是,它能快速学习并模仿各类语音特征,无论是《西游记》中的猪八戒,还是《红楼梦》里的林黛玉,即便从未"听过"这些角色的声音,也能通过实时交互即时演绎。
相较传统系统,优势显著
- 翻译准确率高:多人会议场景中英双向翻译准确率超70%,单人演讲场景超80%,接近专业人工同传水平。
- 延迟极低:采用全双工框架,翻译延迟最低仅2-3秒,较传统系统降低超60%。
- 声音复刻自然:支持零样本音色合成,实现语音输出的个性化与沉浸感。
- 智能节奏控制:可根据语音清晰度与复杂度动态调整输出节奏,确保翻译语音自然流畅。
专业评测验证实力
在基于RealSI数据集的人工评测中,Seed LiveInterpret2.0表现突出。在语音到文本任务中,其中英互译平均得分达74.8分 (满分100),领先第二名系统近58%。在语音到语音任务中,其得分66.3分,综合评估译文准确率、语音时延、语速、发音与流畅性等多项指标,远超同类系统,接近专业同传水平。
延迟控制精准,兼顾质量与时效
在语音到文本场景中,输出首字平均延迟仅2.21秒 ;语音到语音场景中为2.53秒,实现了翻译质量与响应速度的高效平衡。
相关资源
技术报告:https://arxiv.org/pdf/2507.17527 项目主页:https://seed.bytedance.com/seed_liveinterpret