字节跳动Seed团队于7月24日正式发布端到端同声传译模型Seed LiveInterpret 2.0,标志着AI同声传译技术取得突破性进展。该模型基于全双工语音生成与理解框架,首次实现“语音到语音”的直接转换,支持中英双向实时互译,延迟低至2-3秒,翻译准确率接近专业人类同传水平。
技术突破方面,Seed LiveInterpret 2.0采用端到端架构,摒弃传统级联式系统的ASR+MT流程,通过强化学习双奖励机制优化语义一致性与逻辑连贯性。测试数据显示,其长文本中译英延迟降至2.37秒,翻译质量得分提升至79.53。模型具备三大核心能力:一是实时声音复刻功能,无需预训练即可克隆说话人音色;二是自适应节奏控制,动态调节语速与停顿;三是多语音流并行处理,适用于会议等复杂场景。
性能表现上,该模型在多人会议场景中英互译准确率超70%,单人演讲场景达80%以上(人类同传平均为85%-90%)。音色复刻的语音译文有效信息比例达64.7-67.8分,首句输出延迟仅2.53秒,较传统系统效率提升60%。实际测试中,面对40秒连续语句可实现无卡顿翻译,并保持音色一致性。
目前该技术已通过火山引擎平台开放,首款集成该模型的Ola Friend智能耳机预计8月底上市。但需注意,现有版本仍存在语言支持单一(仅中英)、情感传递局限(语气还原度约60%)及硬件依赖性强等不足。团队表示,多语种扩展与情感仿生技术将成为下一阶段研发重点。
© 版权声明
文章版权归作者所有,未经允许请勿转载。