火山引擎于12月5日正式推出豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),标志着语音识别技术在多语种支持与复杂场景应用上取得突破性进展。该版本基于Seed混合专家大语言模型架构构建,在延续1.0版本20亿参数音频编码器优势的同时,通过三大核心升级重构技术边界。
在推理能力方面,模型采用PPO强化学习方案实现动态泛化推理,上下文关键词召回率提升20%。典型场景测试显示,当用户讨论历史人物苏辙贬谪地”筠州”时,模型能结合”苏轼、苏辙”的对话背景,准确区分同音的”云州”“郓州”等地名,显著提升专有名词、多音字的识别精度。这种脱离历史词汇依赖的深度推理能力,使其在实时交互场景中表现更为可靠。
技术创新点在于首次引入多模态视觉识别能力。模型突破传统语音识别局限,通过解析单图或多图视觉信息辅助文本识别。实测表明,当用户描述含有”滑鸡”(玩滑板的鸡)的图片时,传统模型易误判为”滑稽”,而2.0版本能结合图像内容实现精准判断。该功能在搜拍描述、图像创作等场景中展现出独特优势。
语言支持方面,新增日语、韩语、德语、法语等13种海外语种精准识别能力,结合Function Call策略优化跨语言处理效果。技术团队透露,模型在混合语言场景下的识别准确率已达行业领先水平。
目前该模型已上线火山方舟体验中心并开放API服务,可广泛应用于跨国会议、多语言内容生产、智能交互等场景。此次升级被视为火山引擎在”AI+多模态”领域的重要布局,其技术路线或将重塑语音识别行业标准。
© 版权声明
文章版权归作者所有,未经允许请勿转载。