火山引擎发布豆包语音识别模型2.0：多模态视觉与多语种支持实现技术突破

AI产品动态6个月前发布 AI视野

火山引擎于12月5日正式推出豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），标志着语音识别技术在多语种支持与复杂场景应用上取得突破性进展。该版本基于Seed混合专家大语言模型架构构建，在延续1.0版本20亿参数音频编码器优势的同时，通过三大核心升级重构技术边界。

在推理能力方面，模型采用PPO强化学习方案实现动态泛化推理，上下文关键词召回率提升20%。典型场景测试显示，当用户讨论历史人物苏辙贬谪地”筠州”时，模型能结合”苏轼、苏辙”的对话背景，准确区分同音的”云州”“郓州”等地名，显著提升专有名词、多音字的识别精度。这种脱离历史词汇依赖的深度推理能力，使其在实时交互场景中表现更为可靠。

技术创新点在于首次引入多模态视觉识别能力。模型突破传统语音识别局限，通过解析单图或多图视觉信息辅助文本识别。实测表明，当用户描述含有”滑鸡”（玩滑板的鸡）的图片时，传统模型易误判为”滑稽”，而2.0版本能结合图像内容实现精准判断。该功能在搜拍描述、图像创作等场景中展现出独特优势。

语言支持方面，新增日语、韩语、德语、法语等13种海外语种精准识别能力，结合Function Call策略优化跨语言处理效果。技术团队透露，模型在混合语言场景下的识别准确率已达行业领先水平。

目前该模型已上线火山方舟体验中心并开放API服务，可广泛应用于跨国会议、多语言内容生产、智能交互等场景。此次升级被视为火山引擎在”AI+多模态”领域的重要布局，其技术路线或将重塑语音识别行业标准。

文章版权归作者所有，未经允许请勿转载。

火山引擎发布豆包语音识别模型2.0：多模态视觉与多语种支持实现技术突破

腾讯发布混元语言模型HY 2.0：4060亿参数MoE架构，支持256K上下文，领跑国产大模型

谷歌Gemini 3深度思考模式正式开放：性能全面超越Pro版，AI推理能力再突破

相关文章

百度萝卜快跑与Lyft达成战略合作，2026年进军欧洲无人驾驶市场

科大讯飞发布星火X1.5大模型：国产AI实现重大突破，数学能力超越GPT-5

苹果发布UniGen 1.5多模态AI模型：统一架构实现图像理解、生成与编辑一体化

谷歌推出无代码AI工具Opal：自然语言开发网页应用，准确率达87%

最新资讯

热门AI工具

热门资讯