阶跃星辰发布开源语音大模型Step-Audio 2 mini,多模态架构革新语音交互

9月1日,国内大模型初创企业阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型采用创新的多模态架构设计,将语音理解、音频推理与生成统一建模,显著提升了人机语音交互的智能化水平。目前模型已在阶跃星辰开放平台、GitHub、Hugging Face等开源社区上线。

技术评测显示,Step-Audio 2 mini在多项国际基准测试中取得突破性进展。在通用多模态音频理解测试集MMAU上以73.2分位列开源模型榜首;在衡量口语对话能力的URO Bench测试中,基础与专业赛道均刷新开源模型最高分;中英互译任务方面,CoVoST 2和CVSS评测集得分分别达到39.3和29.1,显著领先同类产品。语音识别性能尤为突出,中文测试集平均字错误率(CER)低至3.19%,英语测试集词错误率(WER)为3.50%,较其他开源模型提升15%以上。

该模型突破传统ASR+LLM+TTS三级架构,实现原始音频到语音响应的端到端直接转换,时延降低的同时,具备精准解析语调、情绪等副语言信息的能力。通过引入思维链(CoT)推理与强化学习机制,模型可执行联网搜索等Tool Calling操作,有效解决传统语音AI知识储备不足的问题。

值得关注的是,Step-Audio 2 mini已与吉利、TCL等企业达成深度合作,其中搭载该模型的吉利银河M9车型成为行业首款量产落地的端到端语音大模型应用。阶跃星辰表示,此次开源是继Step-1o Audio后的重要技术迭代,今年已累计开源8款多模态模型,涵盖语音、3D等多个领域。

© 版权声明

相关文章