阶跃星辰发布开源语音大模型Step-Audio 2 mini，多模态架构革新语音交互

AI产品动态9个月前发布 AI视野

9月1日，国内大模型初创企业阶跃星辰正式发布开源端到端语音大模型 Step-Audio 2 mini，该模型采用创新的多模态架构设计，将语音理解、音频推理与生成统一建模，显著提升了人机语音交互的智能化水平。目前模型已在阶跃星辰开放平台、GitHub、Hugging Face等开源社区上线。

技术评测显示，Step-Audio 2 mini在多项国际基准测试中取得突破性进展。在通用多模态音频理解测试集MMAU上以73.2分位列开源模型榜首；在衡量口语对话能力的URO Bench测试中，基础与专业赛道均刷新开源模型最高分；中英互译任务方面，CoVoST 2和CVSS评测集得分分别达到39.3和29.1，显著领先同类产品。语音识别性能尤为突出，中文测试集平均字错误率（CER）低至3.19%，英语测试集词错误率（WER）为3.50%，较其他开源模型提升15%以上。

该模型突破传统ASR+LLM+TTS三级架构，实现原始音频到语音响应的端到端直接转换，时延降低的同时，具备精准解析语调、情绪等副语言信息的能力。通过引入思维链（CoT）推理与强化学习机制，模型可执行联网搜索等Tool Calling操作，有效解决传统语音AI知识储备不足的问题。

值得关注的是，Step-Audio 2 mini已与吉利、TCL等企业达成深度合作，其中搭载该模型的吉利银河M9车型成为行业首款量产落地的端到端语音大模型应用。阶跃星辰表示，此次开源是继Step-1o Audio后的重要技术迭代，今年已累计开源8款多模态模型，涵盖语音、3D等多个领域。

文章版权归作者所有，未经允许请勿转载。

阶跃星辰发布开源语音大模型Step-Audio 2 mini，多模态架构革新语音交互

苹果内部测试AI助手Asa：提升员工产品知识与销售技巧

腾讯混元再推四款轻量化开源模型，边缘计算与消费级硬件迎来AI普惠新突破

相关文章

我国研发出全球首款高分辨率触觉仿生机器人手F-TAC Hand

Grok-4大语言模型测试数据泄露，多项基准测试成绩超越主流模型

OpenAI发布GPT-5架构安全工具Aardvark，实现代码审查到修复全自动化

腾讯元器平台接入微信支付MCP，AI智能体商业化迈出关键一步

最新资讯

热门AI工具

热门资讯