MiniMax发布新一代语音生成模型Speech 2.5,实现多语种自然表达与音色复刻技术突破

2025年8月7日,上海AI大模型独角兽MiniMax正式发布新一代语音生成模型Speech 2.5,标志着其在多语种自然表达、音色复刻及语言覆盖范围三大核心领域实现技术突破。该模型为5月发布的Speech 02的迭代版本,目前已通过MiniMax开放平台及Audio官网向全球用户开放体验。

技术升级亮点
Speech 2.5将支持语言从32种扩展至40种,新增保加利亚语、丹麦语、希伯来语等8种语言。在多语种表现上,模型通过优化韵律生成算法,显著降低商务会议、播客等场景的机械感。实测显示,其生成的英文演讲音频能精准模拟母语者的语调停顿,例如美国女高中生广播场景中,系统不仅准确输出文本,还还原了口语化的气息转换与情感起伏。

音色复刻能力方面,模型可跨语种保持音色一致性,例如以英国女王音色生成英语内容后,切换至意大利语仍能保留原发音特征。技术报告指出,该系统仅需6秒音频即可完成音色克隆,字错率低至万分之五,在Artificial Arena盲测中超越OpenAI、Google等竞品。

行业应用落地
Speech 2.5已接入跨境客服、教育课件及短视频创作等领域。国内高途教育、喜马拉雅等平台通过集成该模型,将多语种配音制作周期缩短至10分钟。国际市场上,Vapi、Pipecat等AI服务平台也将其应用于智能对话场景。

用户现可通过输入文本或上传文件生成定制音频,并添加环境音效。MiniMax同步推出免费试用策略,商业用途需订阅付费服务。此次升级进一步巩固了其在生成式语音技术领域的领先地位,为全球AI语音平权提供技术支撑。

© 版权声明

相关文章