MiniMax发布新一代语音生成模型Speech 2.5，实现多语种自然表达与音色复刻技术突破

AI产品动态10个月前发布 AI视野

2025年8月7日，上海AI大模型独角兽MiniMax正式发布新一代语音生成模型Speech 2.5，标志着其在多语种自然表达、音色复刻及语言覆盖范围三大核心领域实现技术突破。该模型为5月发布的Speech 02的迭代版本，目前已通过MiniMax开放平台及Audio官网向全球用户开放体验。

技术升级亮点
Speech 2.5将支持语言从32种扩展至40种，新增保加利亚语、丹麦语、希伯来语等8种语言。在多语种表现上，模型通过优化韵律生成算法，显著降低商务会议、播客等场景的机械感。实测显示，其生成的英文演讲音频能精准模拟母语者的语调停顿，例如美国女高中生广播场景中，系统不仅准确输出文本，还还原了口语化的气息转换与情感起伏。

音色复刻能力方面，模型可跨语种保持音色一致性，例如以英国女王音色生成英语内容后，切换至意大利语仍能保留原发音特征。技术报告指出，该系统仅需6秒音频即可完成音色克隆，字错率低至万分之五，在Artificial Arena盲测中超越OpenAI、Google等竞品。

行业应用落地
Speech 2.5已接入跨境客服、教育课件及短视频创作等领域。国内高途教育、喜马拉雅等平台通过集成该模型，将多语种配音制作周期缩短至10分钟。国际市场上，Vapi、Pipecat等AI服务平台也将其应用于智能对话场景。

用户现可通过输入文本或上传文件生成定制音频，并添加环境音效。MiniMax同步推出免费试用策略，商业用途需订阅付费服务。此次升级进一步巩固了其在生成式语音技术领域的领先地位，为全球AI语音平权提供技术支撑。

文章版权归作者所有，未经允许请勿转载。

MiniMax发布新一代语音生成模型Speech 2.5，实现多语种自然表达与音色复刻技术突破

马斯克宣布Grok Imagine视频生成功能免费开放，AI视频创作迎来新浪潮

阿里通义千问发布两款轻量化开源AI模型，推动端侧AI技术普及

相关文章

谷歌翻译iOS版引入AI翻译模型：快速与进阶双模式上线

飞猪AI问一问推出双11选品助手，AI导购+交易链路革新旅游购物体验

OpenAI Sora重大更新：视频编辑器+安卓版+社交功能即将上线

优必选Walker S2工业人形机器人：15公斤自主搬运引领智能制造新变革

最新资讯

热门AI工具

热门资讯