阿里发布Qwen3-TTS语音模型升级版：音色克隆3秒完成，支持10种语言与动物声纹拟人化

AI产品动态5个月前发布 AI视野

阿里巴巴集团于2025年12月24日正式发布Qwen3-TTS语音模型家族的两款升级产品——音色创造模型Qwen3-TTS-VD（VoiceDesign）和音色克隆模型Qwen3-TTS-VC（VoiceClone）。此次升级在多项核心指标上超越国际主流模型，标志着中文语音合成技术进入全球第一梯队。

技术突破方面，音色克隆模型实现3秒极速样本采集，支持中、英、德、意、葡、西、日、韩、法、俄等10种语言的音色复刻，在MiniMax TTS多语言测试集中，其平均词错误率（WER）显著优于GPT-4o-Audio-Preview等竞品。更引人注目的是，该模型突破生物限制，可通过动物原始声纹生成拟人化语音，为影视配音、虚拟宠物等场景提供新可能。

音色创造模型则采用自然语言交互设计，用户通过描述声学特征、角色设定等参数即可生成定制音色。在InstructTTS-Eval权威评测中，其指令遵循能力超越GPT-4o-mini-tts达23%，角色扮演测试中情感表达一致性较Gemini-2.5-pro-preview-tts提升17%。

应用生态上，新模型已集成49种预设音色和8种方言模块，包括闽南语、粤语等地域特色发音。阿里云百炼平台同步上线Flash版本API，响应延迟控制在200毫秒内，可满足影视配音、有声读物等工业级需求。据内部测试，使用新模型制作15分钟的有声内容，工时较传统流程缩短90%。

市场分析指出，此次升级将加速语音合成技术在多媒体内容生产、智能客服等领域的渗透。值得注意的是，该技术已引发国际关注，此前瑞典以安全审查为由暂停Qwen系列模型运营的事件，也从侧面印证其技术影响力。目前阿里尚未公布商业化定价方案，但业界预测其API调用价格将保持开源生态的竞争力优势。

文章版权归作者所有，未经允许请勿转载。

阿里发布Qwen3-TTS语音模型升级版：音色克隆3秒完成，支持10种语言与动物声纹拟人化

OpenAI加速ChatGPT广告商业化：权重调整优先展示赞助内容，探索意图驱动新范式

字节跳动Seed Prover 1.5发布：刷新数学推理纪录，IMO金牌水平证明生成

相关文章

苹果秘密研发多模态AI模型Manzano，剑指OpenAI与谷歌图像编辑霸主地位

英伟达发布Omniverse DSX Blueprint方案，打造吉瓦级AI数据中心标准化模板

中国AI芯片自主化突破：阿里百度自研芯片实现大模型训练，国产算力生态迈入新阶段

夸克推出AI创作平台“造点”：一键生成图片视频，降低创作门槛

最新资讯

热门AI工具

热门资讯