阿里巴巴集团于2025年12月24日正式发布Qwen3-TTS语音模型家族的两款升级产品——音色创造模型Qwen3-TTS-VD(VoiceDesign)和音色克隆模型Qwen3-TTS-VC(VoiceClone)。此次升级在多项核心指标上超越国际主流模型,标志着中文语音合成技术进入全球第一梯队。
技术突破方面,音色克隆模型实现3秒极速样本采集,支持中、英、德、意、葡、西、日、韩、法、俄等10种语言的音色复刻,在MiniMax TTS多语言测试集中,其平均词错误率(WER)显著优于GPT-4o-Audio-Preview等竞品。更引人注目的是,该模型突破生物限制,可通过动物原始声纹生成拟人化语音,为影视配音、虚拟宠物等场景提供新可能。
音色创造模型则采用自然语言交互设计,用户通过描述声学特征、角色设定等参数即可生成定制音色。在InstructTTS-Eval权威评测中,其指令遵循能力超越GPT-4o-mini-tts达23%,角色扮演测试中情感表达一致性较Gemini-2.5-pro-preview-tts提升17%。
应用生态上,新模型已集成49种预设音色和8种方言模块,包括闽南语、粤语等地域特色发音。阿里云百炼平台同步上线Flash版本API,响应延迟控制在200毫秒内,可满足影视配音、有声读物等工业级需求。据内部测试,使用新模型制作15分钟的有声内容,工时较传统流程缩短90%。
市场分析指出,此次升级将加速语音合成技术在多媒体内容生产、智能客服等领域的渗透。值得注意的是,该技术已引发国际关注,此前瑞典以安全审查为由暂停Qwen系列模型运营的事件,也从侧面印证其技术影响力。目前阿里尚未公布商业化定价方案,但业界预测其API调用价格将保持开源生态的竞争力优势。
© 版权声明
文章版权归作者所有,未经允许请勿转载。