阿里巴巴通义实验室近日正式发布Qwen3-TTS文本转语音模型,该产品以49种高保真音色与多语言方言支持为核心竞争力,显著提升语音合成的自然度与场景适配能力。
技术特性方面,Qwen3-TTS采用自回归声学模型与韵律预测模块协同架构,能够解析文本标点符号及情感标签,实现语调升降、停顿节奏的智能化控制。在48kHz采样率下,其MOS(平均主观意见分)达4.53分,超越行业平均水平10%。多语言测试数据显示,中英文词错误率(WER)分别低至1.9%和2.8%,优于MiniMax、ElevenLabs等主流商用引擎。
音色体系设计覆盖全年龄段与多样化角色,包括活泼少女“茉兔”、睿智老者“沧明子”、方言大叔等特色声线,并支持中文普通话及粤语、闽南语、四川话等9种方言的真实口音还原。语言能力上,模型同步兼容英语、日语、西班牙语等10种国际语言,实现同一文本的多语种无缝切换。
目前该技术已应用于教育领域试点,上海120所中小学通过配套插件实现方言单词听写、课件自动朗读等功能。商业化层面,阿里云提供每月100万字符免费额度,付费阶梯定价为0.8元/万字符,同时开放SSML标记语言与实时流式合成接口。
据内部消息,2026年第一季度将上线音色克隆功能,用户可通过10秒音频样本生成个性化语音模型,进一步拓展虚拟偶像、有声书等场景的应用潜力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。