智谱科技发布工业级文本转语音模型GLM-TTS:3秒音色克隆、10万小时低数据训练,开源语音合成新标杆

12月11日,智谱科技正式发布工业级文本转语音模型GLM-TTS,并同步在Hugging Face、ModelScope等平台开源模型权重。该系统凭借3秒极短样本音色克隆能力、10万小时低训练数据需求及单机4天预训练的高效表现,成为开源语音合成领域的新标杆。

技术突破方面,GLM-TTS采用两阶段生成架构与基于GRPO的强化学习方案,在公开评测中实现字错误率1.03%(强化学习优化后0.89%)和情感表达的双重SOTA表现。其核心创新在于将传统需数十分钟样本的音色克隆门槛降至3秒,同时通过专用MCP工具支持教育、客服等8类场景的定向优化。教育领域测试显示,该系统可准确处理”157!/83!+√924-58³”等复杂公式及”舴艋(zé měng)舟”等生僻词发音。

商业化应用上,GLM-TTS已接入智谱开放平台、智谱清言等产品线,在电子书多角色情感演绎、客服专业语调控制等场景完成验证。相比行业主流方案,其训练成本降低50%以上,预训练周期从周级压缩至4天,MOS评分却达到商用级水平。开发者现可通过开源协议获取模型,企业用户可按1元/百万tokens(输入)、3元/百万tokens(输出)的API价格调用服务。

该模型的发布标志着国产多模态大模型在工业落地能力上的进阶。结合12月8日开源的GLM-4.6V多模态大模型,智谱已构建从视觉理解到语音输出的完整技术链条,为智能体(Agent)应用提供统一底座。行业分析认为,这种开源策略将加速语音合成技术在教育信息化、智能客服等领域的普惠化应用。

© 版权声明

相关文章