智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

AI产品动态6个月前发布 AI视野

12月11日，智谱科技正式发布工业级文本转语音模型GLM-TTS，并同步在Hugging Face、ModelScope等平台开源模型权重。该系统凭借3秒极短样本音色克隆能力、10万小时低训练数据需求及单机4天预训练的高效表现，成为开源语音合成领域的新标杆。

技术突破方面，GLM-TTS采用两阶段生成架构与基于GRPO的强化学习方案，在公开评测中实现字错误率1.03%（强化学习优化后0.89%）和情感表达的双重SOTA表现。其核心创新在于将传统需数十分钟样本的音色克隆门槛降至3秒，同时通过专用MCP工具支持教育、客服等8类场景的定向优化。教育领域测试显示，该系统可准确处理”157!/83!+√924-58³”等复杂公式及”舴艋（zé měng）舟”等生僻词发音。

商业化应用上，GLM-TTS已接入智谱开放平台、智谱清言等产品线，在电子书多角色情感演绎、客服专业语调控制等场景完成验证。相比行业主流方案，其训练成本降低50%以上，预训练周期从周级压缩至4天，MOS评分却达到商用级水平。开发者现可通过开源协议获取模型，企业用户可按1元/百万tokens（输入）、3元/百万tokens（输出）的API价格调用服务。

该模型的发布标志着国产多模态大模型在工业落地能力上的进阶。结合12月8日开源的GLM-4.6V多模态大模型，智谱已构建从视觉理解到语音输出的完整技术链条，为智能体（Agent）应用提供统一底座。行业分析认为，这种开源策略将加速语音合成技术在教育信息化、智能客服等领域的普惠化应用。

文章版权归作者所有，未经允许请勿转载。

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

腾讯QQ双模式回归与AI群聊总结功能上线，经典怀旧与智能效率并行升级

我国首个全流程AI制药平台“AI孔明”正式发布，显著提升新药研发效率

相关文章

微软推出Teams频道智能助手Channel Agent，提升团队协作效率

虞书欣母亲AI检索事件引热议：艺人家庭背景与数字隐私的边界

Meta测试突破性AI功能：定制聊天机器人可主动发送后续消息

全球最大开源具身多模态大模型Pelican-VL 1.0正式发布，性能超越GPT-5达15.79%

最新资讯

热门AI工具

热门资讯