智谱科技发布工业级文本转语音模型GLM-TTS:3秒音色克隆、10万小时低数据训练,开源语音合成新标杆 智谱科技发布开源工业级文本转语音模型GLM-TTS,实现3秒音色克隆、10万小时低数据训练需求,字错误率低至0.89%。模型已应用于教育、客服等场景,训练成本降低50%以上,助力语音合成技术普惠化。 AI产品动态# AI技术# GLM-TTS# 多模态大模型 2个月前
阿里发布Qwen3-TTS语音模型升级版:音色克隆3秒完成,支持10种语言与动物声纹拟人化 阿里巴巴发布Qwen3-TTS-VD/VC语音模型升级版,实现3秒极速音色克隆、支持10种语言及动物声纹拟人化,在WER指标上超越GPT-4o等国际模型。集成49种音色与8种方言,提供200毫秒低延迟... AI产品动态# AI应用# AI语音技术# Qwen3-TTS 1个月前
阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型,语音技术实现音色克隆与轻量化识别突破 阿里巴巴通义大模型团队开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型,实现3秒音色克隆、多语言情感控制及轻量化高精度识别,降低延迟50%,支持实时场景与创意产业应用,加速语音... AI产品动态# AI开源# Fun-ASR-Nano# Fun-CosyVoice 2个月前
通义大模型开源语音AI双升级:Fun-CosyVoice3实现3秒音色克隆,Fun-ASR嘈杂环境识别率达93% 通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%,支持多语言方言与情感控制,其... AI产品动态# AI工具# Fun-ASR# Fun-CosyVoice3 2个月前