阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，语音技术实现音色克隆与轻量化识别突破

AI产品动态5个月前发布 AI视野

阿里巴巴通义大模型团队于12月15日正式开源Fun-CosyVoice3-0.5B及轻量化Fun-ASR-Nano模型，标志着语音合成与识别技术取得重要突破。此次开源的Fun-CosyVoice3-0.5B具备业界领先的zero-shot音色克隆能力，用户仅需提供3秒以上的参考音频即可实现音色复刻与语音合成，同时支持本地部署与二次开发。该模型通过算法优化实现首包延迟降低50%，并支持双向流式合成，显著提升语音助手、直播配音等实时场景的交互体验。在语言兼容性方面，模型覆盖9种通用语言、18种中文方言及9种情感控制，其跨语种音色复刻功能可实现普通话录音生成粤语、日语等多语言语音输出，音色一致性接近人类水平。

同步推出的Fun-ASR-Nano模型采用轻量化设计，总参数量压缩至0.8亿，在降低推理成本的同时保持高精度识别能力。该模型针对复杂场景进行专项优化，中英混说词错误率较前代降低56.4%，可精准处理含专业术语、语码转换等复杂文本。测试数据显示，其在噪声环境下仍保持93%的识别准确率，并新增对音乐内容（如歌词转写、说唱节奏识别）的支持，为创意产业提供智能化工具。

两款模型均开放完整的技术文档与开发接口，开发者可通过GitHub获取预训练模型进行定制化微调。目前已有超过200家企业和研究机构参与测试，累计模型下载量突破5万次。此次开源将加速语音技术在无障碍阅读、实时翻译、智能客服等场景的规模化应用。

文章版权归作者所有，未经允许请勿转载。

阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，语音技术实现音色克隆与轻量化识别突破

Manus 1.6 Max发布：AI实现财务建模重大突破，自动处理复杂Excel任务

OpenAI Sora安卓版28天极速开发揭秘：AI生成85%代码，4人团队创效率奇迹

相关文章

谷歌发布Gemini 2.5 Flash-Lite模型：速度提升1.5倍，成本效益显著

腾讯元宝上线高考志愿咨询功能，为考生提供专属深度建议

X平台AI图片编辑功能上线24小时引争议：创作者集体抗议版权风险

腾讯混元发布Direct-Align与SRPO技术，AI绘画效率提升300%

最新资讯

热门AI工具

热门资讯