阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型,语音技术实现音色克隆与轻量化识别突破

AI产品动态8小时前发布 AI视野

阿里巴巴通义大模型团队于12月15日正式开源Fun-CosyVoice3-0.5B及轻量化Fun-ASR-Nano模型,标志着语音合成与识别技术取得重要突破。此次开源的Fun-CosyVoice3-0.5B具备业界领先的zero-shot音色克隆能力,用户仅需提供3秒以上的参考音频即可实现音色复刻与语音合成,同时支持本地部署与二次开发。该模型通过算法优化实现首包延迟降低50%,并支持双向流式合成,显著提升语音助手、直播配音等实时场景的交互体验。在语言兼容性方面,模型覆盖9种通用语言、18种中文方言及9种情感控制,其跨语种音色复刻功能可实现普通话录音生成粤语、日语等多语言语音输出,音色一致性接近人类水平。

同步推出的Fun-ASR-Nano模型采用轻量化设计,总参数量压缩至0.8亿,在降低推理成本的同时保持高精度识别能力。该模型针对复杂场景进行专项优化,中英混说词错误率较前代降低56.4%,可精准处理含专业术语、语码转换等复杂文本。测试数据显示,其在噪声环境下仍保持93%的识别准确率,并新增对音乐内容(如歌词转写、说唱节奏识别)的支持,为创意产业提供智能化工具。

两款模型均开放完整的技术文档与开发接口,开发者可通过GitHub获取预训练模型进行定制化微调。目前已有超过200家企业和研究机构参与测试,累计模型下载量突破5万次。此次开源将加速语音技术在无障碍阅读、实时翻译、智能客服等场景的规模化应用。

© 版权声明

相关文章