李沐团队开源语音大模型Higgs Audio V2：多语言对话生成与零样本克隆技术解析

AI领域迎来重大突破，李沐团队于本周正式开源语音大模型Higgs Audio V2。该模型基于1000万小时音频数据训练，在文本理解与语音生成任务中展现出接近人类的自然表现，其多语言对话生成、实时韵律调整等能力引发行业广泛关注。

技术层面，Higgs Audio V2采用统一音频分词器与DualFFN架构，通过每秒25帧的离散化处理平衡音频质量与压缩率。在EmergentTTS-Eval基准测试中，模型以75.7%的情感表达胜率和55.7%的问题理解胜率超越GPT-4o-mini-tts，同时在Seed-TTS Eval等传统测试中保持领先。值得注意的是，其自动化标注系统能实现零样本语音克隆，用户仅需5秒样本即可复刻特定音色，并支持同步生成背景音乐与旋律哼唱。

实际应用中，模型展现出三大核心能力：多说话人对话场景中，系统可自动匹配角色情绪能量水平，生成带有情感纹理的自然对话；长文本朗读时能根据语义动态调整语速与停顿，显著提升有声读物体验；低至200毫秒的响应延迟使其具备实时情感化交互能力，为虚拟主播等场景提供拟真对话体验。李沐在B站演示中呈现的”暴躁怪物-喋喋不休驴子-冷静公主”三人对话案例，生动展示了不同角色声线的精准控制。

目前该模型已开放源代码，开发者可应用于智能客服、陪伴机器人、多媒体内容创作等领域。行业分析认为，其开源策略将加速语音交互技术的普惠化进程，特别是在中文语音合成细分市场，模型对方言的高还原度与情感表达优势，有望重塑老年人数字服务等垂直场景的交互体验。

文章版权归作者所有，未经允许请勿转载。

李沐团队开源语音大模型Higgs Audio V2：多语言对话生成与零样本克隆技术解析

深开鸿启动M-Robots开源项目，打造基于开源鸿蒙的统一机器人操作系统

全球首个罕见病推理型智能体诊断系统DeepRare发布，AI助力解决罕见病诊断难题

相关文章

OpenAI官宣GPT-6开发：记忆功能重构人机交互，用户可定制专属AI伙伴

谷歌Chrome浏览器全面开放Gemini AI功能，支持跨页操作与诈骗防护

腾讯推出大模型训练库WeChat-YATT，多模态训练效率提升15%

微软Copilot推出虚拟形象功能Copilot Appearance，AI助手交互体验全面升级

最新资讯

热门AI工具

热门资讯