AI领域迎来重大突破,李沐团队于本周正式开源语音大模型Higgs Audio V2。该模型基于1000万小时音频数据训练,在文本理解与语音生成任务中展现出接近人类的自然表现,其多语言对话生成、实时韵律调整等能力引发行业广泛关注。
技术层面,Higgs Audio V2采用统一音频分词器与DualFFN架构,通过每秒25帧的离散化处理平衡音频质量与压缩率。在EmergentTTS-Eval基准测试中,模型以75.7%的情感表达胜率和55.7%的问题理解胜率超越GPT-4o-mini-tts,同时在Seed-TTS Eval等传统测试中保持领先。值得注意的是,其自动化标注系统能实现零样本语音克隆,用户仅需5秒样本即可复刻特定音色,并支持同步生成背景音乐与旋律哼唱。
实际应用中,模型展现出三大核心能力:多说话人对话场景中,系统可自动匹配角色情绪能量水平,生成带有情感纹理的自然对话;长文本朗读时能根据语义动态调整语速与停顿,显著提升有声读物体验;低至200毫秒的响应延迟使其具备实时情感化交互能力,为虚拟主播等场景提供拟真对话体验。李沐在B站演示中呈现的”暴躁怪物-喋喋不休驴子-冷静公主”三人对话案例,生动展示了不同角色声线的精准控制。
目前该模型已开放源代码,开发者可应用于智能客服、陪伴机器人、多媒体内容创作等领域。行业分析认为,其开源策略将加速语音交互技术的普惠化进程,特别是在中文语音合成细分市场,模型对方言的高还原度与情感表达优势,有望重塑老年人数字服务等垂直场景的交互体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。