近日,社交平台Soul旗下AI团队Soul AI Lab正式宣布开源其自主研发的播客语音合成模型SoulX-Podcast。该模型专为多人多轮对话场景设计,在语音合成技术领域实现多项突破性进展。
作为一款面向播客场景的语音生成模型,SoulX-Podcast支持中英文及四川话、粤语、河南话等多种方言的语音合成,并能稳定输出超过60分钟的自然流畅对话。其核心技术亮点在于采用LLM+Flow Matching的混合生成范式,以Qwen3-1.7B作为基座模型,继承其强大的语言理解能力,同时通过声学特征建模实现韵律的精准控制。
在实际应用中,该模型展现出三大核心优势:首先,具备零样本克隆能力,仅需少量参考语音即可高度还原说话者的音色风格,并可根据对话语境自动调节语速、停顿等韵律特征;其次,实现跨方言音色克隆的创新突破,仅需提供普通话样本即可生成带有方言特征的语音;第三,支持笑声、清嗓等副语言元素的可控生成,显著提升合成语音的临场感和表现力。
值得注意的是,SoulX-Podcast在超长对话场景中展现出卓越的稳定性。测试显示,模型可保持60分钟以上的音色一致性,在多角色对话中实现准确的角色切换,同时维持自然的韵律起伏。这一特性使其不仅适用于播客制作,在虚拟社交、有声内容创作等领域也具有广泛应用前景。
此次开源资源包含完整的Demo页面、技术报告、源代码及HuggingFace模型集合。Soul团队表示,此举旨在联合AIGC社区共同探索AI语音技术在内容创作与社交互动中的创新应用。此前,该平台已在语音社交领域持续布局,包括升级端到端全双工语音通话大模型,并在虚拟人社交场景中取得显著成效。
© 版权声明
文章版权归作者所有,未经允许请勿转载。