Soul AI Lab开源播客语音合成模型SoulX-Podcast，支持多方言60分钟稳定对话

近日，社交平台Soul旗下AI团队Soul AI Lab正式宣布开源其自主研发的播客语音合成模型SoulX-Podcast。该模型专为多人多轮对话场景设计，在语音合成技术领域实现多项突破性进展。

作为一款面向播客场景的语音生成模型，SoulX-Podcast支持中英文及四川话、粤语、河南话等多种方言的语音合成，并能稳定输出超过60分钟的自然流畅对话。其核心技术亮点在于采用LLM+Flow Matching的混合生成范式，以Qwen3-1.7B作为基座模型，继承其强大的语言理解能力，同时通过声学特征建模实现韵律的精准控制。

在实际应用中，该模型展现出三大核心优势：首先，具备零样本克隆能力，仅需少量参考语音即可高度还原说话者的音色风格，并可根据对话语境自动调节语速、停顿等韵律特征；其次，实现跨方言音色克隆的创新突破，仅需提供普通话样本即可生成带有方言特征的语音；第三，支持笑声、清嗓等副语言元素的可控生成，显著提升合成语音的临场感和表现力。

值得注意的是，SoulX-Podcast在超长对话场景中展现出卓越的稳定性。测试显示，模型可保持60分钟以上的音色一致性，在多角色对话中实现准确的角色切换，同时维持自然的韵律起伏。这一特性使其不仅适用于播客制作，在虚拟社交、有声内容创作等领域也具有广泛应用前景。

此次开源资源包含完整的Demo页面、技术报告、源代码及HuggingFace模型集合。Soul团队表示，此举旨在联合AIGC社区共同探索AI语音技术在内容创作与社交互动中的创新应用。此前，该平台已在语音社交领域持续布局，包括升级端到端全双工语音通话大模型，并在虚拟人社交场景中取得显著成效。

文章版权归作者所有，未经允许请勿转载。

Soul AI Lab开源播客语音合成模型SoulX-Podcast，支持多方言60分钟稳定对话

英伟达发布Omniverse DSX Blueprint方案，打造吉瓦级AI数据中心标准化模板

Hugging Face发布LeRobot v0.4.0：机器人技术民主化的重要里程碑

相关文章

森马集团发布AI聚合力平台“大森3.0”，全业务场景智能化赋能正式落地

宇树科技发布数字孪生机器人运动控制专利，舞台表演准确率提升40%

Liquid AI发布轻量级Nanos系列模型，开启边缘AI新纪元

鸿蒙智行问界M9与智界“双7”车型将升级ADS 3.3和4.0

最新资讯

热门AI工具

热门资讯