近日,豆包语音团队正式推出“AI多人有声剧”自动化方案,该技术实现了从小说文本到高质量多人有声剧成品的全流程AI生产。目前,首批应用该方案的作品已在番茄小说APP上线,标志着AI技术在有声内容领域的深度应用取得突破性进展。
该方案的核心在于多角色、高表现力的TTS(语音合成)演播系统与全自动AI后期链路的结合。通过高自然度的多角色智能朗读技术,配合AI自动添加音乐、音效及特效的后期处理能力,系统可完成包括角色划分(准确率超98%)、智能混音等复杂工序。以刑侦小说《遮云》的AI有声版本为例,听众可在一分钟内清晰辨识人物对白、旁白解说及脚步声、开门声等环境音效,其沉浸感已接近专业人工制作水准。
技术层面,语音大模型通过海量文本与语音的多模态预训练,实现了文本理解与语音演绎能力的深度融合。画本预测模型的创新应用,使得系统能根据小说内容自动生成包含音效、配乐等元素的制作脚本,并通过动态参数调整完成最终合成。这种端到端的生产方式将传统有声书制作周期缩短90%以上,成本降低约70%。
市场反馈显示,首批上线的AI有声剧在番茄小说平台获得用户积极评价,尤其在内容更新同步性方面表现突出。行业分析认为,该技术有望解决有声行业产能不足的痛点,未来或推动更多长尾文学作品实现有声化。豆包语音团队表示,将持续优化算法模型,拓展该方案在广播剧、教育内容等场景的应用边界。
© 版权声明
文章版权归作者所有,未经允许请勿转载。