豆包语音推出AI多人有声剧自动化方案，文本到成品全流程AI生产

近日，豆包语音团队正式推出“AI多人有声剧”自动化方案，该技术实现了从小说文本到高质量多人有声剧成品的全流程AI生产。目前，首批应用该方案的作品已在番茄小说APP上线，标志着AI技术在有声内容领域的深度应用取得突破性进展。

该方案的核心在于多角色、高表现力的TTS（语音合成）演播系统与全自动AI后期链路的结合。通过高自然度的多角色智能朗读技术，配合AI自动添加音乐、音效及特效的后期处理能力，系统可完成包括角色划分（准确率超98%）、智能混音等复杂工序。以刑侦小说《遮云》的AI有声版本为例，听众可在一分钟内清晰辨识人物对白、旁白解说及脚步声、开门声等环境音效，其沉浸感已接近专业人工制作水准。

技术层面，语音大模型通过海量文本与语音的多模态预训练，实现了文本理解与语音演绎能力的深度融合。画本预测模型的创新应用，使得系统能根据小说内容自动生成包含音效、配乐等元素的制作脚本，并通过动态参数调整完成最终合成。这种端到端的生产方式将传统有声书制作周期缩短90%以上，成本降低约70%。

市场反馈显示，首批上线的AI有声剧在番茄小说平台获得用户积极评价，尤其在内容更新同步性方面表现突出。行业分析认为，该技术有望解决有声行业产能不足的痛点，未来或推动更多长尾文学作品实现有声化。豆包语音团队表示，将持续优化算法模型，拓展该方案在广播剧、教育内容等场景的应用边界。

文章版权归作者所有，未经允许请勿转载。

豆包语音推出AI多人有声剧自动化方案，文本到成品全流程AI生产

马斯克正式推出AI百科全书Grokipedia，挑战维基百科地位

Tahoe Bio发布30亿参数AI模型Tx1：癌症研究迎来生命系统建模新纪元

相关文章

智谱AI推出免费“AI Slides”功能，自动生成动态PPT颠覆传统办公

InstaDeep推出生物多模态对话智能体ChatNT，革新生物学研究范式

谷歌Gemini AI重大更新：图像生成、API开放与隐私控制全面升级

AI突破！妙佑医疗国际StateViewer工具单次扫描识别9种痴呆症

最新资讯

热门AI工具

热门资讯