哔哩哔哩(B站)Index团队于2025年9月8日正式开源其自主研发的IndexTTS-2.0系统,标志着零样本文本转语音(TTS)技术在工业级应用中取得重大突破。该系统以情感可控、时长可调为核心特性,通过两项关键技术革新解决了传统语音合成的行业痛点。
在技术架构上,IndexTTS-2.0首次在自回归TTS模型中引入时间编码机制,实现了语音时长的毫秒级精确控制。这一创新特别适用于视频配音等需要严格音画同步的场景,解决了传统逐token生成模型节奏不稳定的问题。同时,系统采用音色与情感解耦建模技术,支持通过文本描述、情感向量或独立音频参考等多种方式调节语音情感强度,使得单一音色样本可生成不同情绪层级的语音输出。
性能测试显示,经过数万小时数据训练的IndexTTS-2.0在多项基准测试中超越XTTS、CosyVoice2等主流TTS系统。其特色功能包括:通过标点符号精准控制语句停顿,采用BigVGAN2优化音频质量,以及支持中英混合文本的发音校正。在《甄嬛传》华妃台词等复杂情感表达的测试案例中,系统成功复现了原声的细微情感特征。
该系统已开放完整的开源生态,包括GitHub代码库、预训练模型权重及技术文档。开发者可通过魔搭社区或Hugging Face获取资源,在线演示平台支持实时调节语速、情感强度等参数。应用场景覆盖AI配音、有声读物制作、跨语言视频本地化等领域,显著降低了高质量语音合成的技术门槛。据实测,本地部署环境下24GB显存显卡即可流畅运行,大幅降低了传统配音制作的时间与经济成本。
Index团队表示,将持续优化模型性能并与开发者社区共建语音技术生态。此次开源被视为推动AIGC技术在全球内容创作领域落地的重要举措,为多语种文化交流提供了底层技术支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。