小红书发布FireRedTTS-2:新一代多语言对话合成模型,实现零样本声音克隆与实时流式生成

AI产品动态12小时前发布 AI视野

小红书智创音频技术团队近日发布新一代对话合成模型FireRedTTS-2,该模型针对现有语音合成技术在灵活性、发音准确性、说话人切换及韵律自然度等方面的痛点进行了全面优化。通过升级离散语音编码器与文本语音合成模型,FireRedTTS-2在多说话人对话合成领域达到行业领先水平。

技术层面,FireRedTTS-2采用12.5Hz流式语音分词器,显著提升了长对话处理的稳定性,同时支持实时流式解码。其双Transformer架构结合文本-语音交错输入格式,实现了逐句生成功能,首包延迟在L20 GPU上可低至140毫秒。模型支持长达3分钟、4位说话人的多语言对话生成,并具备跨语言零样本声音克隆能力。

在应用表现上,FireRedTTS-2的播客生成自然度可与闭源商业产品媲美,56%的测例显示其自然度达到或超过真实录音水平。特别值得注意的是,该模型仅需单句语音样本即可克隆说话人音色与习惯,在多说话人音色切换稳定性和韵律自然度方面优于主流开源方案。

目前,FireRedTTS-2已开源全部代码,支持中、英、日、韩、法等多语言处理,并提供随机音色生成功能,为语音识别和交互数据构建提供了高效工具。技术团队表示将持续优化模型性能,未来计划扩展支持的说话人数量和语种范围。

© 版权声明

相关文章