小红书发布FireRedTTS-2：新一代多语言对话合成模型，实现零样本声音克隆与实时流式生成

AI产品动态9个月前发布 AI视野

小红书智创音频技术团队近日发布新一代对话合成模型FireRedTTS-2，该模型针对现有语音合成技术在灵活性、发音准确性、说话人切换及韵律自然度等方面的痛点进行了全面优化。通过升级离散语音编码器与文本语音合成模型，FireRedTTS-2在多说话人对话合成领域达到行业领先水平。

技术层面，FireRedTTS-2采用12.5Hz流式语音分词器，显著提升了长对话处理的稳定性，同时支持实时流式解码。其双Transformer架构结合文本-语音交错输入格式，实现了逐句生成功能，首包延迟在L20 GPU上可低至140毫秒。模型支持长达3分钟、4位说话人的多语言对话生成，并具备跨语言零样本声音克隆能力。

在应用表现上，FireRedTTS-2的播客生成自然度可与闭源商业产品媲美，56%的测例显示其自然度达到或超过真实录音水平。特别值得注意的是，该模型仅需单句语音样本即可克隆说话人音色与习惯，在多说话人音色切换稳定性和韵律自然度方面优于主流开源方案。

目前，FireRedTTS-2已开源全部代码，支持中、英、日、韩、法等多语言处理，并提供随机音色生成功能，为语音识别和交互数据构建提供了高效工具。技术团队表示将持续优化模型性能，未来计划扩展支持的说话人数量和语种范围。

文章版权归作者所有，未经允许请勿转载。

小红书发布FireRedTTS-2：新一代多语言对话合成模型，实现零样本声音克隆与实时流式生成

百度发布PP-OCRv5：0.07B参数实现多语言文本识别，效率提升13%

微软Edge测试版推出AI视频实时翻译功能，支持多语言但硬件要求高

相关文章

苹果内部测试AI助手Asa：提升员工产品知识与销售技巧

快手可灵数字人2.0全量上线：三步生成拟真数字人，AI内容创作门槛大幅降低

谷歌Gemini Enterprise多智能体系统突破：锦标赛机制生成100个研究想法，重塑AI科研自动化

灵心巧手完成数亿元A+轮融资，全球灵巧手市场份额超80%

最新资讯

热门AI工具

热门资讯