TTS技术

Cartesia推出基于SSM架构的Sonic-3实时对话TTS模型，延迟仅90毫秒，支持42种语言，提供声音克隆和情感调节功能，为视频会议、即时通讯等场景带来革命性AI语音体验。

7个月前

豆包语音团队推出AI多人有声剧全流程自动化方案，通过多角色TTS演播系统和AI后期链路，实现从文本到成品的智能生产，制作周期缩短90%，成本降低70%，首批作品已在番茄小说APP上线。

7个月前

面壁智能发布VoxCPM 0.5B参数语音生成基座模型，支持中英双语流式输出与高精度音色克隆，在自然度和韵律表现达SOTA水平。模型已开源，适用于智能语音交互与数字内容创作。

8个月前

哔哩哔哩开源IndexTTS-2.0零样本语音合成系统，实现工业级情感与时长精准控制。支持中英混合发音校正和实时参数调节，适用于视频配音、有声读物等场景，降低语音合成技术成本。

9个月前

深度解读李沐团队开源的Higgs Audio V2语音大模型：该模型以75.7%情感表达胜率刷新TTS基准，实现5秒音色克隆与多角色情感对话，将重塑智能客服、虚拟主播等场景的语音交互体验。

10个月前