Cartesia发布Sonic-3实时对话TTS模型：90毫秒延迟支持42种语言，基于SSM架构实现技术突破

AI产品动态7个月前发布 AI视野

Cartesia公司近期宣布推出新一代实时对话TTS模型Sonic-3，该产品基于SSM（Structured State Space）架构开发，将延迟控制在90毫秒以内，并扩展至支持42种语言。这一技术突破源自团队对Transformer架构局限性的深度优化，其核心创新在于通过状态压缩机制实现长序列数据的高效处理，解决了传统模型在实时交互场景中的硬件成本与状态保持难题。

Sonic-3延续了前代产品Sonic的技术路线，后者曾以”最快、质量最高”为市场定位，在移动端实现15种语言的流式音频输出。新版模型不仅将语言覆盖范围提升180%，同时保留了声音克隆、多参数调节（包括语速、情感及口音）等核心功能，并提供男声、女声及中性音色的可选配置。值得注意的是，90毫秒的响应速度相当于人类两次眨眼的时间间隔，使其在视频会议、即时通讯等实时交互场景具备显著优势。

该公司技术团队由斯坦福大学研究人员主导，其SSM架构研究曾引发行业广泛关注。今年10月获得2700万美元种子轮融资后，Cartesia加速了产品迭代进程。目前用户可通过官方API接口体验该服务，具体演示已在其平台开放测试。

文章版权归作者所有，未经允许请勿转载。

Cartesia发布Sonic-3实时对话TTS模型：90毫秒延迟支持42种语言，基于SSM架构实现技术突破

国内首款鸿蒙人形机器人“夸父”亮相，打破国外操作系统垄断

英伟达发布Omniverse DSX Blueprint方案，打造吉瓦级AI数据中心标准化模板

相关文章

神秘AI模型Horizon Alpha性能超预期，疑似GPT-5测试版引发技术社区热议

智谱AI推出AutoGLM 2.0：全球首个手机通用Agent正式落地，重塑人机协作新模式

腾讯元宝App与QQ音乐深度整合，AI音乐服务迎来全新升级

全球首款类脑智算体“智者一号”发布：迷你体积实现超级算力，功耗仅传统超算10%

最新资讯

热门AI工具

热门资讯