Cartesia公司近期宣布推出新一代实时对话TTS模型Sonic-3,该产品基于SSM(Structured State Space)架构开发,将延迟控制在90毫秒以内,并扩展至支持42种语言。这一技术突破源自团队对Transformer架构局限性的深度优化,其核心创新在于通过状态压缩机制实现长序列数据的高效处理,解决了传统模型在实时交互场景中的硬件成本与状态保持难题。
Sonic-3延续了前代产品Sonic的技术路线,后者曾以”最快、质量最高”为市场定位,在移动端实现15种语言的流式音频输出。新版模型不仅将语言覆盖范围提升180%,同时保留了声音克隆、多参数调节(包括语速、情感及口音)等核心功能,并提供男声、女声及中性音色的可选配置。值得注意的是,90毫秒的响应速度相当于人类两次眨眼的时间间隔,使其在视频会议、即时通讯等实时交互场景具备显著优势。
该公司技术团队由斯坦福大学研究人员主导,其SSM架构研究曾引发行业广泛关注。今年10月获得2700万美元种子轮融资后,Cartesia加速了产品迭代进程。目前用户可通过官方API接口体验该服务,具体演示已在其平台开放测试。
© 版权声明
文章版权归作者所有,未经允许请勿转载。