Resemble AI近日推出开源语音合成模型Chatterbox Turbo,该模型仅需5秒音频即可克隆人声,在音质表现上优于ElevenLabs与Cartesia等竞品。作为一款拥有3.5亿参数的高效模型,其通过单步解码技术显著降低显存占用与计算需求,首段音频输出延迟控制在150毫秒以内,适用于实时智能体、客服系统及游戏等场景。
该模型采用MIT许可证发布,支持免费商用与二次开发,目前已部署于Hugging Face、RunPod等平台,完整代码托管于GitHub。技术特性方面,Chatterbox Turbo原生支持多语言生成及副语言标签,用户可在文本中插入笑声、咳嗽等标记,使合成语音更具表现力。值得注意的是,所有生成音频均内置PerTh水印技术,该水印可抵抗MP3压缩与编辑操作,为防范技术滥用提供溯源保障。
行业观察显示,2026年语音克隆技术已实现高度拟真,但伴随技术普及,伦理风险日益凸显。Resemble AI此次开源行为被视为推动技术透明化的重要举措,其托管服务与即将发布的低延迟版本,或将为行业建立新的技术基准。
© 版权声明
文章版权归作者所有,未经允许请勿转载。