Cartesia发布Sonic-3实时对话TTS模型:90毫秒延迟支持42种语言,基于SSM架构实现技术突破 Cartesia推出基于SSM架构的Sonic-3实时对话TTS模型,延迟仅90毫秒,支持42种语言,提供声音克隆和情感调节功能,为视频会议、即时通讯等场景带来革命性AI语音体验。 AI产品动态# AI语音合成# Cartesia# Sonic-3 6天前
豆包语音推出AI多人有声剧自动化方案,文本到成品全流程AI生产 豆包语音团队推出AI多人有声剧全流程自动化方案,通过多角色TTS演播系统和AI后期链路,实现从文本到成品的智能生产,制作周期缩短90%,成本降低70%,首批作品已在番茄小说APP上线。 AI产品动态# AI技术# AI有声剧# TTS技术 1周前
面壁智能发布VoxCPM 0.5B语音生成模型:支持中英双语与实时流式输出,开源可商用 面壁智能发布VoxCPM 0.5B参数语音生成基座模型,支持中英双语流式输出与高精度音色克隆,在自然度和韵律表现达SOTA水平。模型已开源,适用于智能语音交互与数字内容创作。 AI产品动态# TTS技术# VoxCPM# 人工智能 2个月前
B站IndexTTS-2.0重磅开源:工业级零样本TTS实现情感与时长精准控制 哔哩哔哩开源IndexTTS-2.0零样本语音合成系统,实现工业级情感与时长精准控制。支持中英混合发音校正和实时参数调节,适用于视频配音、有声读物等场景,降低语音合成技术成本。 AI产品动态# AIGC# AI语音合成# IndexTTS 2个月前
李沐团队开源语音大模型Higgs Audio V2:多语言对话生成与零样本克隆技术解析 深度解读李沐团队开源的Higgs Audio V2语音大模型:该模型以75.7%情感表达胜率刷新TTS基准,实现5秒音色克隆与多角色情感对话,将重塑智能客服、虚拟主播等场景的语音交互体验。 AI产品动态# AI语音合成# HiggsAudioV2# TTS技术 3个月前