AI语音合成

Resemble AI开源语音合成模型Chatterbox Turbo：5秒克隆人声，内置抗编辑水印

Resemble AI发布开源语音合成模型Chatterbox Turbo，仅5秒音频即可克隆人声，音质优于竞品。模型支持免费商用、多语言生成与抗编辑水印，适用于客服、游戏等实时场景，推动AI语音技术...

5个月前

谷歌Gemini 2.5 TTS重大升级：情绪化语音、自适应节奏与多语言对话革新AI语音合成

谷歌Gemini 2.5 Flash与Pro文本转语音模型2025年重大升级，实现情绪级表达、上下文自适应节奏及24种语言多角色对话支持，提升语音自然度，适用于有声读物、游戏NPC配音等场景，推动AI...

AI产品动态 # AI新闻 # AI语音合成 # TTS升级

6个月前

阿里通义实验室发布Qwen3-TTS：49种高保真音色+多语言方言，语音合成自然度行业领先

阿里巴巴通义实验室发布Qwen3-TTS文本转语音模型，具备49种高保真音色、多语言方言支持及行业领先的语音自然度（MOS 4.53分）。模型覆盖中英文等10种语言及9种方言，适用于教育、商业等场景...

AI产品动态 # AI语音合成 # Qwen3-TTS # TTS模型

6个月前

科大讯飞发布百变声音复刻技术，单句录音即可高保真复刻音色

科大讯飞正式发布百变声音复刻技术，仅需一句录音即可实现98%音色相似度的高保真复刻，同时推出多模态数字人小飞，在数字内容生产、教育、客服等领域具有广泛应用前景。

AI产品动态 # AI语音合成 # 人工智能 # 声音复刻

7个月前

Soul AI Lab开源播客语音合成模型SoulX-Podcast，支持多方言60分钟稳定对话

Soul AI Lab开源播客语音合成模型SoulX-Podcast，采用LLM+Flow Matching技术，支持中英文及四川话等方言，具备零样本音色克隆、跨方言音色转换能力，可稳定输出60分钟自...

AI产品动态 # AIGC # AI语音合成 # SoulX-Podcast

7个月前

Cartesia发布Sonic-3实时对话TTS模型：90毫秒延迟支持42种语言，基于SSM架构实现技术突破

Cartesia推出基于SSM架构的Sonic-3实时对话TTS模型，延迟仅90毫秒，支持42种语言，提供声音克隆和情感调节功能，为视频会议、即时通讯等场景带来革命性AI语音体验。

AI产品动态 # AI语音合成 # Cartesia # Sonic-3

7个月前

火山引擎豆包大模型全面升级：语音合成2.0突破情感演绎，1.6版本首创思考长度分档调节

火山引擎豆包大模型实现全面升级：语音合成2.0模型突破情感演绎能力，支持11项参数动态调节；1.6版本首创思考长度分档调节，效率提升84.6%，成本降低53.3%。日均tokens调用量突破30万亿...

AI产品动态 # AI语音合成 # 企业AI应用 # 大模型技术

7个月前

AI语音克隆实现以假乱真：研究证实合成语音与真人录音难以区分

伦敦大学研究证实：最新AI语音合成技术已达到与真人录音难以区分的水平。本文深度解析语音克隆的技术突破、商业应用前景及面临的伦理安全挑战，为关注人工智能发展的读者提供专业见解。

AI新闻资讯 # AI语音合成 # 人工智能伦理 # 人机交互

8个月前

ElevenLabs推出AI音视频制作平台Studio 3.0，革新多媒体创作流程

探索ElevenLabs Studio 3.0AI音视频制作平台的突破性功能：动态文本编辑、场景感知配乐、多语言字幕及语音修复技术，助力创作者高效生产专业级内容，适用于短视频、播客和教育领域。

AI产品动态 # AI语音合成 # 多媒体创作工具 # 智能配乐

8个月前

小红书发布FireRedTTS-2：新一代多语言对话合成模型，实现零样本声音克隆与实时流式生成

小红书FireRedTTS-2模型突破语音合成技术瓶颈，支持实时流式多语言对话生成与单句声音克隆，自然度媲美真实录音。开源代码覆盖中英日韩法等语言，适用于语音识别和交互数据构建。

AI产品动态 # AI语音合成 # FireRedTTS-2 # 声音克隆

9个月前

Resemble AI开源语音合成模型Chatterbox Turbo：5秒克隆人声，内置抗编辑水印

谷歌Gemini 2.5 TTS重大升级：情绪化语音、自适应节奏与多语言对话革新AI语音合成

阿里通义实验室发布Qwen3-TTS：49种高保真音色+多语言方言，语音合成自然度行业领先

科大讯飞发布百变声音复刻技术，单句录音即可高保真复刻音色

Soul AI Lab开源播客语音合成模型SoulX-Podcast，支持多方言60分钟稳定对话

Cartesia发布Sonic-3实时对话TTS模型：90毫秒延迟支持42种语言，基于SSM架构实现技术突破

火山引擎豆包大模型全面升级：语音合成2.0突破情感演绎，1.6版本首创思考长度分档调节

AI语音克隆实现以假乱真：研究证实合成语音与真人录音难以区分

ElevenLabs推出AI音视频制作平台Studio 3.0，革新多媒体创作流程

小红书发布FireRedTTS-2：新一代多语言对话合成模型，实现零样本声音克隆与实时流式生成

热门AI工具

最新资讯