谷歌Gemini 2.5 TTS重大升级:情绪化语音、自适应节奏与多语言对话革新AI语音合成 谷歌Gemini 2.5 Flash与Pro文本转语音模型2025年重大升级,实现情绪级表达、上下文自适应节奏及24种语言多角色对话支持,提升语音自然度,适用于有声读物、游戏NPC配音等场景,推动AI... AI产品动态# AI新闻# AI语音合成# TTS升级 3天前
阿里通义实验室发布Qwen3-TTS:49种高保真音色+多语言方言,语音合成自然度行业领先 阿里巴巴通义实验室发布Qwen3-TTS文本转语音模型,具备49种高保真音色、多语言方言支持及行业领先的语音自然度(MOS 4.53分)。模型覆盖中英文等10种语言及9种方言,适用于教育、商业等场景... AI产品动态# AI语音合成# Qwen3-TTS# TTS模型 6天前
科大讯飞发布百变声音复刻技术,单句录音即可高保真复刻音色 科大讯飞正式发布百变声音复刻技术,仅需一句录音即可实现98%音色相似度的高保真复刻,同时推出多模态数字人小飞,在数字内容生产、教育、客服等领域具有广泛应用前景。 AI产品动态# AI语音合成# 人工智能# 声音复刻 1个月前
Soul AI Lab开源播客语音合成模型SoulX-Podcast,支持多方言60分钟稳定对话 Soul AI Lab开源播客语音合成模型SoulX-Podcast,采用LLM+Flow Matching技术,支持中英文及四川话等方言,具备零样本音色克隆、跨方言音色转换能力,可稳定输出60分钟自... AI产品动态# AIGC# AI语音合成# SoulX-Podcast 2个月前
Cartesia发布Sonic-3实时对话TTS模型:90毫秒延迟支持42种语言,基于SSM架构实现技术突破 Cartesia推出基于SSM架构的Sonic-3实时对话TTS模型,延迟仅90毫秒,支持42种语言,提供声音克隆和情感调节功能,为视频会议、即时通讯等场景带来革命性AI语音体验。 AI产品动态# AI语音合成# Cartesia# Sonic-3 2个月前
火山引擎豆包大模型全面升级:语音合成2.0突破情感演绎,1.6版本首创思考长度分档调节 火山引擎豆包大模型实现全面升级:语音合成2.0模型突破情感演绎能力,支持11项参数动态调节;1.6版本首创思考长度分档调节,效率提升84.6%,成本降低53.3%。日均tokens调用量突破30万亿... AI产品动态# AI语音合成# 企业AI应用# 大模型技术 2个月前
AI语音克隆实现以假乱真:研究证实合成语音与真人录音难以区分 伦敦大学研究证实:最新AI语音合成技术已达到与真人录音难以区分的水平。本文深度解析语音克隆的技术突破、商业应用前景及面临的伦理安全挑战,为关注人工智能发展的读者提供专业见解。 AI新闻资讯# AI语音合成# 人工智能伦理# 人机交互 3个月前
ElevenLabs推出AI音视频制作平台Studio 3.0,革新多媒体创作流程 探索ElevenLabs Studio 3.0AI音视频制作平台的突破性功能:动态文本编辑、场景感知配乐、多语言字幕及语音修复技术,助力创作者高效生产专业级内容,适用于短视频、播客和教育领域。 AI产品动态# AI语音合成# 多媒体创作工具# 智能配乐 3个月前
小红书发布FireRedTTS-2:新一代多语言对话合成模型,实现零样本声音克隆与实时流式生成 小红书FireRedTTS-2模型突破语音合成技术瓶颈,支持实时流式多语言对话生成与单句声音克隆,自然度媲美真实录音。开源代码覆盖中英日韩法等语言,适用于语音识别和交互数据构建。 AI产品动态# AI语音合成# FireRedTTS-2# 声音克隆 3个月前
B站IndexTTS-2.0重磅开源:工业级零样本TTS实现情感与时长精准控制 哔哩哔哩开源IndexTTS-2.0零样本语音合成系统,实现工业级情感与时长精准控制。支持中英混合发音校正和实时参数调节,适用于视频配音、有声读物等场景,降低语音合成技术成本。 AI产品动态# AIGC# AI语音合成# IndexTTS 3个月前