谷歌Gemini 2.5 TTS重大升级：情绪化语音、自适应节奏与多语言对话革新AI语音合成

AI产品动态6个月前发布 AI视野

谷歌近日发布Gemini 2.5 Flash与Pro文本转语音（TTS）模型的重大升级，新版本在语音表达、语速控制及多语言支持方面实现突破。该模型于2025年12月11日正式推出，全面替代今年5月的旧版系统，目前开发者可通过Google AI Studio和Playground免费测试，预计2025年第一季度投入生产环境。

此次升级的核心改进包括三方面：一是情绪级表达功能，支持从“欢快乐观”到“阴郁严肃”等风格的一键切换，显著提升语音表现力；二是上下文自适应节奏技术，能根据文本内容自动调整语速快慢，使叙事更富动态感；三是多角色对话支持，可在24种语言中保持角色声线稳定，避免跨语种对话时的声线混乱问题。

技术应用方面，新版TTS已集成至Wondercraft等平台，为其多角色对话与导演模式功能提供支持。该技术适用于有声读物、游戏NPC配音、多语言教学视频等高保真语音场景，有效解决传统TTS语音机械感的问题。谷歌表示，此次升级将助力AI客服、内容创作及教育类应用实现更自然的交互体验。

文章版权归作者所有，未经允许请勿转载。

谷歌Gemini 2.5 TTS重大升级：情绪化语音、自适应节奏与多语言对话革新AI语音合成

我国首个全流程AI制药平台“AI孔明”正式发布，显著提升新药研发效率

灵初智能发布全球首个Psi-SynEngine具身数采方案，突破真实世界操作数据规模化采集瓶颈

相关文章

谷歌AI试衣功能陷隐私争议：高管拉黑质疑者引舆论风暴

谷歌Vids重磅更新：AI虚拟形象+免费版上线，视频创作零门槛

OpenAI向全球教师免费开放ChatGPT至2027年，推动AI教育普惠

谷歌DeepMind发布SIMA 2多模态智能体：游戏环境中任务完成率接近人类75%水平

最新资讯

热门AI工具

热门资讯