谷歌Gemini 2.5 TTS重大升级:情绪化语音、自适应节奏与多语言对话革新AI语音合成

谷歌近日发布Gemini 2.5 Flash与Pro文本转语音(TTS)模型的重大升级,新版本在语音表达、语速控制及多语言支持方面实现突破。该模型于2025年12月11日正式推出,全面替代今年5月的旧版系统,目前开发者可通过Google AI Studio和Playground免费测试,预计2025年第一季度投入生产环境。

此次升级的核心改进包括三方面:一是情绪级表达功能,支持从“欢快乐观”到“阴郁严肃”等风格的一键切换,显著提升语音表现力;二是上下文自适应节奏技术,能根据文本内容自动调整语速快慢,使叙事更富动态感;三是多角色对话支持,可在24种语言中保持角色声线稳定,避免跨语种对话时的声线混乱问题。

技术应用方面,新版TTS已集成至Wondercraft等平台,为其多角色对话与导演模式功能提供支持。该技术适用于有声读物、游戏NPC配音、多语言教学视频等高保真语音场景,有效解决传统TTS语音机械感的问题。谷歌表示,此次升级将助力AI客服、内容创作及教育类应用实现更自然的交互体验。

© 版权声明

相关文章