微软开源VibeVoice-1.5B音频模型,突破90分钟长语音合成技术壁垒

AI产品动态9小时前发布 AI视野

微软研究院于2025年8月26日凌晨宣布开源VibeVoice-1.5B音频模型,该技术标志着语音合成领域取得突破性进展。该模型通过创新架构设计,首次实现单次连续合成90分钟超长语音的能力,较业界主流60分钟上限提升50%时长表现。技术文档显示,其采用动态音色稳定算法和上下文感知语义建模,有效解决了传统模型在30分钟后出现的音色失真与语义连贯性下降等核心难题。

目前开源版本已在微软GitHub官方仓库发布,包含完整的预训练权重及推理代码。行业分析师指出,这项技术将显著降低长文本语音合成(如有声书在线教育内容制作)的边际成本,同时为实时交互场景提供更稳定的语音输出支持。微软研究院表示,后续将针对多语言适配和情感语调控制展开迭代升级。

© 版权声明

相关文章