微软开源VibeVoice-1.5B音频模型，突破90分钟长语音合成技术壁垒

AI产品动态9个月前发布 AI视野

微软研究院于2025年8月26日凌晨宣布开源VibeVoice-1.5B音频模型，该技术标志着语音合成领域取得突破性进展。该模型通过创新架构设计，首次实现单次连续合成90分钟超长语音的能力，较业界主流60分钟上限提升50%时长表现。技术文档显示，其采用动态音色稳定算法和上下文感知语义建模，有效解决了传统模型在30分钟后出现的音色失真与语义连贯性下降等核心难题。

目前开源版本已在微软GitHub官方仓库发布，包含完整的预训练权重及推理代码。行业分析师指出，这项技术将显著降低长文本语音合成（如有声书、在线教育内容制作）的边际成本，同时为实时交互场景提供更稳定的语音输出支持。微软研究院表示，后续将针对多语言适配和情感语调控制展开迭代升级。

文章版权归作者所有，未经允许请勿转载。

微软开源VibeVoice-1.5B音频模型，突破90分钟长语音合成技术壁垒

清华大学与IDEA联合研发GUAVA框架：单张照片0.1秒生成3D化身，实时渲染破局元宇宙基建

Meta推出AI音频翻译功能：Facebook与Instagram Reels支持实时多语言翻译

相关文章

AI产品榜·2周年大会7月17日深圳开幕，聚焦智能融合与创变未来

HTC发布首款AI智能眼镜VIVE Eagle：轻量化设计搭载Google Gemini与GPT模型

Meta高薪挖角OpenAI三员大将，1亿美元签约奖金引爆AI人才争夺战

零一万物发布万智企业大模型一站式平台，推出企业级Agent“万仔”

最新资讯

热门AI工具

热门资讯