微软发布VibeVoice-Realtime-0.5B：5亿参数实现300ms实时语音合成，支持中英文与多角色对话

AI产品动态6个月前发布 AI视野

微软近日正式推出轻量级实时文本转语音模型VibeVoice-Realtime-0.5B，该模型以仅5亿参数的紧凑架构实现300毫秒级首音延迟，显著提升交互式语音场景的响应效率。模型采用交错窗口设计与流式处理技术，在编码新文本块的同时持续生成声学特征，支持中英文双语合成，其中英文表现更优，中文保持高连贯性与保真度。

技术层面，该模型通过σ-VAE技术实现音频数据3200倍压缩，在24kHz采样率下维持高音质输出。其7.5Hz帧率的声学标记器架构，使LibriSpeech测试集零样本字错误率低至2.00%。模型支持固定8k上下文窗口，单次可稳定生成10分钟音频，专业版更扩展至90分钟长语音输出，全程避免音色漂移与节奏紊乱。

应用场景覆盖实时对话与数据播报领域，尤其适配智能客服、数字人交互等需要多角色音色切换的场景。模型可模拟最多4个说话人的自然对话，通过语义情感映射技术精准还原愤怒、歉意等细腻语调。在电商直播、有声内容生产等高频需求场景中，其批量文本处理能力可降低80%人工调校成本。

目前模型已开源，支持端侧部署。微软表示，该技术将推动企业级语音交互向更低成本、更高自然度的方向发展，重新定义实时语音合成的行业标准。

文章版权归作者所有，未经允许请勿转载。

微软发布VibeVoice-Realtime-0.5B：5亿参数实现300ms实时语音合成，支持中英文与多角色对话

华为发布医疗AI数据平台，推动医疗智能体规模化应用

XREAL与谷歌联手打造Project Aura：全球首款Android XR AR眼镜，AI赋能消费级AR新纪元

相关文章

广西启动2025年AI赋能千行百业超级联赛，推动AI技术与东盟市场深度融合

摩尔线程发布Torch-MUSA v2.7.0：AI训练推理性能大幅提升，算子总量突破1050个

2025中国AI年度榜单评选启动：聚焦多模态大模型与具身智能前沿技术

2025人工智能年度榜单评选倒计时：48小时截止申报，聚焦AI领域年度标杆

最新资讯

热门AI工具

热门资讯