微软Copilot Audio Expressions发布:AI语音生成工具实现多角色情感叙事

微软近日在Copilot Labs平台推出全新AI语音生成工具Copilot Audio Expressions,该工具通过Emotive(情感表达)和Story(故事创作)两种模式,显著提升了AI生成语音的真实感和情感表现力。目前该工具支持生成最长90秒的多角色叙述音频,标志着微软在语音合成技术领域取得新突破。

用户无需注册即可直接使用该工具,生成的音频可下载为MP3格式,适配各类播放设备。在功能设计上,Emotive模式允许用户从十余种音色与风格组合中进行选择,例如测试中采用的”Oak”音色配合”narration”叙述风格,不仅能准确朗读输入文本,还会自动优化措辞、添加细节,使表达更富感染力。单段音频在标准模式下最长支持59秒输出。

更具创新性的是Story模式,该系统可自动分配不同音色与口音来区分多角色对话。实测显示,当输入”猫在暗处潜行觅食”的主题时,AI能自主生成包含旁白与角色对白的完整叙事,并灵活运用美式、英式等不同口音,最终呈现的90秒音频具有专业配音效果。该功能为播客、有声书等内容创作提供了高效解决方案。

技术层面,该工具基于微软最新研发的MAI-Voice-1语音模型,该模型仅需单块GPU即可在1秒内生成1分钟音频,目前已应用于Copilot Daily新闻播报等实际场景。微软表示,Copilot Audio Expressions展现了AI语音技术从机械朗读向情感化、智能化表达的演进,未来将持续优化语音的自然度和表现维度。

© 版权声明

相关文章