微软AI语音技术重大突破：MAI-Voice-1与GPT-realtime模型重塑语音交互生态

AI产品动态3个月前发布 AI视野

微软近日在人工智能语音技术领域取得重大突破，先后推出MAI-Voice-1和GPT-realtime两款创新模型，显著提升了语音合成的自然度与交互体验。2025年9月1日发布的MAI-Voice-1凭借单张GPU在1秒内生成1分钟音频的业界领先效率，已集成至Copilot Daily、Podcasts等产品线。该模型采用端到端神经网络架构，通过预训练与微调相结合的技术路径，实现高保真音色与动态节奏控制，适用于故事叙述、冥想引导等需要情感表现力的场景。

9月5日，微软通过Azure AI Foundry平台正式推出GPT-realtime模型，标志着语音交互进入多模态时代。该模型通过全新Real-time API为开发者提供两项核心技术升级：其一是新增Marin和Cedar两种拟真语音选项，音质清晰度较前代提升显著；其二是突破性地支持图像输入交互，用户可在语音对话中直接插入并讨论视觉内容，无需依赖视频流传输。技术文档显示，该模型采用改进的指令跟随算法，功能调用准确率提升35%，同时定价策略较预览版下调20%，按每百万token计费。

目前这两项技术已形成互补应用生态：MAI-Voice-1侧重高效批量生成，适用于播客制作、智能客服等场景；GPT-realtime则聚焦实时交互，在教育培训、游戏叙事等领域展现潜力。微软AI产品负责人透露，公司正将两类模型的技术优势进行融合研发，预计2026年推出支持实时编辑的长篇语音合成系统。市场分析指出，此次技术迭代将重塑数字内容生产流程，预计到2026年底可为企业节省40%的语音内容制作成本。

文章版权归作者所有，未经允许请勿转载。

微软AI语音技术重大突破：MAI-Voice-1与GPT-realtime模型重塑语音交互生态

谷歌开源EmbeddingGemma：3亿参数端侧AI模型，离线语义处理新标杆

通义千问发布万亿参数Qwen3-Max-Preview模型，全球最大开放AI模型实现技术突破

相关文章

苹果获模块化智能眼镜专利，支持更换电池与个性化风格定制

火山引擎推出AI智能域名推荐服务，助力企业高效注册创意域名

周鸿祎：AI发展进入下半场，智能体技术成产业变革核心力量

智元机器人发布灵犀X2-N：全球首款毫秒级轮足双形态商用机器人

最新资讯

热门AI工具

热门资讯