微软近日在人工智能语音技术领域取得重大突破,先后推出MAI-Voice-1和GPT-realtime两款创新模型,显著提升了语音合成的自然度与交互体验。2025年9月1日发布的MAI-Voice-1凭借单张GPU在1秒内生成1分钟音频的业界领先效率,已集成至Copilot Daily、Podcasts等产品线。该模型采用端到端神经网络架构,通过预训练与微调相结合的技术路径,实现高保真音色与动态节奏控制,适用于故事叙述、冥想引导等需要情感表现力的场景。
9月5日,微软通过Azure AI Foundry平台正式推出GPT-realtime模型,标志着语音交互进入多模态时代。该模型通过全新Real-time API为开发者提供两项核心技术升级:其一是新增Marin和Cedar两种拟真语音选项,音质清晰度较前代提升显著;其二是突破性地支持图像输入交互,用户可在语音对话中直接插入并讨论视觉内容,无需依赖视频流传输。技术文档显示,该模型采用改进的指令跟随算法,功能调用准确率提升35%,同时定价策略较预览版下调20%,按每百万token计费。
目前这两项技术已形成互补应用生态:MAI-Voice-1侧重高效批量生成,适用于播客制作、智能客服等场景;GPT-realtime则聚焦实时交互,在教育培训、游戏叙事等领域展现潜力。微软AI产品负责人透露,公司正将两类模型的技术优势进行融合研发,预计2026年推出支持实时编辑的长篇语音合成系统。市场分析指出,此次技术迭代将重塑数字内容生产流程,预计到2026年底可为企业节省40%的语音内容制作成本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。