OpenAI发布GPT-Realtime语音对话模型：延迟降低、多语言支持与图像感知成亮点

AI产品动态9个月前发布 AI视野

OpenAI于2025年8月29日正式发布新一代语音对话模型GPT-Realtime，并同步优化其Realtime API功能，标志着语音AI技术进入全新发展阶段。该模型采用端到端单架构设计，整合音频输入理解与语音生成能力，显著降低延迟并提升交互自然度。

技术层面，GPT-Realtime实现多项突破：支持高保真语音生成，新增Marin与Cedar两种特色音色并对原有8种音色升级；具备跨语言无缝切换能力，多语种字母数字序列识别准确率达82.8%；指令遵循准确率较前代提升近10个百分点至30.5%；创新性引入图像感知对话功能，可结合视觉内容展开情境化交流。其异步工具调用机制有效优化了长时间运行函数的处理流程。

商业化应用方面，该模型定价较前代降低20%，每百万音频输入/输出token分别收费32美元和64美元。Realtime API新增支持远程MCP服务器、SIP电话功能及图像输入接口，为客服、教育、医疗等领域提供更完善的智能语音解决方案。OpenAI表示，该技术已通过深度协同训练机制，在真实场景中验证了稳定性与实用性。

市场分析指出，此次升级将加速AI语音助手在B端场景的落地进程。性能测试显示，模型在BigBenchAudio基准测试中准确率从65.6%跃升至82.8%，工具调用能力测试得分提升16.8个百分点，展现出显著的技术优势。目前开发者可通过官方渠道获取相关技术文档与接口资源。

文章版权归作者所有，未经允许请勿转载。

OpenAI发布GPT-Realtime语音对话模型：延迟降低、多语言支持与图像感知成亮点

极佳视界完成数亿元Pre-A与Pre-A+轮融资，加速世界模型与具身智能技术研发

微软发布自研AI模型MAI-Voice-1与MAI-1-preview，构建独立技术体系

相关文章

百度蒸汽机2.0全球首发多人有声视频生成，成本直降70%

xAI起诉前工程师窃取Grok商业机密马斯克与OpenAI再爆法律冲突

商汤科技SenseCore与华为昇腾384超节点完成全面适配，国产AI算力基础设施获关键突破

华硕发布XA NB3I-E12 AI服务器：基于英伟达Blackwell架构，加速企业AI部署

最新资讯

热门AI工具

热门资讯

OpenAI发布GPT-Realtime语音对话模型：延迟降低、多语言支持与图像感知成亮点

极佳视界完成数亿元Pre-A与Pre-A+轮融资，加速世界模型与具身智能技术研发

微软发布自研AI模型MAI-Voice-1与MAI-1-preview，构建独立技术体系

相关文章

百度蒸汽机2.0全球首发多人有声视频生成，成本直降70%

xAI起诉前工程师窃取Grok商业机密 马斯克与OpenAI再爆法律冲突

商汤科技SenseCore与华为昇腾384超节点完成全面适配，国产AI算力基础设施获关键突破

华硕发布XA NB3I-E12 AI服务器：基于英伟达Blackwell架构，加速企业AI部署

最新资讯

热门AI工具

热门资讯

xAI起诉前工程师窃取Grok商业机密马斯克与OpenAI再爆法律冲突