OpenAI于2025年8月29日正式发布新一代语音对话模型GPT-Realtime,并同步优化其Realtime API功能,标志着语音AI技术进入全新发展阶段。该模型采用端到端单架构设计,整合音频输入理解与语音生成能力,显著降低延迟并提升交互自然度。
技术层面,GPT-Realtime实现多项突破:支持高保真语音生成,新增Marin与Cedar两种特色音色并对原有8种音色升级;具备跨语言无缝切换能力,多语种字母数字序列识别准确率达82.8%;指令遵循准确率较前代提升近10个百分点至30.5%;创新性引入图像感知对话功能,可结合视觉内容展开情境化交流。其异步工具调用机制有效优化了长时间运行函数的处理流程。
商业化应用方面,该模型定价较前代降低20%,每百万音频输入/输出token分别收费32美元和64美元。Realtime API新增支持远程MCP服务器、SIP电话功能及图像输入接口,为客服、教育、医疗等领域提供更完善的智能语音解决方案。OpenAI表示,该技术已通过深度协同训练机制,在真实场景中验证了稳定性与实用性。
市场分析指出,此次升级将加速AI语音助手在B端场景的落地进程。性能测试显示,模型在BigBenchAudio基准测试中准确率从65.6%跃升至82.8%,工具调用能力测试得分提升16.8个百分点,展现出显著的技术优势。目前开发者可通过官方渠道获取相关技术文档与接口资源。
© 版权声明
文章版权归作者所有,未经允许请勿转载。