xAI于2025年12月18日正式推出Grok Voice Agent API,向全球开发者开放其已在Tesla车辆及官方移动应用中验证的实时语音代理技术。该API支持数十种语言,具备实时工具调用与网络搜索能力,平均首音频响应时间低于1秒,在Big Bench Audio权威评测中位列第一。
Grok Voice Agent采用xAI自研的全栈语音技术,涵盖语音活动检测(VAD)、专用分词器及高性能音频理解模型。其定价为每分钟0.05美元,兼容OpenAI Realtime API规范,并提供Ara、Eve、Leo等多款具备情感张力与自然韵律的语音角色。开发者可通过xAI LiveKit插件或浏览器端语音沙盒环境实现快速集成。
此次发布标志着xAI在语音交互领域的重要突破。该技术此前已在Tesla车机系统中完成商业化验证,其低延迟特性尤其适合车载导航、智能家居控制等语音优先场景。值得注意的是,Grok Voice Agent与12月15日OpenAI发布的GPT-Realtime形成直接竞争,两者均强调语音输出的自然流畅度与实时响应能力。
xAI同时宣布,Grok系列产品近期市场表现强劲,其移动应用已登顶苹果美区免费榜。公司计划通过Microsoft Azure AI Foundry扩大服务覆盖,现有开发者可访问官方文档获取SDK及集成指南。
© 版权声明
文章版权归作者所有,未经允许请勿转载。