近日,xAI公司尚未正式发布的Grok-4大语言模型测试数据在社交平台引发热议。据开发者社区流传的基准测试结果显示,该模型在HLE(Humanities Last Exam)基准测试中取得45%的得分,显著超越当前主流模型的性能表现。
HLE作为评估AI系统综合能力的自由回答测试,其随机猜测准确率仅约5%。泄露数据显示,Grok-4在该测试的标准模式下得分为35%,启用推理增强技术后提升至45%。这一成绩相较OpenAI o3和Gemini 2.5 Pro约20%的得分实现翻倍增长,较GPT-4o提升达4-5倍。在GPQA(研究生级物理与天文学问题集)测试中,Grok-4取得87-88%的得分,与o3顶级表现持平,明显优于Claude 4 Opus的75%。
针对编程优化的Grok-4 Code版本同样表现突出。SWE Bench测试中取得72-75%的得分,与Claude Opus 4的72.5%基本持平,略高于o3的71.7%。在AIME ‘25(美国数学奥赛)测试中,Grok-4更以95%的得分远超Claude 4 Opus的34%,较o3的80-90%也有提升。
技术社区对此反应呈现两极分化。部分研究者认为若数据属实,Grok-4已在多项测试中实现SOTA(最先进)水平。但质疑声音指出,HLE测试集已完全公开可能导致成绩虚高,且SWE Bench成绩需验证是否使用辅助工具。xAI公司尚未回应数据真实性及具体发布时间,马斯克此前曾透露Grok-4计划在7月4日后发布。
值得关注的是,当前大模型竞争格局正在快速变化。谷歌Gemini 2.5 Pro在6月更新后,其1470分的LMArena综合得分和1443分的WebDevArena成绩仍保持领先地位。行业观察者指出,Grok-4若如期发布,或将重塑现有的大模型性能排名。
© 版权声明
文章版权归作者所有,未经允许请勿转载。