Grok-4大语言模型测试数据泄露，多项基准测试成绩超越主流模型

近日，xAI公司尚未正式发布的Grok-4 大语言模型测试数据在社交平台引发热议。据开发者社区流传的基准测试结果显示，该模型在HLE（Humanities Last Exam）基准测试中取得45%的得分，显著超越当前主流模型的性能表现。

HLE作为评估AI系统综合能力的自由回答测试，其随机猜测准确率仅约5%。泄露数据显示，Grok-4在该测试的标准模式下得分为35%，启用推理增强技术后提升至45%。这一成绩相较OpenAI o3和Gemini 2.5 Pro约20%的得分实现翻倍增长，较GPT-4o提升达4-5倍。在GPQA（研究生级物理与天文学问题集）测试中，Grok-4取得87-88%的得分，与o3顶级表现持平，明显优于Claude 4 Opus的75%。

针对编程优化的Grok-4 Code版本同样表现突出。SWE Bench测试中取得72-75%的得分，与Claude Opus 4的72.5%基本持平，略高于o3的71.7%。在AIME ‘25（美国数学奥赛）测试中，Grok-4更以95%的得分远超Claude 4 Opus的34%，较o3的80-90%也有提升。

技术社区对此反应呈现两极分化。部分研究者认为若数据属实，Grok-4已在多项测试中实现SOTA（最先进）水平。但质疑声音指出，HLE测试集已完全公开可能导致成绩虚高，且SWE Bench成绩需验证是否使用辅助工具。xAI公司尚未回应数据真实性及具体发布时间，马斯克此前曾透露Grok-4计划在7月4日后发布。

值得关注的是，当前大模型竞争格局正在快速变化。谷歌Gemini 2.5 Pro在6月更新后，其1470分的LMArena综合得分和1443分的WebDevArena成绩仍保持领先地位。行业观察者指出，Grok-4若如期发布，或将重塑现有的大模型性能排名。

AI产品动态 # AI # Grok-4 # xAI # 基准测试 # 大语言模型 # 性能比较

文章版权归作者所有，未经允许请勿转载。

Grok-4大语言模型测试数据泄露，多项基准测试成绩超越主流模型

OpenAI推出ChatGPT教育新功能“一起学习”，AI与教育融合进入新阶段

华为开源盘古大模型核心产品，推动昇腾生态战略加速AI产业落地

相关文章

深度求索DeepSeek-V3.1入驻火山引擎，企业可免注册免费体验超低延迟AI大模型

OpenAI正式在印尼推出ChatGPT Go服务，月费7.5万印尼盾瞄准新兴市场

蚂蚁集团与Inclusion AI开源多模态模型Ming-Omni，支持图像、音视频全模态处理

OpenAI推出ChatGPT记忆自动管理功能，彻底解决内存已满问题

最新资讯

热门AI工具

热门资讯