Grok-4大语言模型测试数据泄露,多项基准测试成绩超越主流模型 xAI公司尚未发布的Grok-4大语言模型在多项基准测试中表现优异,HLE测试得分达45%,远超OpenAI o3和Gemini 2.5 Pro。GPQA测试成绩与o3持平,SWE Bench和AIM... AI产品动态# AI# Grok-4# xAI 13小时前