Grok-4

字节跳动与斯坦福大学等全球顶尖团队联合推出FutureX动态评测基准，专为大语言模型智能体的未来预测能力设计，提供实时、多样化的评估框架。覆盖金融、体育等多领域，测试显示Grok-4表现最优，推动AI...

9个月前

xAI公司尚未发布的Grok-4大语言模型在多项基准测试中表现优异，HLE测试得分达45%，远超OpenAI o3和Gemini 2.5 Pro。GPQA测试成绩与o3持平，SWE Bench和AIM...

11个月前