字节跳动联合全球顶尖高校发布FutureX动态评测基准,AI未来预测能力评估迎来突破 字节跳动与斯坦福大学等全球顶尖团队联合推出FutureX动态评测基准,专为大语言模型智能体的未来预测能力设计,提供实时、多样化的评估框架。覆盖金融、体育等多领域,测试显示Grok-4表现最优,推动AI... AI新闻资讯# AI评测# Gemini# GPT-4o 2个月前
Grok-4大语言模型测试数据泄露,多项基准测试成绩超越主流模型 xAI公司尚未发布的Grok-4大语言模型在多项基准测试中表现优异,HLE测试得分达45%,远超OpenAI o3和Gemini 2.5 Pro。GPQA测试成绩与o3持平,SWE Bench和AIM... AI产品动态# AI# Grok-4# xAI 3个月前