近日,由字节跳动Seed团队联合斯坦福大学、复旦大学及普林斯顿大学科研团队共同研发的FutureX动态评测基准正式发布,标志着人工智能领域在“未来预测”能力评估方面取得重要突破。该基准是目前全球首个针对大语言模型智能体未来预测任务设计的大规模实时评测框架,旨在系统性检验AI模型在复杂动态环境中的推理与适应能力。
FutureX基准的创新性主要体现在三个方面:一是采用自动化流程实现问题收集与答案采集的日更机制,确保评测数据的实时性和多样性;二是通过严格的防污染设计消除历史数据对模型评估的干扰;三是覆盖金融、体育、科技等多领域预测场景,构建了包含超10万条动态事件的评测库。技术报告显示,该基准已对25个主流大模型代理进行测试,其中Grok-4在综合评分中表现最优,Gemini 2.5-flash深度研究模型与GPT-4o-mini(思考搜索模式)分列二三位。
研究团队指出,传统AI评估基准如AgentBench等主要针对静态环境设计,难以有效衡量模型对未来不确定事件的预测能力。FutureX通过模拟真实世界动态演变的特性,要求模型不仅要处理即时信息,还需整合时序数据、进行概率推理并动态修正预测结论。这一基准的建立为AI智能体在金融分析、趋势研判等实际应用场景的性能评估提供了标准化工具。
目前,FutureX项目已开源全部技术文档和部分数据集,研究团队将持续更新预测任务并扩展评估维度。该成果的相关论文已提交至预印本平台,完整技术方案可通过项目官网获取。
© 版权声明
文章版权归作者所有,未经允许请勿转载。