字节跳动联合全球顶尖高校发布FutureX动态评测基准，AI未来预测能力评估迎来突破

AI新闻资讯9个月前发布 AI视野

近日，由字节跳动Seed团队联合斯坦福大学、复旦大学及普林斯顿大学科研团队共同研发的FutureX动态评测基准正式发布，标志着人工智能领域在“未来预测”能力评估方面取得重要突破。该基准是目前全球首个针对大语言模型智能体未来预测任务设计的大规模实时评测框架，旨在系统性检验AI模型在复杂动态环境中的推理与适应能力。

FutureX基准的创新性主要体现在三个方面：一是采用自动化流程实现问题收集与答案采集的日更机制，确保评测数据的实时性和多样性；二是通过严格的防污染设计消除历史数据对模型评估的干扰；三是覆盖金融、体育、科技等多领域预测场景，构建了包含超10万条动态事件的评测库。技术报告显示，该基准已对25个主流大模型代理进行测试，其中Grok-4在综合评分中表现最优，Gemini 2.5-flash深度研究模型与GPT-4o-mini（思考搜索模式）分列二三位。

研究团队指出，传统AI评估基准如AgentBench等主要针对静态环境设计，难以有效衡量模型对未来不确定事件的预测能力。FutureX通过模拟真实世界动态演变的特性，要求模型不仅要处理即时信息，还需整合时序数据、进行概率推理并动态修正预测结论。这一基准的建立为AI智能体在金融分析、趋势研判等实际应用场景的性能评估提供了标准化工具。

目前，FutureX项目已开源全部技术文档和部分数据集，研究团队将持续更新预测任务并扩展评估维度。该成果的相关论文已提交至预印本平台，完整技术方案可通过项目官网获取。

文章版权归作者所有，未经允许请勿转载。

字节跳动联合全球顶尖高校发布FutureX动态评测基准，AI未来预测能力评估迎来突破

百度智能云发布百舸5.0与千帆4.0平台，推动AI云基础设施进入效能优先新阶段

小红书全面实施AI生成内容标识新规，全球首例全类型覆盖治理体系

相关文章

首都在线与智谱AI达成战略合作，共推大模型商业化与智算中心建设

OpenAI联手立讯精密开发AI口袋设备，股价单日暴涨近8%创四年新高

三星成立Nova AI Lab，任命李康旭为首任负责人，加速AI战略布局

Meta收购Scale AI后，谷歌因担忧泄密终止合作，Scale AI客户减少

最新资讯

热门AI工具

热门资讯