全球首个视频转网页评测基准IWR-Bench发布,GPT-5综合得分仅36.35分暴露AI交互逻辑短板

上海人工智能实验室与浙江大学联合推出的全球首个视频转网页评测基准IWR-Bench近日引发行业广泛关注。这项突破性研究填补了AI前端开发领域动态交互评测的空白,揭示了当前大语言模型在理解网页交互逻辑方面的显著短板。

研究团队由上海AI实验室沈雨帆教授领导,成员来自浙江大学、中国科学技术大学深圳分校等多所院校。相关论文已于2025年9月发布于arXiv平台(编号2509.24709)。该基准创新性地采用”视频+静态资源”作为输入,要求AI模型通过观察用户操作全流程视频,重建包含动态交互功能的完整网页代码。

IWR-Bench设计了覆盖2048游戏、机票预订等真实场景的双重评估体系:视觉保真度(VFS)衡量界面还原精度,交互功能正确性(IFS)测试动态逻辑实现。评测结果显示,28款主流模型中表现最优的GPT-5综合得分仅36.35分,其中IFS得分低至24.39%,暴露出现有模型在状态管理、时序理解等关键技术瓶颈。值得注意的是,专门优化的视频理解模型表现反而不及通用大模型,且”思维链”等改进机制提升有限。

研究团队指出五大核心挑战:时间序列理解不足导致无法捕捉操作时序;状态管理缺陷造成数据传递错误;动态资源匹配偏差影响功能实现;代码生成质量不稳定;长上下文处理能力有限。例如在订票测试中,模型能显示页面但无法正确提交表单数据;游戏场景下可渲染界面却无法实现计分规则。

该基准采用匿名化静态资源和自动化测试设计,通过程序化交互验证、多层次视觉分析构建了标准化评估框架。技术层面,研究建议未来需开发新型时序交互架构,整合分层建模与多模态对齐技术,并建立渐进式训练方法。

业界专家认为,这项技术将重塑软件开发范式。普通用户通过操作演示即可生成功能网页,显著降低开发门槛;教育领域可借助动态学习过程提升教学效果;企业开发中AI生成的初始代码框架能加速原型设计。随着技术发展,该成果有望推动AI从前端代码生成向全流程自动化开发演进。

© 版权声明

相关文章