香港科技大学(广州)与腾讯联合研究团队近日在人工智能领域取得重要突破,其提出的VistaWise框架成功将复杂开放世界中的AI训练成本大幅降低至传统方法的5%。该成果已被自然语言处理领域顶级会议EMNLP 2025主会收录。
研究团队以热门沙盒游戏《我的世界》(Minecraft)为实验平台,创新性地采用”跨模态知识图谱+轻量化视觉微调”技术路线。在”获取钻石”这一完整任务链上,VistaWise框架实现了33%的成功率,较此前最优方法提升8个百分点,9个连续子任务的成功率均超过73%。
与传统方法相比,VistaWise框架展现出显著优势。传统AI训练通常需要千万级标注样本和数百张高端显卡,成本高达百万级别。而该框架仅需471张游戏截图和一张24GB显存的消费级显卡即可完成视觉专家模型微调。在推理环节,使用GPT-4o进行推理的开销仅为同类方法Voyager的5%(1.28美元对比25美元)。
技术实现方面,VistaWise采用”图-检-控”三位一体设计。其核心创新包括:轻量化知识图谱构建,仅保留实体名称与关系,可在20毫秒内完成动态更新;视觉检测与检索式池化技术,减少30.7%的tokens使用而不影响性能。这些技术突破使得AI在复杂开放世界中的自主决策能力得到显著提升。
该研究由港科大(广州)人工智能学域助理教授王浩领衔,其团队在生成式智能体与三维重建领域具有深厚积累。研究成果不仅为游戏AI提供了新范式,也为数字孪生、线上运营等场景的大模型应用开辟了更具成本效益的技术路径。
© 版权声明
文章版权归作者所有,未经允许请勿转载。