吉林大学AI重大突破:ScreenExplorer智能体实现GUI自主操作

AI新闻资讯21小时前发布 AI视野

吉林大学人工智能学院近日发布了一项突破性研究成果,其开发的“屏幕探索者”(ScreenExplorer智能体首次实现了视觉语言模型(VLM)对图形用户界面(GUI)的自主探索与操作能力。这项发表于《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》的研究,标志着AI在开放环境交互领域取得重要进展。

研究团队通过融合强化学习与大模型技术,使智能体具备跨应用泛化能力。该智能体不仅能解析屏幕视觉信息,还能模拟人类操作逻辑,在未经预设的软件环境中主动学习界面导航、功能调用等复杂操作。论文第一作者牛润良博士指出,这项技术的核心突破在于解决了传统AI在动态GUI环境中的探索-利用平衡问题。

通讯作者王琪研究员强调,该成果为通用人工智能(AGI)发展提供了新路径——通过将日常计算机操作作为训练场景,智能体可积累更接近人类认知的交互经验。目前,该技术已在跨平台软件测试、无障碍辅助等领域展开应用验证,相关代码与数据集已在学术平台开放共享。

这项研究于6月27日通过国际学术预印本平台公开发布,其技术路线为降低AI系统对结构化数据的依赖提供了新思路,未来或推动智能助手、自动化流程等领域的技术革新。

© 版权声明

相关文章