吉林大学AI重大突破：ScreenExplorer智能体实现GUI自主操作

AI新闻资讯11个月前发布 AI视野

吉林大学人工智能学院近日发布了一项突破性研究成果，其开发的“屏幕探索者”（ScreenExplorer）智能体首次实现了视觉语言模型（VLM）对图形用户界面（GUI）的自主探索与操作能力。这项发表于《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》的研究，标志着AI在开放环境交互领域取得重要进展。

研究团队通过融合强化学习与大模型技术，使智能体具备跨应用泛化能力。该智能体不仅能解析屏幕视觉信息，还能模拟人类操作逻辑，在未经预设的软件环境中主动学习界面导航、功能调用等复杂操作。论文第一作者牛润良博士指出，这项技术的核心突破在于解决了传统AI在动态GUI环境中的探索-利用平衡问题。

通讯作者王琪研究员强调，该成果为通用人工智能（AGI）发展提供了新路径——通过将日常计算机操作作为训练场景，智能体可积累更接近人类认知的交互经验。目前，该技术已在跨平台软件测试、无障碍辅助等领域展开应用验证，相关代码与数据集已在学术平台开放共享。

这项研究于6月27日通过国际学术预印本平台公开发布，其技术路线为降低AI系统对结构化数据的依赖提供了新思路，未来或推动智能助手、自动化流程等领域的技术革新。

文章版权归作者所有，未经允许请勿转载。

吉林大学AI重大突破：ScreenExplorer智能体实现GUI自主操作

全国首例AI侵犯著作权案宣判：被告单位罚10万，4人获刑

北京成为全球人工智能第一城：核心产业规模近3500亿元

相关文章

苹果智能戒指专利获批：边缘照明+触觉反馈重构人机交互

神秘AI模型Horizon Alpha性能超预期，疑似GPT-5测试版引发技术社区热议

德国海德堡启用AI停车执法系统，违章率下降23%效率提升7倍

微软加速争夺AI顶尖人才，瞄准Meta核心团队展开高薪招聘

最新资讯

热门AI工具

热门资讯