谷歌发布Gemini 2.5计算机使用模型:AI可直接操作界面实现自动化交互

谷歌于2025年10月8日正式发布Gemini 2.5计算机使用模型(Gemini 2.5 Computer Use),这是一款基于Gemini 2.5 Pro构建的专用人工智能模型,旨在通过视觉理解与推理能力直接操作用户界面(UI),实现浏览器及应用程序的自动化交互。该模型目前已通过Google AI Studio和Vertex AI平台向开发者开放预览。

Gemini 2.5计算机使用模型的核心功能是通过迭代式“计算机使用循环”完成交互任务。开发者需向模型提供用户请求、当前屏幕截图及近期操作历史,模型分析后生成响应并执行具体操作,例如点击按钮、输入文本或滚动页面。对于高风险操作(如支付或购买),模型会主动请求用户确认。其技术亮点在于能够处理未开放API的传统图形界面,适用于用户界面测试或自动化流程构建。

在性能方面,该模型在网页与移动端控制的多项基准测试中表现领先,尤其在浏览器交互场景下实现了低延迟响应。谷歌透露,其早期研究原型“Mariner”已成功应用于根据食材清单自动添加购物车等任务。目前模型支持13种基础操作,包括表单填写、导航和拖放等,主要优化场景为网络浏览器,但移动端UI控制也展现出潜力。

此次发布正值AI行业竞争加剧之际。OpenAI在前一日开发者大会上强化了ChatGPT智能体功能,而Anthropic去年已推出类似Claude模型的计算机使用版本。谷歌强调,Gemini 2.5计算机使用模型的差异化优势在于其视觉推理能力与现有生态的深度整合,例如已应用于Chrome代码审查流程。

业界分析指出,该技术将显著提升自动化测试效率和复杂任务的执行能力,但需持续优化对桌面操作系统的支持。谷歌表示未来会扩展模型的操作类型,并加强安全验证机制。

© 版权声明

相关文章