香港大学XLANG Lab与月之暗面联合发布开源框架OpenCUA,推动计算机使用智能体技术普及

AI新闻资讯11小时前发布 AI视野

香港大学XLANG Lab与月之暗面(Moonshot AI)等机构于2025年8月14日联合发布开源框架OpenCUA,旨在推动计算机使用智能体(CUA)技术的普及与创新。该框架通过完全开源的设计,首次实现了从数据采集到模型训练的全流程开放,显著降低了开发自主操作电脑Agent的技术门槛。

OpenCUA的核心组件包括三部分:一是支持多平台操作的注释工具AgentNet,可捕获人类操作计算机的实时演示数据;二是覆盖Windows、macOS和Ubuntu三大操作系统、涉及200余个应用程序及网站的大规模数据集;三是能将人类操作转化为具有长思维链推理能力的“状态-动作”对工作流程。基于此框架训练的旗舰模型OpenCUA-32B,在OSWorld-Verified基准测试中以34.8%的平均成功率刷新开源模型纪录,性能表现超越GPT-4o等闭源方案。

项目负责人、香港大学助理教授余涛强调,当前CUA系统的闭源现状制约了技术透明性与应用拓展。OpenCUA的开源策略不仅公开了代码、数据和模型权重,更构建了可扩展的研究基础设施。月之暗面创始人杨植麟作为合著者参与研究,斯坦福大学、滑铁卢大学等机构的研究人员共同贡献了跨平台验证工作。

该框架采用Kimi-VL-A3B和Qwen2-VL系列模型进行微调,其技术突破在于通过反思机制增强智能体的决策连贯性。研究团队表示,开源生态将加速CUA技术在自动化办公、无障碍辅助等场景的落地,同时为学术界提供可复现的研究基准。相关论文及开源资源已通过arXiv平台向公众开放。

© 版权声明

相关文章