微软开源Fara-7B视觉语言模型:专攻网页自动化,端侧运行保护隐私

微软近日推出开源小型语言模型Fara-7B,专为计算机操作场景设计,通过视觉驱动实现网页任务自动化。该模型于11月24日正式发布,具备70亿参数,支持本地端侧运行,在隐私保护和低延迟方面表现突出。

Fara-7B采用创新性视觉交互机制,直接解析屏幕截图完成点击、输入等操作,无需依赖传统可访问性树或多模型协作。其核心技术基于Qwen2.5-VL-7B架构,支持128k上下文长度,通过Magentic-One框架生成的14.5万条任务轨迹进行监督微调训练,涵盖100万操作步骤及辅助视觉任务数据。

性能测试显示,在WebVoyager基准中任务通过率达62%-73.5%,优于UI-TARS-1.5-7B等同级模型,部分场景甚至可对标GPT-4o系统。操作效率方面,平均仅需16步即可完成任务,显著领先竞品的41步需求。微软特别开发了”关键点”安全机制,当涉及敏感操作时会暂停执行并请求用户确认。

目前该模型已在Microsoft Foundry和Hugging Face平台开源,未来版本计划支持NPU加速。研究人员指出,Fara-7B仍存在复杂任务准确性等局限,但其视觉驱动范式为AI智能体发展提供了新方向,特别是在处理动态网页时展现出独特优势。

© 版权声明

相关文章