阿里巴巴近日推出开源多模态智能体WebWatcher,该智能体在多项视觉问答(VQA)基准测试中表现优异,性能超越当前主流模型GPT-4o。WebWatcher由阿里巴巴达摩院自然语言处理团队开发,旨在解决传统深度研究工具在多模态信息处理上的局限性,将视觉理解纳入研究闭环,实现图文融合与工具协同。
WebWatcher的核心能力在于其多模态深度研究功能。不同于传统以文本为中心的深度研究工具,WebWatcher能够处理图表、网页截图、PDF等多种可视化信息,通过整合网页浏览、图像搜索、代码解释器和OCR等工具,实现对复杂信息的检索、比对、反证与写作。这种能力使其在处理高难度研究任务时更具优势。
在技术实现上,WebWatcher采用了一套完整的技术方案,包括多模态高难度数据生成、高质量推理轨迹构建与后训练,以及高难度基准评测。研究团队设计了一个全自动多模态数据生成流程,通过随机游走收集跨模态知识链,并引入信息模糊化技术提升任务的复杂性和不确定性。此外,团队还提出了BrowseComp-VL基准,用于验证模型在多模态深度推理任务中的表现。
评测结果显示,WebWatcher在Humanity’s Last Exam(HLE-VL)、BrowseComp-VL、LiveVQA和MMSearch四个高难度VQA基准上全面领先于GPT-4o、Gemini2.5-flash等主流模型。其中,在HLE-VL这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数显著优于GPT-4o的9.8%。
此次开源标志着多模态大模型在复杂信息处理领域的重要进展。阿里巴巴表示,WebWatcher的推出将进一步推动多模态Agent在学术界和工业界的落地应用,为全球AI社区提供工业级训练框架和评估标准。
© 版权声明
文章版权归作者所有,未经允许请勿转载。