阿里云于7月7日正式宣布开源其网络智能体WebSailor,该智能体凭借卓越的推理与检索能力,在OpenAI发布的高难度评测集BrowseComp中登顶开源榜单。目前,WebSailor的构建方案及部分数据集已在GitHub公开。
WebSailor专为复杂场景设计,能够高效处理模糊问题,通过多步推理和交叉验证从海量信息中精准检索答案。通义实验室采用创新的post-training方法,显著提升了模型在网页推理任务中的表现。在BrowseComp评测中,WebSailor-32B和WebSailor-72B版本不仅领先于DeepSeek R1、Grok-3等开源模型,甚至超越部分闭源系统,仅次于OpenAI DeepResearch。
BrowseComp评测集包含1266个高难度问题,是目前业界最具挑战性的评测集之一。WebSailor的表现跨越了开源与闭源系统之间的鸿沟,展现出强大的性能。此外,该智能体在普通任务数据集SimpleQA上也表现优异,验证了其泛化能力。
阿里云表示,WebSailor的通用工作流及“高难度任务合成+高效RL优化”策略,可为开源社区解决复杂推理、学术发现等挑战提供借鉴。未来,开源社区可参考WebSailor的思路,攻克更多高难度任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。