阿里云开源网络智能体WebSailor，登顶OpenAI高难度评测集BrowseComp

阿里云于7月7日正式宣布开源其网络智能体 WebSailor，该智能体凭借卓越的推理与检索能力，在OpenAI发布的高难度评测集BrowseComp中登顶开源榜单。目前，WebSailor的构建方案及部分数据集已在GitHub公开。

WebSailor专为复杂场景设计，能够高效处理模糊问题，通过多步推理和交叉验证从海量信息中精准检索答案。通义实验室采用创新的post-training方法，显著提升了模型在网页推理任务中的表现。在BrowseComp评测中，WebSailor-32B和WebSailor-72B版本不仅领先于DeepSeek R1、Grok-3等开源模型，甚至超越部分闭源系统，仅次于OpenAI DeepResearch。

BrowseComp评测集包含1266个高难度问题，是目前业界最具挑战性的评测集之一。WebSailor的表现跨越了开源与闭源系统之间的鸿沟，展现出强大的性能。此外，该智能体在普通任务数据集SimpleQA上也表现优异，验证了其泛化能力。

阿里云表示，WebSailor的通用工作流及“高难度任务合成+高效RL优化”策略，可为开源社区解决复杂推理、学术发现等挑战提供借鉴。未来，开源社区可参考WebSailor的思路，攻克更多高难度任务。

文章版权归作者所有，未经允许请勿转载。

阿里云开源网络智能体WebSailor，登顶OpenAI高难度评测集BrowseComp

OpenAI GPT-5即将发布：全模态AI技术的重大飞跃

高德地图推出全球首个AI导航智能体'小高老师'，开启空间智能出行新时代

相关文章

OpenAI推进ChatGPT商业化：内置支付系统或将重塑电商体验

Waymo与谷歌Gemini深度合作：无人驾驶出租车集成AI助手，实现全流程智能服务

Meta发布WorldGen突破性技术：文本提示生成50米×50米可交互3D虚拟世界

特斯拉Optimus机器人生产进度滞后，马斯克重申百万台量产目标

最新资讯

热门AI工具

热门资讯