7 月 7 日消息,今日阿里云宣布,通義正式開源網絡智能體 WebSailor,該智能體具備強大的推理和檢索能力,發布后在智能體評測集 BrowseComp 上登頂開源網絡智能體榜單。注意到,目前 WebSailor 的構建方案及部分數據集已在 Github 開源。
據阿里云介紹,WebSailor 網絡智能體可以應用復雜場景下的檢索任務,對于模糊問題可迅速在不同的網頁中進行快速檢索并推理驗證,從而在海量信息中通過嚴密的多步推理和交叉驗證最終得出檢索答案。
同時,針對該智能體的訓練,通義實驗室團隊采用了整套創新的 post-training 方法,大幅提升了該開源模型在復雜網頁推理任務上的表現,在高難度智能體評測集 BrowseComp 上,WebSailor 的成績超越了 DeepSeek R1、Grok-3 等模型和智能體,一舉登頂開源網絡智能體榜單。
開源地址:
https://github.com/Alibaba-NLP/WebAgent
為了驗證 WebSailor 的實驗效果,通義實驗室在多個 benchmark 評測集上進行實測。
BrowseComp 是 Open AI 開源的瀏覽器檢索效果評測集,旨在評測大模型和智能體的檢索性能,發布數月以來,該評測集包含了 1266 個高難度問題,是目前難度最高的評測集之一,業界尚無開源系統取得接近閉源模型的成績。
英文版和中文版 BrowseComp 評測集的實測結果顯示,WebSailor 跨越了開源和閉源系統之間的鴻溝,WebSailor-32B、WebSailor-72B 不僅在開源模型和 Agent 陣營里實現了斷層領先,甚至超越了 DeepSeek R1、Grok-3 等閉源模型(注:官方原話,DeepSeek R1 應為開源模型),僅次于閉源的 OpenAI DeepResearch。
盡管 WebSailor 僅基于高難度數據訓練,但在聚焦普通任務 SimpleQA 的數據集上,WebSailor 的表現也超越了其它方法,展現出極強的兼容性和有效性,驗證了 WebSailor 方法的泛化能力。
阿里云稱,WebSailor 提供了一個通用的 workflow,可借鑒到其他領域的問題中。它強調的“高難度任務合成 + 小規模冷啟動 + 高效 RL 優化”的組合拳策略,具有很強的普適性。未來,開源社區可以參考 WebSailor 的思路,去攻克更多類似“超越人類能力”的任務 —— 比如開放領域的復雜推理問答、學術知識發現,甚至跨模態的信息整合等。
本文鏈接:http://www.tebozhan.com/showinfo-45-14447-0.html阿里通義開源網絡智能體 WebSailor,登頂開源網絡智能體榜單
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com