當前位置：首頁 > 元宇宙 > AI

通義實驗室新研究：大模型自己「扮演」搜索引擎，提升推理能力無需搜索 API

來源：責編：時間：2025-05-20 10:02:54 56觀看

導讀強化學習（RL）+ 真實搜索引擎，可以有效提升大模型檢索-推理能力。但問題來了：一方面，搜索引擎返回的文檔質量難以預測，給訓練過程帶來了噪音和不穩定性。另一方面，RL 訓練需要頻繁部署，會產生大量 API 開銷，嚴重限制可

強化學習（RL）+ 真實搜索引擎，可以有效提升大模型檢索-推理能力。

但問題來了：

一方面，搜索引擎返回的文檔質量難以預測，給訓練過程帶來了噪音和不穩定性。

另一方面，RL 訓練需要頻繁部署，會產生大量 API 開銷，嚴重限制可擴展性。

現在，來自阿里通義實驗室的解決方案公開了：開源 ZeroSearch，提供了一種無需與真實搜索引擎交互的強化學習框架。

實驗表明，ZeroSearch 僅需 3B 參數的 LLM 作為檢索模塊，即可有效提升搜索能力，節省了高昂 API 成本。

ZeroSearch 讓 LLM“自給自足”實現搜索進化

研究團隊用模擬搜索環境 + 漸進式抗噪訓練，讓 LLM 不再依賴昂貴搜索引擎 API。

輕量微調：把 LLM 變成“搜索引擎模擬器”

用少量標注數據微調 LLM，使其能按指令生成兩種文檔 —— 有用結果和噪聲干擾。

通過收集與真實搜索引擎交互的數據，ZeroSearch 對 LLM 進行輕量級監督微調。

在這個過程中，模型學會生成與真實搜索引擎風格相似的文檔，同時能夠根據提示詞生成相關或噪聲文檔。

這種能力使得模型在訓練過程中能夠動態調整文檔質量，從而更好地模擬真實檢索場景。

課程化抗噪訓練：像打游戲升級一樣練模型

訓練初期返回高質文檔，后期逐漸混入噪聲（噪聲比例按指數曲線上升）。

ZeroSearch 引入了課程式學習機制，逐步降低生成文檔的質量，使模型從簡單的檢索場景逐步過渡到更具挑戰性的任務。

這種策略不僅提升了模型的推理能力，還顯著增強了訓練的穩定性和效果。

隨著訓練的進行，模型逐漸適應更復雜的檢索任務，最終能夠在高質量和低質量文檔中找到平衡。

強化學習閉環：自產自銷的搜索生態

ZeroSearch 通過模擬搜索引擎，完全消除了與真實搜索引擎交互的 API 費用，使得大規模強化學習訓練變得更加經濟可行。

并且，ZeroSearch 兼容多種強化學習算法，包括 PPO（Proximal Policy Optimization）和 GRPO（Group Relative Policy Optimization）。

這些算法為模型提供了不同的優化策略，使得 ZeroSearch 能夠在不同的模型和任務中表現出色。

實驗表明，GRPO 在訓練穩定性方面表現更好，而 PPO 則在某些任務中提供了更高的靈活性。

實驗結果及結論

ZeroSearch 的零 API 成本優勢不僅體現在經濟上，還體現在訓練的靈活性和可擴展性上。

ZeroSearch vs. 現有方法

在圖中，我們可以清晰地看到 ZeroSearch 在多個問答數據集上的表現。

無論是單跳（Single-Hop）還是多跳（Multi-Hop）問答任務，ZeroSearch 都顯著優于現有的基線方法，包括直接提示、RAG 和 Search-R1 等。

這表明 ZeroSearch 不僅在簡單任務中表現出色，還能在復雜的多跳問答任務中發揮強大的檢索能力。

上圖展示了 ZeroSearch 和 Search-R1（使用真實搜索引擎）在 LLaMA-3.2-3B 模型上的獎勵曲線對比。

ZeroSearch 的學習曲線更加平滑且最終性能優于 Search-R1，表明其在訓練過程中的穩定性和優越性。

不同模型規模的性能

可以看到使用 7B 參數的檢索模塊就能達到與谷歌搜索相當的性能，而 14B 參數的檢索模塊甚至能夠超越谷歌搜索。

這表明 ZeroSearch 不僅適用于小型模型，還能在大型模型中發揮更大的潛力，為 LLM 的檢索能力提升提供了廣闊的空間。

強化學習算法的兼容性

比較了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上，使用 PPO 和 GRPO 算法的 ZeroSearch 性能，可以看到 ZeroSearch 與 PPO 和 GRPO 兩種強化學習算法的兼容性。

實驗結果表明，GRPO 在訓練穩定性方面表現更好，而 PPO 則在某些任務中提供了更高的靈活性。

這表明 ZeroSearch 能夠適應不同的強化學習算法，為研究人員提供了更多的選擇。

通過模擬搜索引擎，ZeroSearch 完全消除了 API 成本，同時通過課程式學習策略逐步提升模型的推理能力。

論文第一作者孫浩目前是北京大學智能學院四年級博士研究生，研究方向聚焦于檢索增強的大語言模型與智能體，師從張巖教授。

論文鏈接：

https://arxiv.org/abs/2505.04588

項目主頁：

https://alibaba-nlp.github.io/ ZeroSearch

本文來自微信公眾號：量子位（ID：QbitAI），作者：聞樂

本文鏈接：http://www.tebozhan.com/showinfo-45-13012-0.html通義實驗室新研究：大模型自己「扮演」搜索引擎，提升推理能力無需搜索 API

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI ChatGPT 被曝將支持 MCP 協議，可接入第三方 AI 服務

下一篇：谷歌安卓將推新 ML Kit GenAI API，擴展端側 Gemini Nano AI 模型訪問

標簽：

熱門焦點

拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
“任何國產元宇宙都是假元宇宙”

上個月，華語樂壇的優質偶像之一，DOTA2資深玩家林俊杰，在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產，花了12.3萬美元（也就是人民幣接近80萬）。截至目
韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

韓國投資公司(KIC)CEO Seoungho Jin預計，該公司在舊金山的辦事處今年將擴招人手，探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

2 月 13 日，美東時間 18:30，有著“美國春晚”之譽的超級碗（Super Bowl）落下帷幕。超級碗是美國國家美式足球聯盟（也稱為國家橄欖球聯盟）的年度冠軍賽，勝者將成為“世
高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

擴展現實（XR）通過計算機將真實與虛擬相結合，打造了一個可人機交互的虛擬環境，將AR、VR、MR多種技術相融合，為體驗者帶來了虛擬世界與現實世界之間無縫轉換的“沉浸
韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

財聯社|區塊鏈日報28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產業；韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關注。許多人愿意為數字藝術支付數百萬美元，世界正在走向數字化。報告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
如何在元宇宙中建立品牌忠誠度

Snoop Dogg、耐克、蘇富比和普華永道都有什么共同點？他們都投資于元宇宙的房地產。除了我們在屏幕上看到的二維世界--手機、筆記本電腦、臺式機或iPad--他們決
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

通義實驗室新研究：大模型自己「扮演」搜索引擎，提升推理能力無需搜索 API

拯救XR，蘋果力不從心

“任何國產元宇宙都是假元宇宙”

韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

如何在元宇宙中建立品牌忠誠度

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

最新推薦

《蜘蛛俠》火了，超級英雄就該這么演

“任何國產元宇宙都是假元宇宙”

如何對一款 NFT 項目進行價值評估？

搭上“谷愛凌”，“柳夜熙們”站上風口？

中國區塊鏈產業生態地圖報告（2021）

下一個黃金賽道？NFT的碎片化!

猜你喜歡

熱門推薦

相關資訊