AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版給了瑞士洛桑聯邦理工團隊:研究不微調只靠提示詞能走多遠

來源: 責編: 時間:2024-06-06 17:36:04 201觀看
導讀 除了 OpenAI 自己,居然還有別人能用上 GPT-4-Base 版??也就是未經微調的預訓練版,還不會對話聊天,只會補全句子的模型。EPFL(瑞士洛桑聯邦理工)團隊申請到了訪問權限,用于研究“上下文學習足以讓大模型跟隨指令嗎?”。

除了 OpenAI 自己,居然還有別人能用上 GPT-4-Base 版??也就是未經微調的預訓練版,還不會對話聊天,只會補全句子的模型。fQ428資訊網——每日最新資訊28at.com

EPFL(瑞士洛桑聯邦理工)團隊申請到了訪問權限,用于研究“上下文學習足以讓大模型跟隨指令嗎?”。fQ428資訊網——每日最新資訊28at.com

也就是不用監督微調、也不用 RHLF 或其他強化學習對齊方法,只靠提示詞能走多遠?fQ428資訊網——每日最新資訊28at.com

預訓練模型,究竟能不能一步登天,直接改造成聊天機器人或 AI 助手?fQ428資訊網——每日最新資訊28at.com

fQ428資訊網——每日最新資訊28at.com

如果可行,將大大降低類 ChatGPT 大模型的開發難度。fQ428資訊網——每日最新資訊28at.com

免微調對齊靠譜嗎?

免微調對齊,讓剛出爐的預訓練模型不止會“文本補全”,只從提示詞中學會和用戶對話、跟隨指令,一直是業界關注的研究方向。fQ428資訊網——每日最新資訊28at.com

目前的 SOTA 方法(指某個領域在之前的研究中效果最好的方法)URIAL 來自艾倫研究所,使用系統提示詞 + 少數風格示例就能達到不錯的效果。fQ428資訊網——每日最新資訊28at.com

fQ428資訊網——每日最新資訊28at.com

但 EPFL 團隊發現,URIAL 仍無法完全彌補與指令微調模型的差距,尤其在多輪對話中的表現更差一些。fQ428資訊網——每日最新資訊28at.com

實驗中,在 Llama 系列、Mistral 系列和一般人接觸不到的 GPT-4-Base 都觀察到這種現象。fQ428資訊網——每日最新資訊28at.com

其中 GPT-4-Base 的 API 訪問權限從 OpenAI Researcher Access Program 項目中申請到。fQ428資訊網——每日最新資訊28at.com

fQ428資訊網——每日最新資訊28at.com

EPFL 團隊從這里出發,嘗試了各種辦法來提升上下文學習的效果。fQ428資訊網——每日最新資訊28at.com

首先他們增加示例的數量,但發現幫助不大,沒有隨著例子數目增加性能就提升的趨勢。這一點跟圖像分類、機器翻譯等任務還不太一樣。fQ428資訊網——每日最新資訊28at.com

fQ428資訊網——每日最新資訊28at.com

然后他們使用了貪心搜索算法,從一大堆示例中選擇最佳的添加到上下文。fQ428資訊網——每日最新資訊28at.com

這種方法可以進一步提高性能,但與指令微調模型的差距仍然存在,特別是在 AlpacaEval 2.0 基準測試中。fQ428資訊網——每日最新資訊28at.com

fQ428資訊網——每日最新資訊28at.com

此外他們還發現,貪心搜索為某個特定模型找到的最佳示例,對于其他模型不能可靠地遷移。fQ428資訊網——每日最新資訊28at.com

也就是說,不同的示例適合不同的模型。fQ428資訊網——每日最新資訊28at.com

fQ428資訊網——每日最新資訊28at.com

團隊還進行了一系列消融實驗(指移除或變換某個組件,來研究該組件對系統功能的影響),以更多地了解上下文學習的工作原理。fQ428資訊網——每日最新資訊28at.com

他們發現,在 MT-Bench 這樣的綜合評測中,示例包含正確的“問題-答案對”至關重要。fQ428資訊網——每日最新資訊28at.com

這與此前大模型在分類任務中,只要有大量示例,部分標簽錯了也無所謂的發現非常不同。fQ428資訊網——每日最新資訊28at.com

fQ428資訊網——每日最新資訊28at.com

所以最終得出的結論是:fQ428資訊網——每日最新資訊28at.com

即使采用更多復雜的改進方法,完全縮小上下文學習和指令微調之間的差距也有挑戰,即使對于非常長上下文的大模型也是如此。fQ428資訊網——每日最新資訊28at.com

論文最后分析,大語言模型可能通過上下文學習只學會了如何模仿例子里的回答風格,但還沒有真正理解執行指令的邏輯。fQ428資訊網——每日最新資訊28at.com

指令跟隨任務相對還是比較復雜和開放的,沒那么容易掌握。fQ428資訊網——每日最新資訊28at.com

想讓 AI 助手更“聽話”,暫時還是很難有捷徑可走。fQ428資訊網——每日最新資訊28at.com

論文地址:fQ428資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2405.19874fQ428資訊網——每日最新資訊28at.com

參考鏈接:fQ428資訊網——每日最新資訊28at.com

[1]https://x.com/maksym_andr/status/1796574297894318136fQ428資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨fQ428資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版給了瑞士洛桑聯邦理工團隊:研究不微調只靠提示詞能走多遠

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Zoom 創始人談視頻會議未來:數字人“代勞”參會,本人可抽出時間陪伴家人

下一篇: “全球首創”單臺 RTX 4090 服務器推理,昆侖萬維開源 2 千億稀疏大模型天工 MoE

標簽:
  • 熱門焦點
Top