當前位置：首頁 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版給了瑞士洛桑聯邦理工團隊：研究不微調只靠提示詞能走多遠

來源：責編：時間：2024-06-06 17:36:04 201觀看

導讀除了 OpenAI 自己，居然還有別人能用上 GPT-4-Base 版？？也就是未經微調的預訓練版，還不會對話聊天，只會補全句子的模型。EPFL（瑞士洛桑聯邦理工）團隊申請到了訪問權限，用于研究“上下文學習足以讓大模型跟隨指令嗎？”。

除了 OpenAI 自己，居然還有別人能用上 GPT-4-Base 版？？也就是未經微調的預訓練版，還不會對話聊天，只會補全句子的模型。

EPFL（瑞士洛桑聯邦理工）團隊申請到了訪問權限，用于研究“上下文學習足以讓大模型跟隨指令嗎？”。

也就是不用監督微調、也不用 RHLF 或其他強化學習對齊方法，只靠提示詞能走多遠？

預訓練模型，究竟能不能一步登天，直接改造成聊天機器人或 AI 助手？

如果可行，將大大降低類 ChatGPT 大模型的開發難度。

免微調對齊靠譜嗎？

免微調對齊，讓剛出爐的預訓練模型不止會“文本補全”，只從提示詞中學會和用戶對話、跟隨指令，一直是業界關注的研究方向。

目前的 SOTA 方法（指某個領域在之前的研究中效果最好的方法）URIAL 來自艾倫研究所，使用系統提示詞 + 少數風格示例就能達到不錯的效果。

但 EPFL 團隊發現，URIAL 仍無法完全彌補與指令微調模型的差距，尤其在多輪對話中的表現更差一些。

實驗中，在 Llama 系列、Mistral 系列和一般人接觸不到的 GPT-4-Base 都觀察到這種現象。

其中 GPT-4-Base 的 API 訪問權限從 OpenAI Researcher Access Program 項目中申請到。

EPFL 團隊從這里出發，嘗試了各種辦法來提升上下文學習的效果。

首先他們增加示例的數量，但發現幫助不大，沒有隨著例子數目增加性能就提升的趨勢。這一點跟圖像分類、機器翻譯等任務還不太一樣。

然后他們使用了貪心搜索算法，從一大堆示例中選擇最佳的添加到上下文。

這種方法可以進一步提高性能，但與指令微調模型的差距仍然存在，特別是在 AlpacaEval 2.0 基準測試中。

此外他們還發現，貪心搜索為某個特定模型找到的最佳示例，對于其他模型不能可靠地遷移。

也就是說，不同的示例適合不同的模型。

團隊還進行了一系列消融實驗（指移除或變換某個組件，來研究該組件對系統功能的影響），以更多地了解上下文學習的工作原理。

他們發現，在 MT-Bench 這樣的綜合評測中，示例包含正確的“問題-答案對”至關重要。

這與此前大模型在分類任務中，只要有大量示例，部分標簽錯了也無所謂的發現非常不同。

所以最終得出的結論是：

即使采用更多復雜的改進方法，完全縮小上下文學習和指令微調之間的差距也有挑戰，即使對于非常長上下文的大模型也是如此。

論文最后分析，大語言模型可能通過上下文學習只學會了如何模仿例子里的回答風格，但還沒有真正理解執行指令的邏輯。

指令跟隨任務相對還是比較復雜和開放的，沒那么容易掌握。

想讓 AI 助手更“聽話”，暫時還是很難有捷徑可走。

論文地址：

https://arxiv.org/abs/2405.19874

參考鏈接：

[1]https://x.com/maksym_andr/status/1796574297894318136

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨

本文鏈接：http://www.tebozhan.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版給了瑞士洛桑聯邦理工團隊：研究不微調只靠提示詞能走多遠

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Zoom 創始人談視頻會議未來：數字人“代勞”參會，本人可抽出時間陪伴家人

下一篇： “全球首創”單臺 RTX 4090 服務器推理，昆侖萬維開源 2 千億稀疏大模型天工 MoE

標簽：

熱門焦點

數字人的新革命，BAT的“沖高”戰場

來源：劉曠ChatGPT橫空出世，讓人們看到了數字人的另一種可能，將ChatGPT與虛擬數字人融合，研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份，嶺南股份
林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注，該新聞一方面在娛樂圈引起了吃瓜群眾的好奇，另一方面在
完美世界被元宇宙“拒之門外”

春節期間，游戲是消磨時間最好的方式，完美世界的《幻塔》作為選擇的首要目標，倒不是因為它的吸引力有多大，純粹是廣大網友的吐槽。繼《原神》之后，進擊元宇宙的游戲
中國銀保監管委提示：謹慎投資，勿做接盤俠

中國銀保監管委，發布一則風險提示，內容圍繞防范以“元宇宙”名義進行的非法集資風險。原文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名
從冰墩墩到無聊猿，解秘未來IP爆款的模因

打造IP，是建設元宇宙的剛需。NFT能直接讓IP的價值變現；虛擬人IP是元宇宙的第一入口，而元宇宙要搭建的，就是一個個品牌IP星球，考驗的是IP世界觀的建設能力。如果說在
NFTs正迎來數十億美元的繁榮--NFT零工經濟從業者開始暴賺

當Stefan Prodanovic在13歲時開始嘗試平面設計，與一位從事編程工作的學校朋友共同創作數字游戲時，他從未料到這個愛好會在他成年后變成一個相當有利可圖的生意。
頭像類NFTs的統治能持續多久？

在過去的一兩年里，NFTs在互聯網世界中掀起了一場風暴。今天，當我們想到NFTs時，我們主要想到的是那些充斥著我們的社交媒體屏幕的數字卡通--無聊猿、punks 和介于
元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能，GameFi 游戲資產化身為NFT 和代幣上鏈，具備了可驗證性和流通性；開
元宇宙+劇本殺：“在異世界里當演員”

你玩過劇本殺嗎？體驗過“元宇宙+劇本殺”嗎？2月，恒信東方推出了一款次時代劇本殺原創作品——《失落的王朝》。其劇本和線索以數字化資產打造，通過VR技術塑造了與

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 把 GPT-4 原始版給了瑞士洛桑聯邦理工團隊：研究不微調只靠提示詞能走多遠

數字人的新革命，BAT的“沖高”戰場

林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

完美世界被元宇宙“拒之門外”

中國銀保監管委提示：謹慎投資，勿做接盤俠

從冰墩墩到無聊猿，解秘未來IP爆款的模因

NFTs正迎來數十億美元的繁榮--NFT零工經濟從業者開始暴賺

頭像類NFTs的統治能持續多久？

元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

元宇宙+劇本殺：“在異世界里當演員”

最新推薦

FMIFAwards獎項即將揭曉！

Meta、谷歌、微軟競相涌入元宇宙，小型企業該如何伺機而動？

借VR產業東風，江西搶灘布局“元宇宙”

這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發揮作用

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

元宇宙不完全是想出來的，而是實打實做出來的

猜你喜歡

熱門推薦

相關資訊