當前位置：首頁 > 元宇宙 > AI

一句話解鎖 100k + 上下文大模型真實力，27 分漲到 98，GPT-4、Claude2.1 適用

來源：責編：時間：2023-12-14 16:34:47 301觀看

導讀各家大模型紛紛卷起上下文窗口，Llama-1 時標配還是 2k，現在不超過 100k 的已經不好意思出門了。然鵝一項極限測試卻發現，大部分人用法都不對，沒發揮出 AI 應有的實力。AI 真的能從幾十萬字中準確找到關鍵事實嗎？顏

各家大模型紛紛卷起上下文窗口，Llama-1 時標配還是 2k，現在不超過 100k 的已經不好意思出門了。

然鵝一項極限測試卻發現，大部分人用法都不對，沒發揮出 AI 應有的實力。

AI 真的能從幾十萬字中準確找到關鍵事實嗎？顏色越紅代表 AI 犯的錯越多。

默認情況下，GPT-4-128k 和最新發布的 Claude2.1-200k 成績都不太理想。

但 Claude 團隊了解情況后，給出超簡單解決辦法，增加一句話，直接把成績從 27% 提升到 98%。

只不過這句話不是加在用戶提問上的，而是讓 AI 在回復的開頭先說：

“Here is the most relevant sentence in the context:”

（這就是上下文中最相關的句子：）

讓大模型大海撈針

為了做這項測試，作者 Greg Kamradt 自掏腰包花費了至少 150 美元。

好在測試 Claude2.1 時，Anthropic 伸出援手給他提供了免費額度，不然還得多花 1016 美元。

其實測試方法也不復雜，都是選用 YC 創始人 Paul Graham 的 218 篇博客文章當做測試數據。

在文檔中的不同位置添加特定語句：在舊金山最好的事情，就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。

請 GPT-4 和 Claude2.1 僅僅使用所提供的上下文來回答問題，在不同上下文長度和添加在不同位置的文檔中反復測試。

最后使用 Langchain Evals 庫來評估結果。

作者把這套測試命名為“干草堆里找針 / 大海撈針”，并把代碼開源在 GitHub 上，已獲得 200 + 星，并透露已經有公司贊助了對下一個大模型的測試。

AI 公司自己找到解決辦法

幾周后，Claude 背后公司 Anthropic 仔細分析后卻發現，AI 只是不愿意回答基于文檔中單個句子的問題，特別是這個句子是后來插入的，和整篇文章關系不大的時候。

也就是說，AI 判斷這句話和文章主題無關，就偷懶不去一句一句找了。

這時就需要用點手段晃過 AI，要求 Claude 在回答開頭添加那句“Here is the most relevant sentence in the context:”就能解決。

使用這個辦法，在尋找不是后來人為添加、本來就在原文章中的句子時，也能提高 Claude 的表現。

Anthropic 公司表示將來會不斷地繼續訓練 Claude，讓它能更適應此類任務。

在 API 調用時要求 AI 以指定開頭回答，還有別的妙用。

創業者 Matt Shumer 看過這個方案后補充了幾個小技巧：

如果想讓 AI 輸出純 JSON 格式，提示詞的最后以“{”結尾。同理，如果想讓 AI 列出羅馬數字，提示詞以“I:”結尾就行。

不過事情還沒完……

國內大模型公司也注意到了這項測試，開始嘗試自家大模型能不能通過。

同樣擁有超長上下文的月之暗面 Kimi 大模型團隊也測出了問題，但給出了不同的解決方案，也取得了很好的成績。

這樣一來，修改用戶提問 Prompt，又比要求 AI 在自己的回答添加一句更容易做到，特別是在不是調用 API，而是直接使用聊天機器人產品的情況下。

月之暗面還用自己的新方法幫 GPT-4 和 Claude2.1 測試了一下，結果 GPT-4 改善明顯，Claude2.1 只是稍微改善。

看來這個實驗本身有一定局限性，Claude 也是有自己的特殊性，可能與他們自己的對齊方式 Constituional AI 有關，需要用 Anthropic 自己提供的辦法更好。

后來，月之暗面的工程師還搞了更多輪實驗，其中一個居然是……

壞了，我成測試數據了。

參考鏈接：

[1]https://x.com/GregKamradt/status/1727018183608193393

[2]https://www.anthropic.com/index/claude-2-1-prompting

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨

本文鏈接：http://www.tebozhan.com/showinfo-45-2886-0.html一句話解鎖 100k + 上下文大模型真實力，27 分漲到 98，GPT-4、Claude2.1 適用

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：馬斯克的 AI 聊天機器人 Grok 出現“幻覺”，誤認為自己是 OpenAI 的產品

下一篇： OpenAI 宣布近期修復 GPT-4“變懶”問題，將在離線評估及 A B 測試后更新模型

標簽：

熱門焦點

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

來源：清元宇宙炎炎夏日努力工作的Q仔的電腦都冒煙兒啦～今天要給大家介紹兩個新小伙伴——小元和小媧，他們將給大家解讀元媧2.7版本重磅更新內容～大家掌聲歡迎～～～本次更
拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
刷完一場元宇宙世界杯音樂盛典，我爽了

作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了？三刷都不嫌多的那種。按照慣例，每逢年底，直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
關于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
元宇宙風口下，視覺中國如何重估？

要說橫跨2021年和2022年，到目前仍然很火的概念，元宇宙肯定要算一個。不僅互聯網巨頭們紛紛布局，上市公司們趨之若鶩，還被不少地方政府寫入了產業規劃，大有在2022年
區塊鏈產業人才發展報告

工業和信息化部作為工業和信息化行業主管部門，正在著力推進“兩個強國”建設，加快推動以區塊鏈為代表的新興技術與實體經濟深度融合。我國區塊鏈技術和應用想要
獨立故事片“Calladita”將使用 NFT 籌集資金

導演 Miguel Faus 正在轉向加密來資助他的處女作，由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”（導演 Miguel Faus）。圖片：米格爾·福斯在過去的一年
美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

今天，Billboard宣布與流行的NFT頭像集World of Women（WoW）建立新的伙伴關系，向NFT生態系統又邁進了一步。在這次合作中，WoW的創建者Yam Karkai將幫助這個音樂行業巨
從概念到落地 Web3.0初具雛形

加密資產熱潮催生出的鏈上應用中，除了DeFi、NFT、鏈游GameFi等場景外，還有一個熱詞叫「Web3.0」。Web3.0的概念最早出現在2014年，由以太坊聯合創始人及波卡創建者

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

一句話解鎖 100k + 上下文大模型真實力，27 分漲到 98，GPT-4、Claude2.1 適用

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

拯救XR，蘋果力不從心

刷完一場元宇宙世界杯音樂盛典，我爽了

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

元宇宙風口下，視覺中國如何重估？

區塊鏈產業人才發展報告

獨立故事片“Calladita”將使用 NFT 籌集資金

美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

從概念到落地 Web3.0初具雛形

最新推薦

數字虛擬人23年最新變化！

完美世界被元宇宙“拒之門外”

虛擬數字人：元宇宙的主角破圈而來

NFT高玩必備：NFT分析工具大盤點

知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

百度虛擬人——AI手語主播首次亮相冬奧會！

猜你喜歡

熱門推薦

相關資訊