AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

一句話解鎖 100k + 上下文大模型真實力,27 分漲到 98,GPT-4、Claude2.1 適用

來源: 責編: 時間:2023-12-14 16:34:47 301觀看
導讀 各家大模型紛紛卷起上下文窗口,Llama-1 時標配還是 2k,現在不超過 100k 的已經不好意思出門了。然鵝一項極限測試卻發現,大部分人用法都不對,沒發揮出 AI 應有的實力。AI 真的能從幾十萬字中準確找到關鍵事實嗎?顏

各家大模型紛紛卷起上下文窗口,Llama-1 時標配還是 2k,現在不超過 100k 的已經不好意思出門了。ikt28資訊網——每日最新資訊28at.com

然鵝一項極限測試卻發現,大部分人用法都不對,沒發揮出 AI 應有的實力。ikt28資訊網——每日最新資訊28at.com

AI 真的能從幾十萬字中準確找到關鍵事實嗎?顏色越紅代表 AI 犯的錯越多。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

默認情況下,GPT-4-128k 和最新發布的 Claude2.1-200k 成績都不太理想。ikt28資訊網——每日最新資訊28at.com

但 Claude 團隊了解情況后,給出超簡單解決辦法,增加一句話,直接把成績從 27% 提升到 98%。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

只不過這句話不是加在用戶提問上的,而是讓 AI 在回復的開頭先說:ikt28資訊網——每日最新資訊28at.com

“Here is the most relevant sentence in the context:”ikt28資訊網——每日最新資訊28at.com

(這就是上下文中最相關的句子:)ikt28資訊網——每日最新資訊28at.com

讓大模型大海撈針

為了做這項測試,作者 Greg Kamradt 自掏腰包花費了至少 150 美元。ikt28資訊網——每日最新資訊28at.com

好在測試 Claude2.1 時,Anthropic 伸出援手給他提供了免費額度,不然還得多花 1016 美元。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

其實測試方法也不復雜,都是選用 YC 創始人 Paul Graham 的 218 篇博客文章當做測試數據。ikt28資訊網——每日最新資訊28at.com

在文檔中的不同位置添加特定語句:在舊金山最好的事情,就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。ikt28資訊網——每日最新資訊28at.com

請 GPT-4 和 Claude2.1 僅僅使用所提供的上下文來回答問題,在不同上下文長度和添加在不同位置的文檔中反復測試。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

最后使用 Langchain Evals 庫來評估結果。ikt28資訊網——每日最新資訊28at.com

作者把這套測試命名為“干草堆里找針 / 大海撈針”,并把代碼開源在 GitHub 上,已獲得 200 + 星,并透露已經有公司贊助了對下一個大模型的測試。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

AI 公司自己找到解決辦法

幾周后,Claude 背后公司 Anthropic 仔細分析后卻發現,AI 只是不愿意回答基于文檔中單個句子的問題,特別是這個句子是后來插入的,和整篇文章關系不大的時候。ikt28資訊網——每日最新資訊28at.com

也就是說,AI 判斷這句話和文章主題無關,就偷懶不去一句一句找了。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

這時就需要用點手段晃過 AI,要求 Claude 在回答開頭添加那句“Here is the most relevant sentence in the context:”就能解決。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

使用這個辦法,在尋找不是后來人為添加、本來就在原文章中的句子時,也能提高 Claude 的表現。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

Anthropic 公司表示將來會不斷地繼續訓練 Claude,讓它能更適應此類任務。ikt28資訊網——每日最新資訊28at.com

在 API 調用時要求 AI 以指定開頭回答,還有別的妙用。ikt28資訊網——每日最新資訊28at.com

創業者 Matt Shumer 看過這個方案后補充了幾個小技巧:ikt28資訊網——每日最新資訊28at.com

如果想讓 AI 輸出純 JSON 格式,提示詞的最后以“{”結尾。同理,如果想讓 AI 列出羅馬數字,提示詞以“I:”結尾就行。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

不過事情還沒完……ikt28資訊網——每日最新資訊28at.com

國內大模型公司也注意到了這項測試,開始嘗試自家大模型能不能通過。ikt28資訊網——每日最新資訊28at.com

同樣擁有超長上下文的月之暗面 Kimi 大模型團隊也測出了問題,但給出了不同的解決方案,也取得了很好的成績。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

這樣一來,修改用戶提問 Prompt,又比要求 AI 在自己的回答添加一句更容易做到,特別是在不是調用 API,而是直接使用聊天機器人產品的情況下。ikt28資訊網——每日最新資訊28at.com

月之暗面還用自己的新方法幫 GPT-4 和 Claude2.1 測試了一下,結果 GPT-4 改善明顯,Claude2.1 只是稍微改善。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

看來這個實驗本身有一定局限性,Claude 也是有自己的特殊性,可能與他們自己的對齊方式 Constituional AI 有關,需要用 Anthropic 自己提供的辦法更好。ikt28資訊網——每日最新資訊28at.com

后來,月之暗面的工程師還搞了更多輪實驗,其中一個居然是……ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

壞了,我成測試數據了。ikt28資訊網——每日最新資訊28at.com

ikt28資訊網——每日最新資訊28at.com

參考鏈接:ikt28資訊網——每日最新資訊28at.com

[1]https://x.com/GregKamradt/status/1727018183608193393ikt28資訊網——每日最新資訊28at.com

[2]https://www.anthropic.com/index/claude-2-1-promptingikt28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨ikt28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-2886-0.html一句話解鎖 100k + 上下文大模型真實力,27 分漲到 98,GPT-4、Claude2.1 適用

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 馬斯克的 AI 聊天機器人 Grok 出現“幻覺”,誤認為自己是 OpenAI 的產品

下一篇: OpenAI 宣布近期修復 GPT-4“變懶”問題,將在離線評估及 A B 測試后更新模型

標簽:
  • 熱門焦點
  • 元媧2.7上線:虛擬人視頻制作速度瘋狂翻倍!

    來源:清元宇宙 炎炎夏日努力工作的Q仔的電腦都冒煙兒啦~今天要給大家介紹兩個新小伙伴——小元和小媧,他們將給大家解讀元媧2.7版本重磅更新內容~大家掌聲歡迎~~~本次更
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 刷完一場元宇宙世界杯音樂盛典,我爽了

    作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了?三刷都不嫌多的那種。按照慣例,每逢年底,直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
  • 關于年度熱詞NFT,除了錢,我們還可以聊點啥?

    每到年底,社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞,你會想到什么?柯林斯詞典將年度熱詞頒給了“NFT”,而其理由是:一個縮寫詞的
  • 元宇宙風口下,視覺中國如何重估?

    要說橫跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一個。不僅互聯網巨頭們紛紛布局,上市公司們趨之若鶩,還被不少地方政府寫入了產業規劃,大有在2022年
  • 區塊鏈產業人才發展報告

    工業和信息化部作為工業和信息化行業主管部門,正在著力推進“兩個強國”建設,加快推動以區塊鏈為代表的新興技術與實體經濟深度融合。我國區塊鏈技術和應用想要
  • 獨立故事片“Calladita”將使用 NFT 籌集資金

    導演 Miguel Faus 正在轉向加密來資助他的處女作,由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”(導演 Miguel Faus)。圖片:米格爾·福斯在過去的一年
  • 美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

    今天,Billboard宣布與流行的NFT頭像集World of Women(WoW)建立新的伙伴關系,向NFT生態系統又邁進了一步。在這次合作中,WoW的創建者Yam Karkai將幫助這個音樂行業巨
  • 從概念到落地 Web3.0初具雛形

    加密資產熱潮催生出的鏈上應用中,除了DeFi、NFT、鏈游GameFi等場景外,還有一個熱詞叫「Web3.0」。Web3.0的概念最早出現在2014年,由以太坊聯合創始人及波卡創建者
Top