當前位置：首頁 > 元宇宙 > AI

DeepMind新基準QuestBench：挑戰大模型推理與信息補全能力

來源：責編：時間：2025-04-27 07:05:08 54觀看

導讀近期，科技界迎來了一項新的突破，谷歌DeepMind團隊推出了一款名為QuestBench的基準測試工具，專為評估大型語言模型（LLMs）在推理任務中的信息獲取能力而設計。這款工具采用約束滿足問題（CSPs）的框架，旨在探索LLMs在面對信息不完

近期，科技界迎來了一項新的突破，谷歌DeepMind團隊推出了一款名為QuestBench的基準測試工具，專為評估大型語言模型（LLMs）在推理任務中的信息獲取能力而設計。這款工具采用約束滿足問題（CSPs）的框架，旨在探索LLMs在面對信息不完整情境時的應對策略。

在實際應用中，推理任務涉及數學、邏輯、規劃和編程等多個領域，但往往受到信息不確定性的挑戰。例如，用戶在提出數學難題時可能會遺漏關鍵信息，而自動駕駛系統等自主設備則需在信息不全的環境中運行。這種理想與現實之間的鴻溝，促使LLMs不斷提升主動獲取缺失信息的能力。

為了衡量LLMs在這一方面的表現，DeepMind的研究人員開發了QuestBench基準測試。該測試專注于評估LLMs在推理過程中識別信息缺口，并提出恰當澄清問題的能力。通過將問題轉化為約束滿足問題（CSPs），特別是關注“1-sufficient CSPs”——即僅需一個未知變量即可解決目標變量的問題，QuestBench能夠精準地評估模型的這一能力。

QuestBench覆蓋了邏輯推理、規劃以及小學數學三大領域，并根據變量數量、約束條件、搜索深度以及暴力搜索所需猜測次數等四個難度維度進行分類。這種細致的分類方式有助于揭示模型的推理策略和性能瓶頸，為改進提供了明確的方向。

在為期數月的測試中，QuestBench對多個前沿模型進行了評估，包括GPT-4o、Claude 3.5 Sonnet以及Gemini 2.0 Flash Thinking Experimental等。測試場景涵蓋了零樣本、思維鏈提示和四樣本提示等多種設置，測試內容則包括288個小學數學問題（GSM-Q）和151個擴展版小學數學問題（GSME-Q）。

測試結果顯示，思維鏈提示在多數情況下能夠顯著提升模型的性能。在規劃任務中，Gemini 2.0 Flash Thinking Experimental模型展現出了卓越的能力。而在邏輯推理方面，開源模型表現出了較強的競爭力。然而，在面對復雜數學問題時，這些模型的性能普遍較弱。

值得注意的是，盡管當前模型在解決簡單代數問題時表現出色，但隨著問題復雜性的增加，其性能顯著下滑。這表明，在信息缺口識別和澄清能力方面，LLMs仍有較大的提升空間。

QuestBench還揭示了不同模型在處理不同難度問題時的差異。例如，在變量數量較多或約束條件復雜的情況下，某些模型可能更容易陷入困境，而另一些模型則能夠靈活應對。

這一基準測試的推出，不僅為LLMs的性能評估提供了新的視角和方法，也為未來的研究和開發指明了方向。隨著技術的不斷進步和應用場景的不斷拓展，LLMs在信息獲取和推理能力方面的提升將變得更加重要。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊

AI偽造“非遺傳承”騙局，“苗古金貼”高價售低質品被查！

04-26

GPT-4o模型新升級，智力個性再飛躍，AI能力更強大！

04-26

猿輔導員工猝死事件：輿情風暴中的公關失策與反思

輿情處理，第一件事是要照顧公眾情緒，而不是表達企業自身的訴求，回應公告里一個用詞不當，就能再次把涉事品牌送上輿論場的審判席。從我自己的過去經驗看，大部分老板是不懂公關的，也很少有老板真的愿意為社會情緒花錢…

04-26

小馬智行與騰訊云強強聯合，L4級自動駕駛Robotaxi服務將提速落地

04-26

中創新航劉靜瑜：新能源賽跑，唯快不破，誓做行業領跑者

04-26

菲比?蓋茨新創AI購物神器，Phia比價應用助你精明消費

04-26

百度文心大模型升級，4.5 Turbo與X1 Turbo性能飆升價格大降！

04-26

李彥宏透露：百度文庫AI月活近億，滄舟OS引領內容領域新變革

04-26

2024半導體收入榜大變局！英偉達逆襲登頂，英特爾增長乏力

04-26

臺積電A14制程工藝2028年投產，性能提升顯著，助力AI發展

04-26

螞蟻集團穩健前行，持續分紅回饋股東，科研投入占比超10%再升級

04-26

百度AI開發者大會：迎接應用爆發，文心大模型領跑下半場

04-26

谷歌Music AI Sandbox再升級，Lyria 2引領音樂創作新風潮

04-26

MCP走紅，AI Agent生產力時代的大門已開？

例如大廠過去的優勢（如支付寶的支付技術、用戶規模、風控能力）原本局限于自身業務，但通過標準化接口（MCP）開放后，這些能力可以被更多外部開發者調用，例如其他公司的AI Agent 無需自建支付系統，直接調…

04-26

Dataiku新推AI代理管理功能，重塑企業AI應用治理格局

04-26

點擊查看更多 +

全站最新

OpenAI新推輕量版Deep Research，o4-mini模型賦能AI搜索

聯想小新Pro 14 GT天青藍版上市，英特爾AMD雙選，價格6599元起

長安汽車2025年Q1凈利潤增近17%，銷量漲但現金流告急？

谷歌翻譯將推“練習”功能，或成用戶提升語言能力新助手

美國3D打印星巴克亮相，即將在得州開業迎客！

四川電網首用大疆無人機，10分鐘完成超高壓線檢修掛線！

熱門內容

ChatGPT喊你名字了？用戶反應不一，個性化嘗試遭遇“恐怖谷”
螞蟻集團慷慨分紅，單季凈利達136億，阿里持股33%共享成果
華為4月新品大爆發：智能眼鏡鈦空版、門鎖2系列及星閃路由X1來襲
比爾·蓋茨展望：AI將深度改造行業，人類生來不為工作？
豆包大模型負責人飛書停用，內部風波起？真相待解
魅族愚人節“玩笑”？官宣跨世代AI硅基人戰神Note 16號僅售1999元
TIOBE 4月編程語言榜：Python穩居榜首，Kotlin、Ruby、Swift地位受挑戰
AI預測彩票中獎？專家揭秘：中獎號碼隨機，預測純屬騙局
OPPO小布助手網頁版來襲，滿血版DeepSeek加持體驗升級！
國產芯片設備新突破：新凱來發布31款新品，半導體產業迎黃金年代？
華為三進制芯片專利公布：信息密度與計算效率能否迎來革命？
超維無際成立僅3月，螞蟻集團與紅杉資本等巨頭已悄然入股
夸克AI超級框引領潮流，月活近1.5億成中國AI應用新霸主
智譜AutoGLM沉思模型發布：AI Agent實現從思考到行動跨越
百度聯盟25億激勵，智躍計劃賦能開發者，共筑AI新生態

本欄最新

AI偽造“非遺傳承”騙局，“苗古金貼”高價售低質品被查！

GPT-4o模型新升級，智力個性再飛躍，AI能力更強大！

小馬智行與騰訊云強強聯合，L4級自動駕駛Robotaxi服務將提速落地

中創新航劉靜瑜：新能源賽跑，唯快不破，誓做行業領跑者

菲比?蓋茨新創AI購物神器，Phia比價應用助你精明消費

百度AI開發者大會：迎接應用爆發，文心大模型領跑下半場

本文鏈接：http://www.tebozhan.com/showinfo-45-12634-0.htmlDeepMind新基準QuestBench：挑戰大模型推理與信息補全能力

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：地平線榮獲全球首張ISO/PAS 8800認證，構建智能駕駛安全新高度！

下一篇： AI偽造“非遺傳承”騙局，“苗古金貼”高價售低質品被查！

標簽：

熱門焦點

“平均時代”：ChatGPT模仿秀的隱喻

來源：錦緞如果你問ChatGPT，Instagram上最美的女人是誰？它很可能會給你一個名字，叫卡戴珊。如果你觀察過Instagram這個美版小紅書：平臺上的所有網紅，展現的幾乎是統一面孔：統一的醫
刷完一場元宇宙世界杯音樂盛典，我爽了

作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了？三刷都不嫌多的那種。按照慣例，每逢年底，直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
元宇宙風口下，視覺中國如何重估？

要說橫跨2021年和2022年，到目前仍然很火的概念，元宇宙肯定要算一個。不僅互聯網巨頭們紛紛布局，上市公司們趨之若鶩，還被不少地方政府寫入了產業規劃，大有在2022年
英特爾首款加密芯片將于今年上市｜國際動態

No.1 英特爾首款加密芯片將于今年上市2月13日消息，英特爾首款名為“區塊鏈加速器”的加密芯片將于今年晚些時候上市。目前，已經有兩家公司預訂了這項技術，分別是G
智能人機交互技術的春晚大考

1月初的一個早晨，京東智能客戶服務產品部緊急開會，進行關于尚未對外公布的“X項目”的初討論。1月5日，這個神秘的X項目對外公布，京東成為央視2022年春晚獨家互動合
DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

Block-807DAO要么是定義虛擬未來、無領導組織的革命性概念，要么是充滿存在主義和自我毀滅挑戰的反烏托邦結構，取決于你在與誰交談。近幾個月來， DAO已經從Crypto
NFT也有黃牛？這家公司專門對付外掛作弊機器人

澳大利亞前總理馬爾科姆·特恩布爾 (Malcolm Turnbull) 是支持薩姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于紐卡斯爾的黑客，他的職業生涯始于為國防
在元宇宙開會是什么樣一種體驗

空間就是一切還記得面對面的會議嗎？就在不久前，與會者需要飛到遙遠的目的地，并進行鼓舞人心的對話、網絡、免費食物，甚至可能會有一兩個很好的小組討論。隨之而來
Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

DeepMind新基準QuestBench：挑戰大模型推理與信息補全能力

“平均時代”：ChatGPT模仿秀的隱喻

刷完一場元宇宙世界杯音樂盛典，我爽了

元宇宙風口下，視覺中國如何重估？

英特爾首款加密芯片將于今年上市｜國際動態

智能人機交互技術的春晚大考

DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

NFT也有黃牛？這家公司專門對付外掛作弊機器人

在元宇宙開會是什么樣一種體驗

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

最新推薦

2021年中國元宇宙行業用戶行為分析熱點報告

費城藝術家使用區塊鏈，在數字藝術中狠狠撈一筆

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

過去女性在互聯網領域是半邊天，在Web3，將會是整片天！

元宇宙畫廊體驗報告：有點頭疼。

Steam 禁止NFT和加密貨幣原因曝光

猜你喜歡

熱門推薦

相關資訊