AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

Claude 團隊打開大模型“腦回路”,推出開源 LLM 思維可視化工具

來源: 責編: 時間:2025-06-04 08:01:06 41觀看
導讀 Claude 團隊來搞開源了 ——推出“電路追蹤”(circuit tracing)工具,可以幫大伙兒讀懂大模型的“腦回路”,追蹤其思維過程。該工具的核心在于生成歸因圖(attribution graphs),其作用類似于大腦的神經網絡示意圖,通過

Claude 團隊來搞開源了 ——推出“電路追蹤”(circuit tracing)工具,可以幫大伙兒讀懂大模型的“腦回路”,追蹤其思維過程。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

該工具的核心在于生成歸因圖(attribution graphs),其作用類似于大腦的神經網絡示意圖,通過可視化模型內部超節點及其連接關系,呈現 LLM 處理信息的路徑。qBp28資訊網——每日最新資訊28at.com

研究人員通過干預節點激活值,觀察模型行為變化,從而驗證各節點的功能分工,解碼 LLM 的“決策邏輯”。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

官方表示,此次發布的開源庫支持在主流開源權重模型上快速生成歸因圖,而 Neuronpedia 托管的前端界面則進一步允許用戶交互式探索。qBp28資訊網——每日最新資訊28at.com

總之,研究人員能夠:qBp28資訊網——每日最新資訊28at.com

通過生成自有歸因圖,在支持的模型上進行電路追蹤;qBp28資訊網——每日最新資訊28at.com

在交互式前端中可視化、注釋和分享圖表;qBp28資訊網——每日最新資訊28at.com

通過修改特征值并觀察模型輸出變化來驗證假設。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

Anthropic CEO Dario Amodei 表示:qBp28資訊網——每日最新資訊28at.com

目前,我們對 AI 內部運作的理解遠遠落后于其能力的發展。通過開源這些工具,我們希望讓更廣泛的社區更容易研究語言模型的內部機制。我們期待看到這些工具在理解模型行為方面的應用,以及對工具本身的改進拓展。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

目前,該項目開源不到 24 小時,在 GitHub 就已攬獲 400+Star。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

在 Reddit、X 上都有不少網友點贊 & 討論。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

有網友直呼“DeepSeek 肯定喜歡這個”。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

還有網友認為“歸因圖可能成為 LLM 研究的顯微鏡”。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

“電路追蹤”食用教程

除了宣布開源外,Anthropic 依據介紹電路追蹤方法的原始論文《On the Biology of a Large Language Model》中多步推理和多語言電路示例,利用該工具深入探究了幾個涉及 Gemma-2-2b 的歸因圖。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

一起來看看具體示例和分析。qBp28資訊網——每日最新資訊28at.com

如果想生成自己的圖,可以在 Neuronpedia 上進行操作,也可以直接在 Colab 中使用這個起始 notebook 進行操作。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

兩階推理

先來看一個兩階推理示例。qBp28資訊網——每日最新資訊28at.com

問題:包含達拉斯的州的首府是?(Fact: The capital of the state containing Dallas is → Austin)qBp28資訊網——每日最新資訊28at.com

模型必須首先推斷出包含達拉斯的州是得克薩斯州;然后,回答得克薩斯州首府是奧斯汀。qBp28資訊網——每日最新資訊28at.com

介紹電路追蹤方法的原始論文中表明,模型 Claude 3.5 Haiku 使用以下電路解決了該問題,計算了“包含達拉斯的州”這一中間步驟。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

而對 Gemma 2(2B)進行歸因分析表明,它使用以下電路成功完成了 prompt 任務:qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

該電路結構與 Claude 3.5 Haiku 的類似,存在一個對應“得克薩斯州”的節點,并同時顯示從“達拉斯”到“奧斯汀”的直接路徑以及經過“得克薩斯州”的間接路徑。qBp28資訊網——每日最新資訊28at.com

歸因圖基于使用 transcoders 來近似多層感知機(MLP)的行為,提出了關于模型行為的假設。qBp28資訊網——每日最新資訊28at.com

Anthropic 表示,可以通過直接對底層模型進行干預,來驗證他們對模型行為的理解是否正確。qBp28資訊網——每日最新資訊28at.com

對圖中所示的每個超節點(supernodes)進行干預,首先需要從該圖中獲取超節點。qBp28資訊網——每日最新資訊28at.com

Anthropic 提供了一個便捷函數,可將電路 URL(及其中存儲的超節點)映射到 Feature 對象列表。每個 Feature 對象是一個 (layer, position, feature_index) 元組。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

然后,創建用于解決此任務的電路表示。qBp28資訊網——每日最新資訊28at.com

首先需定義一些超節點對象(Supernode objects),這些對象將存儲底層 Feature 列表,以及受其因果影響的子超節點。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

再初始化一個干預圖(InterventionGraph),用于存儲所有超節點并跟蹤它們的狀態。qBp28資訊網——每日最新資訊28at.com

另外,還需要獲取模型在此提示下的 logits 和激活值。qBp28資訊網——每日最新資訊28at.com

設置每個節點的默認激活值(即未進行干預時,原始提示下的激活值),并設定其激活分數,激活分數為節點當前激活值與默認激活值的比值。qBp28資訊網——每日最新資訊28at.com

由于當前激活值與默認激活值相同,因此每個節點的激活分數均為 100%。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

另外還將記錄 top-5 的 logits,然后對圖表進行可視化。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

結果顯示電路與在可視化完整圖表時創建的超節點吻合。qBp28資訊網——每日最新資訊28at.com

現在,通過干預驗證每個超節點是否如假設般發揮作用,每次干預會將節點值設定為原始值的特定倍數。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

在介紹電路追蹤方法的原始論文中,關閉“說出一個首府”(Say a capital)Feature 會導致“說出奧斯汀”(Say Austin)超節點關閉,且模型的最高 logits 變為得克薩斯州(Texas)。qBp28資訊網——每日最新資訊28at.com

若接下來對 Gemma 2(2B)歸因圖進行相同操作,會發生什么?qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

結果觀察到了完全相同的現象。強行關閉“說出一個首府”超節點后,“說出奧斯汀”節點也隨之關閉,模型的最高 logit 變為了得克薩斯州。qBp28資訊網——每日最新資訊28at.com

那如果關閉“首府”(capital)超節點會怎樣?qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

與之前的干預行為類似:關閉“說出一個首府”超節點,但沒有像之前那樣強烈,也部分關閉了“說出奧斯汀”節點。qBp28資訊網——每日最新資訊28at.com

如果我們關閉“得克薩斯州”超節點會怎樣?qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

關閉“得克薩斯州”超節點同樣會使“說出奧斯汀”節點失效,導致模型輸出其它州的首府。qBp28資訊網——每日最新資訊28at.com

如果關閉“州”(state)超節點會怎樣?qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

關閉“州”超節點效果并不明顯,它對其它超節點的激活狀態幾乎沒有影響,模型的 logits 也幾乎沒有變化。qBp28資訊網——每日最新資訊28at.com

現在已經通過剔除節點驗證了其行為。qBp28資訊網——每日最新資訊28at.com

那么,能否注入完全不同的節點并驗證其是否產生預期效果?qBp28資訊網——每日最新資訊28at.com

以 prompt“包含奧克蘭的州的首府是( Fact: The capital of the state containing Oakland is → Sacramento)”中的電路為例,從該圖中提取兩個超節點“加利福尼亞州”(California)和“說出薩克拉門托”(Say Sacramento),并將其添加到干預圖中。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

然后,進行干預操作:關閉“得克薩斯州”超節點,并激活“加利福尼亞州”超節點。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

這樣做導致“說出奧斯汀”節點完全關閉,而“說出薩克拉門托”節點開始激活,模型最高輸出現在也變為薩克拉門托。qBp28資訊網——每日最新資訊28at.com

還可以將州替換為國家進行類似實驗。以 Prompt“包含上海的國家的首都是(Fact: The capital of the country containing Shanghai is → Beijing)”的電路為例,執行與之前完全相同的操作:qBp28資訊網——每日最新資訊28at.com

禁用“得克薩斯州”超節點,并激活“中國”超節點。這次雖然沒有“說出北京”節點,但這種干預的效果應該會在 logits 中顯現。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

結果同樣有效,北京現在成為模型最可能的輸出。qBp28資訊網——每日最新資訊28at.com

那總是會有效嗎?qBp28資訊網——每日最新資訊28at.com

再用 Prompt“包含溫哥華的地區的首府是(Fact: the capital of the territory containing Vancouver is → Victoria)”的電路來試試。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

在這種情況下,干預效果并不顯著。qBp28資訊網——每日最新資訊28at.com

模型的輸出看起來與僅剔除“得克薩斯州”時的結果類似,這表明“不列顛哥倫比亞省”(British Columbia)節點的加入幾乎沒有產生作用。qBp28資訊網——每日最新資訊28at.com

多語言電路

接下來 Anthropic 還探討了原論文中研究的多語言電路。qBp28資訊網——每日最新資訊28at.com

具體而言,將考察三個電路,分別對應三種語言的同一句子:qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

關于 Claude 3.5 Haiku 的研究展示了一個共享的多語言電路:qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

與 Haiku 的電路不同,Gemma 2(2B)的電路從本質上完全具備多語言特性。qBp28資訊網——每日最新資訊28at.com

模型中并不存在獨立的“Say big”或“Say grand”超節點來驅動其用特定語言輸出對應答案。相反,所有電路均采用“Say big”Feature,若答案為非英語,則會結合“French”或“Chinese”Feature 共同作用。qBp28資訊網——每日最新資訊28at.com

接下來,通過對這些電路進行干預實驗來展開研究。qBp28資訊網——每日最新資訊28at.com

首先,如前所述創建超節點對象(Supernode objects):qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

然后,獲取這些節點的激活值,對其進行初始化,并生成可視化圖表。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

現在進行第一次干預操作:關閉“French”超節點。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

在關閉“French”超節點后,模型輸出變成了英文。qBp28資訊網——每日最新資訊28at.com

值得注意的是,這對“Say big”超節點僅產生輕微影響,二者的作用似乎相互獨立。qBp28資訊網——每日最新資訊28at.com

再嘗試將語言切換為另一種:關閉“French”超節點,并激活“Chinese”超節點。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

正如預期,干預后的模型輸出與中文示例的原始輸出一致。qBp28資訊網——每日最新資訊28at.com

那如果將“small”Feature 替換為“big”會怎樣?qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

將“small”超節點替換為“big”超節點后,導致“說出 big”超節點關閉,同時一個新的“Say small”超節點被激活。qBp28資訊網——每日最新資訊28at.com

模型的輸出在法語中變為“petit”(即“small”)。qBp28資訊網——每日最新資訊28at.com

接下來是最后一項干預,能否將“opposite”(反義詞)超節點替換為“synonym”(同義詞),以獲取同義輸出?qBp28資訊網——每日最新資訊28at.com

雖然該模型并不擅長處理同義詞:當輸入“Un synonyme de ‘petit’ est ‘”(“petit”的同義詞是“”)時,模型會重復輸出“petit”,而非其它同義詞。qBp28資訊網——每日最新資訊28at.com

但是,仍可觀察此干預是否會復現該行為。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

不過最終這項干預并未奏效。盡管“Say small”超節點被激活,但“Say big”也保持激活狀態,模型的輸出并未改變。qBp28資訊網——每日最新資訊28at.com

Anthropic 團隊認為這并不意外,如果觀察該任務的原始電路,會發現“opposite”(反義詞)超節點與輸出端僅存在弱連接。因此,盡管它本應發揮作用,但其因果效應相當有限。qBp28資訊網——每日最新資訊28at.com

更多細節大伙兒可自行查閱。qBp28資訊網——每日最新資訊28at.com

另外作為啟發,Anthropic 在 demo notebook 和 Neuronpedia 上提供了尚未分析的額外歸因圖,感興趣的童鞋可以親自上手研究研究。qBp28資訊網——每日最新資訊28at.com

qBp28資訊網——每日最新資訊28at.com

GitHub 鏈接:qBp28資訊網——每日最新資訊28at.com

https://github.com/safety-research/circuit-tracer?tab=readme-ov-fileqBp28資訊網——每日最新資訊28at.com

參考鏈接:qBp28資訊網——每日最新資訊28at.com

[1]https://x.com/anthropicai/status/1928119229384970244?s=46qBp28資訊網——每日最新資訊28at.com

[2]https://www.anthropic.com/research/open-source-circuit-tracingqBp28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:西風,原標題《Claude 團隊打開大模型「腦回路」,開源 LLM 思維可視化工具來了》qBp28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-13328-0.htmlClaude 團隊打開大模型“腦回路”,推出開源 LLM 思維可視化工具

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 谷歌布林:恐嚇AI模型竟能提升性能?顛覆傳統認知!

下一篇: 谷歌悄然推出“AI Edge Gallery”應用:可在手機本地運行 AI 模型

標簽:
  • 熱門焦點
  • FMIFAwards獎項即將揭曉!

    來源:X增強現實FMIF Awards未來元宇宙創新獎是由未來元宇宙創新論壇、ARinChina以及多家投資機構、媒體、研究院聯合發起的一項評選活動。旨在推動新技術的融合與集成低成本
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 元宇宙帶來沉浸式智能登錄?你學會了嗎?

    備受資本市場寵愛的元宇宙概念,正掀起一番番波瀾。元宇宙作為虛實相融的互聯網應用和社會形態,與沉浸式體驗緊密相關。 多重路徑,打造無感知沉浸式智能登錄《設計
  • 超跑與NFT的首次結合,蘭博基尼能否破局?

    蘭博基尼公司近日稱即將推出它的首款NFT,并且將加速進軍區塊鏈領域。這家聞名遐邇的意大利汽車廠商野心勃勃地將目光投向混合動力和電動跑車,并宣布將拍賣與瑞士
  • 《刀劍神域》VR展開幕;《Puzzling Places》發布第二個付費DLC

    今日熱點:《刀劍神域:Ex-Chronicle Online Edition》VR展開幕;虛擬活動平臺EventX再獲800萬美元B輪融資;VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
  • 頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

    一場被國際奧委會主席評價堪稱獨具匠心、非凡卓越的2022年北京冬季奧運會,在這個“雙奧之城”經歷了16個令人難忘的精彩日夜,最終圓滿閉幕。讓我們印象深刻的不
  • 費城藝術家使用區塊鏈,在數字藝術中狠狠撈一筆

    ?你也想賺錢發財走上人生巔峰嗎?老雅痞給你指條路,現在也許是時候創建或購買或出售 NFT的好時機。費城地區的許多企業家都在這樣做。但投資需謹慎,入行有風險,在
  • Web 3如何改變傳統HR

    互聯網自誕生以來,經歷了三次迭代。Web1是第一階段,包括ISP服務器上的個人網頁或免費的虛擬主機服務。然后Web2出現了,它引入了動態的用戶生成內容、互操作性、增
  • 爆發在即的Layer2賽道百花齊放,誰將是領跑者?

    還記得幾年前最早我們提起ETH擴容,首先想到就是Layer2,而Layer2里,首先想到的是閃電網絡,狀態通道,Plasma…然后折騰了幾年,發現并沒有什么用,許多項目方和資本也等不
Top