5 月 30 日消息,Anthropic 昨日(5 月 29 日)發布博文,宣布推出“思維追蹤”(Circuit Tracer)開源工具,以圖形化方式,追蹤并展示 AI 大語言模型的內部思維過程。
該工具通過構建“歸因圖”(Attribution Graph),幫助研究者可視化模型內部運作,并支持交互式探索。這一項目由 Anthropic Fellows 程序的參與者與專注 AI 解釋性研究的 Decode Research 團隊聯合推動,旨在提升 AI 安全性。
Circuit Tracer 已在 GitHub 平臺以開源庫形式發布,研究者可通過由 Decode Research 運營的 Neuronpedia 平臺,使用交互式前端查看“歸因圖”。
用戶使用該工具,不僅能生成自定義的歸因圖,追蹤支持模型的內部邏輯,還能對圖形進行標注、分享,甚至通過調整特征值觀察模型輸出的變化,從而驗證研究假設。
Anthropic 表示,當前對 AI 內部結構的理解遠遠落后于其功能進步。開源這些工具將助力更廣泛的社區深入探究語言模型的內部運作,理解模型行為,并為工具的改進和擴展提供可能。
附上參考地址
Open-sourcing circuit tracing tools
GitHub 頁面
gemma-2-2b Attribution Graph | Neuronpedia
本文鏈接:http://www.tebozhan.com/showinfo-45-13295-0.htmlAnthropic 開源“思維追蹤”工具,可視化揭秘 AI 內部邏輯
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com