新智元報道
編輯:拉燕
【新智元導讀】最近,UC 伯克利的一項研究揭示了 LLM 和小孩子們在認知上的一項重要差別 —— 創(chuàng)造新的因果結構的能力。
大家有沒有想過一個問題,LLM 和小朋友們,有什么差別?
你可能會說,LLM 有那么多訓練數(shù)據集,經過了那么多次微調,還不全方位秒殺小朋友們?
但是,最近 UC 伯克利的一篇論文卻顯示,LLM 和孩童相比,欠缺了一項很重要的能力。
那就是 —— 從經驗中學習因果結構的能力。
當然了,研究人員們也并不是一點兒招沒有,RLHF 在某種程度上可以解決這個問題。但是解決的邏輯,卻和孩子們學習完全不同。
LeCun 也是轉發(fā)了這篇研究,并配文「那些孩子們可以,LLM 卻做不到的事?!?span style="display:none">vnc28資訊網——每日最新資訊28at.com
首先,我們知道,關于大型語言模型和語言與視覺模型的討論,主要集中在這些模型是否是智能體上。
而 UC 伯克利的研究人員則提出了一個不同的觀點。
他們認為,這些 AI 模型是高效和強大的模仿引擎。
接著他們通過測試這些 AI 模型是否可以發(fā)現(xiàn)新的工具和新穎的因果結構,以及將它們接到指令的反應與人類兒童進行對比,來探討 AI 模型能在模仿和創(chuàng)新這方面,啟發(fā)研究人員什么。
不少人表示,這些 LLM 不就是一個又一個智能體嘛。圖片、文本,什么都能生成,這多聰明。
甚至,他們還會在口語表達中暗示了這種擬人化的夸贊 —— 一「個」AI,就好像咱們說一個人一樣。
UC 伯克利的研究人員則認為,這么想就錯了。
LLM 就像歷史中我們見過的那些技術,比如書寫、印刷、圖書館、互聯(lián)網,甚至語言本身。
大型語言和視覺模型提供了一種新的方法,讓我們能輕松有效地訪問其他人編寫的大量文本和其他人生成的圖像。
換句話說,這些 AI 系統(tǒng)為文化生產和演化提供了一種新的手段,允許信息在不同群體之間高效傳遞。它們匯總了以前由人類代理生成的大量信息,并從中提取模式。
所以,并不擬人。
這與介入外部世界,并生成關于它的信息的感知和行動系統(tǒng)形成對比。換言之,人類的模式。
這里要注意,這種對比不僅限于感知和行動系統(tǒng)本身,還包括科學或是直觀理論中所體現(xiàn)的因果關系。它們與外部世界有關,并對該世界進行預測并影響該世界上的行動。
同時,后期來自該外部世界所獲得的新證據可以從根本上修改以往的因果關系。
當然,這些尋求真理的認識過程也是一些 AI 系統(tǒng)的基礎。例如,強化學習系統(tǒng),特別是基于模型的系統(tǒng),可以被理解為在世界上采取行動以解決類似于逆問題的系統(tǒng)。
它們積累數(shù)據來構建世界的模型,從而實現(xiàn)廣泛和新穎的泛化。這一點在機器人領域尤其突出,這些系統(tǒng)與外部世界接觸,改變自身的模型,允許新的行動和泛化,雖說程度有限。
類似地,一些 AI 方法也已經把因果推斷和理論形成整合到了其學習機制中,以設計更像人類的系統(tǒng)。
然而,這些系統(tǒng)與我們往常熟悉的,依賴于大量現(xiàn)有數(shù)據的、相對簡單的、大型語言和視覺模型有顯著不同。
尋求真理的認識過程與能夠忠實傳遞表示(representation)的過程這兩件事一直會是相抗的,無論這些表示與外部世界之間的關系如何。這種傳遞對于語言學習和社會協(xié)調等能力至關重要。
目前,研究人員有大量證據表明,這種忠實傳遞的機制在早期發(fā)展中已經存在,并在人類認知和文化中發(fā)揮著特別重要的作用。
然而,這些機制也可能與尋求真理的因果推斷和理論形成機制產生一些微妙的關系,原因可能有好有壞。
比方說,在「過度模仿」(overimitation)的現(xiàn)象中,人類兒童(和成年人)會在復雜的行動序列中重現(xiàn)出現(xiàn)過的所有細節(jié),即使這些細節(jié)對該行動的結果并不具有因果關系。
過度模仿可能會增加復雜行動傳遞的忠實度和效率。但是,這也意味著該傳遞并不根植于受環(huán)境變化所改變的因果理解。同樣也有證據表明,兒童會在未經批判性思考的情況下接受別人對外部世界的看法,當且僅當又遇到另一個人所有的不同看法時,兒童才會改變原有的看法。
這點還是蠻有共鳴的,打個比方就是,孩子們起初是一張白紙,畫什么是什么,有新的認知才會覆蓋原有的色彩。
研究人員認為,大型語言模型有力的促進了這種類型的傳遞,方式則是總結,和從現(xiàn)有文本中進行泛化。
然而,它們的訓練過程中,或是目標函數(shù)中,沒有設計任何有關履行感知、因果推斷或理論形成等尋求真理的系統(tǒng)的認識功能。
即使是最先進的 LLM,它們的輸出預測概率也并不會區(qū)分認識不確定性(epistemic uncertainty)(這點實際上與知識的缺乏有關,是可以通過更多的訓練數(shù)據來解決的),和偶然不確定性(aleatoric uncertainty)。
這就帶來了「幻覺」的問題。
這種傳達和客觀真理的對比,與在人類文化演化中的模仿 / 創(chuàng)新的對比密切相關。文化的演化取決于這兩種不同認知機制之間的平衡,而模仿允許知識或技能從一個人傳遞到另一個人;創(chuàng)新則是通過與不斷變化的世界接觸產生新的知識或技能。
簡而言之,模仿意味著每個個體不必創(chuàng)新 —— 他們可以直接利用其他人的認知。但如果某些個體沒有創(chuàng)新的能力,光靠模仿本身將毫無用處。這也就是說,正是創(chuàng)新和模仿的結合才能實現(xiàn)文化和技術的進步。
當然,模仿和傳輸也可能涉及某些種類的泛化和新穎性。LLM 也會產生類似的泛化,有時會從已知的行動中泛化,來產生某種創(chuàng)新。
然而,想要輸出足以應對新問題和新環(huán)境的創(chuàng)新,則需要 LLM 超越獲取的信息,和從這些給定信息中推理出的東西。這些推理可能從現(xiàn)有的因果模型出發(fā),生成與之前觀察到的因果非常不同的新因果,或者可能激發(fā)對外部世界的新的探索。
從人工智能的角度來看,模仿涉及一種插值泛化,即在已知的范圍內,技能和知識在各種背景下得以利用、模擬和分享。
而另一方面,創(chuàng)新則反映了一種更為外推性的,或超分布(out-of-distribution)的泛化。
不過在任何給定情況下,想要確定哪種認知機制產生了特定類型的表示或行為、知識或技能,這件事其實并不容易。
如果只受到內部語言統(tǒng)計數(shù)據培訓的 LLM 可以復制特定的能力,例如在回應 prompt 時生成語法正確的文本,這表明這類能力可以通過模仿來發(fā)展。但如果不行,那就意味著這些能力可能需要創(chuàng)新,即從外部世界中提取知識。
因此,LLM 和大型的視覺模型為研究人員提供了一個機會,可以發(fā)現(xiàn)哪種能力需要模仿,哪種能力又需要創(chuàng)新。這也是認知科學長期以來的一個問題。
LLM V.S 兒童研究人員將受過大量文本數(shù)據或文本和圖像數(shù)據訓練的 LLM 模型的性能與兒童的性能(這么說好奇怪,哈哈)進行了對比。
研究人員發(fā)現(xiàn),LLM 的模仿可能在重要方面與兒童的模仿行為有不同。
對兒童而言,現(xiàn)有的文獻中存在很多關于我們童年時期的模仿的爭論,究竟有多少是忠實的文化傳遞(比如:過度模仿)以及有多少是由更廣泛的尋求真理的過程所驅使的,比如理解他人的目標和意圖。
而 LLM 究竟能否創(chuàng)新,取決于能否創(chuàng)新工具(new tools)。
人可以發(fā)現(xiàn)并創(chuàng)造全新的各種工具,因此工具是解決模仿與創(chuàng)新之間的平衡問題的最佳例證之一。而 AI 和機器人領域的技術,如「行為克隆」,使用了類似的方法。
然而,需要再次強調的是,模仿,和以插值方式使用現(xiàn)有工具的能力,取決于以外推方式發(fā)現(xiàn)新工具的平行能力。
工具創(chuàng)新是人類生活不可或缺的一部分,并且在各種非人類動物中也觀察到,因此工具創(chuàng)新通常被認為是生物系統(tǒng)智力的一個顯著標志。
然后,工具使用也是理解 LLM 和兒童的模仿和創(chuàng)新的一個重要比較點。
LLM 和人類都可以對對象的信息進行編碼,但它們在工具模仿與工具創(chuàng)新方面的能力可能會有所不同。研究人員的預測這些模型可能很好地捕捉到所熟悉的工具使用方法(比如錘子)。
然而,這些系統(tǒng)在涉及不常見、或是新穎的工具時就會很難產生正確的反饋,原因就在于后者依賴于發(fā)現(xiàn)和使用新的因果聯(lián)系、功能類比和適用性。
然而,兒童是否就能夠自行進行這種創(chuàng)新呢?需不需要明確的指導和經驗?
事實上是,從零開始構建一個新工具,對于兒童來說也是一項困難的任務。不過兒童可能會更容易地識別日常物品中的新功能,并在沒有典型工具的情況下選擇適當?shù)奶娲穪斫鉀Q各種任務。
在研究中,研究人員研究了人類兒童和成年人是否能夠使用熟悉的物品,以新的方式來實現(xiàn)特定的結果,并將結果與大型深度學習模型(例如 GPT-3 和 GPT-4)的輸出進行了比較。
該研究由兩個組成部分:一個模仿部分(根據已知對象的現(xiàn)有知識進行插值判斷)和一個創(chuàng)新部分(關于可以使用對象的新方式的外推性判斷)。
在創(chuàng)新部分,研究人員提出了一系列問題,需要在沒有典型工具的情況下執(zhí)行目標(例如,在沒有圓規(guī)的情況下畫一個圓)。
然后,研究人員為參與者提供了替代物品選擇:
(a)與典型工具更相似但與上下文無關的物品(比方說一把尺子)。
(b)在表面上看起來不同但具有與典型工具相同的適用性和因果屬性的物品(例如,底部是圓形的一個茶壺)。
(c)完全無關的物品。
在研究的模仿部分,研究人員提供了相同的物品集合,但要求參與者選擇哪種物品選項與典型工具最匹配。
研究人員發(fā)現(xiàn),3 至 7 歲的兒童和成年人(平均年齡 = 27.80 歲,標準差 = 5.54)在被問到哪些物品應該放在一起時,可以識別對象之間的常見的表面關系。
同時,他們也可以發(fā)現(xiàn)日常物品的新功能,以解決新穎的問題,因此也會選擇表面上不相關,但功能相關的物品。
接下來,使用與測試中人類參與者的文本輸入完全相同的設置,研究人員想看看 OpenAI 的 GPT-4、Gpt-3.5-turbo 和 text-davinci-003 模型,以及 Anthropic 的 Claude,Google 的 FLAN-T5(XXL)表現(xiàn)如何。
由于研究人員注意到,這些模型會根據選項的順序,改變輸出結果,因此他們?yōu)槊總€場景跑了模型六次,全面考慮了由三個選項生成的六種不同順序。
研究人員將模型輸出設置為確定性,溫度為 0,保持所有其他參數(shù)的默認值。然后,研究人員對六次重復試驗的得分(選擇相關對象為 1,選擇其他響應為 0)進行了平均。
就像預測的那樣,研究人員發(fā)現(xiàn)這些 LLM 幾乎與人類一樣能夠識別對象之間的表面共性。
他們對物體之間的表面關聯(lián)呈現(xiàn)出敏感性,并在模仿任務中表現(xiàn)出色(GPT-4 平均 83.3%,gpt-3.5-turbo 平均 73.1%,davinci 平均 59.9%,Claude 平均 69.9%,F(xiàn)lan 平均 74.8%)。
然而,當他們被要求選擇一種新功能工具來解決問題時,他們不如人類能力強(GPT-4 平均 75.9%,gpt-3.5-turbo 平均 58.9%,davinci 平均 8.87%,Claude 平均 58.16%,F(xiàn)lan 平均 45.7%)。
這表明,僅僅從大量語言中學習可能不足以實現(xiàn)工具創(chuàng)新。
不過比較可惜的是,有關這項研究的圖表并沒有公開。
那么,LLM 是否能夠發(fā)現(xiàn)新的因果關系并利用它們來設計新工具呢?我們已經反復提到,發(fā)現(xiàn)新工具的能力取決于是否能夠推斷出新的因果關系。
大量研究表明,即使是非常年幼的兒童也擅長發(fā)現(xiàn)這種關系。
因為關于因果結構的信息可以通過模仿和文化傳播傳遞。因果發(fā)現(xiàn)是一個不錯的例子,足以說明了一個認知過程是如何解決逆問題并通過感知和行動發(fā)現(xiàn)新的真理的。
最新版本的 GPT,GPT-4 和 GPT-3.5,通過從人類反饋中進行強化學習進行了微調。
這同樣也有問題。從人類反饋中進行強化學習本身可能被認為是一種啟用文化傳播的方法,算是半個作弊吧,LoL。
參考資料:
https://twitter.com/ylecun/status/1729265577733275786
https://journals.sagepub.com/doi/full/10.1177/17456916231201401
本文來自微信公眾號:新智元 (ID:AI_era)
本文鏈接:http://www.tebozhan.com/showinfo-45-2988-0.htmlUC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷:兒童從經驗中學習因果,LLM 卻不行
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com