編輯:alan
【新智元導讀】在以英語為主的語料庫上訓練的多語言 LLM,是否使用英語作為內部語言?對此,來自 EPFL 的研究人員針對 Llama 2 家族進行了一系列實驗。
大語言模型的「母語」是什么?
我們的第一反應很可能是:英語。
但事實果真如此嗎?尤其是對于能夠聽說讀寫多種語言的 LLM 來說。
對此,來自 EPFL(洛桑聯邦理工學院)的研究人員發表了下面這篇工作來一探究竟:
作者以 Llama2 為對象,向我們展示了具有多語言能力的 Transformer,是如何思考問題的。
像「羊駝」這種在英語區下長大的娃,他的「多語言」到底是本質屬性,還是僅僅套了個翻譯的殼?
這對于人們理解 LLM 的運行機制至關重要。
要探究大模型的內心世界,雖然聽起來有點復雜,但實際上一點也不簡單。
研究人員在這里化繁為簡,使用特定的提示來保證輸出的唯一性,同時把 Llama-2-7B 的 32 層輸出全部提取出來 —— 一層一層一層地剝開她的心。
于是,我們能在上圖清楚地看到,羊駝在得到中文翻譯(「花」)時的整個推理過程。
Transformer 將輸入 token 進行逐層映射,最終預測出下一個 token,中間那些我們大概能理解或者不能理解的字符串,就是 LLM 使用的「內部語言」。
顯然,在中間層的「思考」環節,羊駝用的是偏向于英語的某種神秘文字。這里需要強調一下,這是羊駝的自發行為,因為提示中壓根就沒有一點英語!
比如上圖是其中的一個實驗,構建了法語翻譯中文的提示,且限制了正確答案只需 1 個 token(花)。
而下圖的統計顯示:在 Llama2 的大部分前向傳遞中,正確中文 token(藍色)的概率遠低于英文翻譯(橙色)的概率。中文只在最后兩層中占據主導地位。
為了方便大家觀察,作者還將嵌入在高維空間中的路徑的可視化(實際是 8192 個維度,這里使用 2D 展示)。
從輸入到輸出,軌跡以紅色開始,以紫色結束。我們可以看到,這些路徑基本都是先繞道英語,然后才返回正確的中文。
不過,這是否確實表明 Llama2 先用英文進行推理,然后將再其翻譯成中文?
作者表示,比這更微妙一點。那些看起來像英語的中間嵌入實際上對應于抽象概念,而不是具體的英文 token。
所以,一方面,Llama2 內部的「通用語」不是英語,而是概念;但另一方面,這些神秘字符又顯然是偏向于英語的概念。
因此,在語義上,而非純粹的詞匯意義上,英語確實可以被視為羊駝的「母語」。
網友:我早就發現了有網友表示:恕我直言,不僅僅是羊駝系列,基本上所有 LLM 都是這樣。
「對于以英語為母語的人來說,這可能會令人驚訝,但對于其他人來說,這種傾向性是可見的,只不過有時多,有時少。」
「有時我會想 LLM 為什么要這樣回答,然后我意識到這個答案在英語中更有意義。」
「這在詩歌中更是顯而易見的。LLM 寫詩很漂亮,但通常沒有押韻 —— 如果你把它翻譯成英語,就押韻了。」
另一位網友表示,這是大模型帶來的偏見,要小心了。
「英語和中文最終將成為 LLM 提示和輸出的最佳語言,而隨著 LLM 的應用范圍越來越廣泛,世界其他語言將更加邊緣化。」
模型表達空間的探索當嵌入逐層轉換時,它們會經歷 3 個階段:
1. 輸入空間:模型消除分詞器帶來的影響。
2. 概念空間:嵌入進入一個抽象的概念空間中。
3. 輸出空間:概念被映射回原本的表達形式。
實驗專注于 Llama-2 系列語言模型。Llama-2 系列模型在多語言語料庫上進行訓練,語料庫主要由英語主導(占 89.70%)。
不過考慮到總體訓練數據的大小(2 萬億個 token),即使是一小部分非英語訓練數據,絕對值仍然很大(德語占 0.17%=3.4B,中文占 0.13%=2.6B)。
Llama-2 有 7B / 13B / 70B 三種尺寸,分別為 32/40/80 層,嵌入維度 d=4096/5120/8192,詞匯表 V 包含 32,000 個 token。實驗中使用 8 位量化探究這三種不同大小的模型。
實驗實驗的目標是探索 Llama-2 的內部狀態,是否與特定的自然語言相對應,這需要從 token 分布映射到語言。
為了規避許多 token 在語言方面上模棱兩可的問題,研究人員構造了特殊的提示,限制 token 輸出的唯一性,并且可以明確地歸因于某一種語言。
翻譯任務
將前面的非英語(例如法語)單詞翻譯成中文,示例如下,向模型展示四個單詞,并帶有正確的翻譯,后跟第五個沒有翻譯的單詞,讓模型預測下一個 token:
重復任務
要求模型簡單地重復最后一個單詞,提示如下:
完形填空任務
作為一項稍微困難的任務,模型需要預測句子中缺失的單詞。給定一個目標單詞,通過 GPT-4 構建一個以該單詞開頭的英語句子,屏蔽目標單詞,并將該句子翻譯成其他語言。英語示例如下:
單詞選擇
為了實現明確的語言歸屬,研究人員為每種語言構建了一組封閉的單詞。掃描 Llama-2 的詞匯表,尋找具有單 token 英文翻譯的單 token 中文單詞(主要是名詞)。
這樣一來,Llama-2 預測下一個中文單詞的正確概率就可以直接從下一個 token 概率中讀出。
保險起見,作者還在德語、法語和俄語上進行了相同的實驗,總共測試了 139 個中文、104 個德語、56 個法語和 115 個俄語單詞。三個任務的測試結果如下:
上圖表示 Llama-2 前向傳遞期間,每一層輸出是英語還是中文的概率,三個任務分別為:(a)從德語 / 法語 / 俄語到中文的翻譯任務,(b)中文重復任務,(c)中文完形填空任務。
誤差線顯示輸入文本的 95% 高斯置信區間(翻譯任務為 353,重復任務和完形填空為 139)。
8192D 太空漫游自回歸 Transformer 是以增量方式求解的,每一層通過添加殘差來修改前一層產生的潛在向量,這一過程在幾何上可以描述為通過 d 維歐幾里得空間的路徑。
為了建立直覺,首先考慮一個假設的極端情況,即 token 位于整個 d 維空間的適當子空間中。
如果 latent embedding(h)具有與 token 子空間正交的分量,則表示預測中包含與 h 無關的信息。
研究人員采用 h 和 token 嵌入之間的均方余弦,來表示 h 的能量有多少轉化為 logit 分數。為了可解釋性,這里通過 token 嵌入本身的均方余弦進行歸一化,得到 h 的平方 token 能量:
在上面的球形示意圖中,所有嵌入都位于原點周圍的球體上。token 嵌入位于赤道上,主要沿 x 軸分布,x 軸捕獲語言(左英文,右中文),y 軸捕捉概念,z 軸提供了額外的自由度,可用于存儲有關上下文、語言等的信息。Transformer 正向傳遞沿球體表面移動。
在第 1 階段,latent embedding 從北極開始,與輸出 token 和概念嵌入正交。
階段 2 旋轉到概念空間中,英語 token 占據主導。
最后,第 3 階段沿赤道旋轉到目標語言的半球,產生輸出 token。
參考資料:
https://arxiv.org/abs/2402.10588
本文來自微信公眾號:新智元 (ID:AI_era)
本文鏈接:http://www.tebozhan.com/showinfo-45-4493-0.htmlLLM 的“母語”是什么?
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 世界最大開源 AI 社區 Hugging Face 曝安全漏洞:部分用戶密鑰泄露
下一篇: 多國勞動力市場將因人工智能出現重大變化