當前位置：首頁 > 元宇宙 > AI

LLM 的“母語”是什么？

來源：責編：時間：2024-06-05 17:34:50 214觀看

導讀編輯：alan【新智元導讀】在以英語為主的語料庫上訓練的多語言 LLM，是否使用英語作為內部語言？對此，來自 EPFL 的研究人員針對 Llama 2 家族進行了一系列實驗。大語言模型的「母語」是什么？我們的第一反應很可能是：

編輯：alan

【新智元導讀】在以英語為主的語料庫上訓練的多語言 LLM，是否使用英語作為內部語言？對此，來自 EPFL 的研究人員針對 Llama 2 家族進行了一系列實驗。

大語言模型的「母語」是什么？

我們的第一反應很可能是：英語。

但事實果真如此嗎？尤其是對于能夠聽說讀寫多種語言的 LLM 來說。

對此，來自 EPFL（洛桑聯邦理工學院）的研究人員發表了下面這篇工作來一探究竟：

論文地址：https://arxiv.org/ pdf / 2402.10588項目地址：https://github.com/ epfl-dlab / llm-latent-language

作者以 Llama2 為對象，向我們展示了具有多語言能力的 Transformer，是如何思考問題的。

像「羊駝」這種在英語區下長大的娃，他的「多語言」到底是本質屬性，還是僅僅套了個翻譯的殼？

這對于人們理解 LLM 的運行機制至關重要。

要探究大模型的內心世界，雖然聽起來有點復雜，但實際上一點也不簡單。

研究人員在這里化繁為簡，使用特定的提示來保證輸出的唯一性，同時把 Llama-2-7B 的 32 層輸出全部提取出來 —— 一層一層一層地剝開她的心。

于是，我們能在上圖清楚地看到，羊駝在得到中文翻譯（「花」）時的整個推理過程。

Transformer 將輸入 token 進行逐層映射，最終預測出下一個 token，中間那些我們大概能理解或者不能理解的字符串，就是 LLM 使用的「內部語言」。

顯然，在中間層的「思考」環節，羊駝用的是偏向于英語的某種神秘文字。這里需要強調一下，這是羊駝的自發行為，因為提示中壓根就沒有一點英語！

比如上圖是其中的一個實驗，構建了法語翻譯中文的提示，且限制了正確答案只需 1 個 token（花）。

而下圖的統計顯示：在 Llama2 的大部分前向傳遞中，正確中文 token（藍色）的概率遠低于英文翻譯（橙色）的概率。中文只在最后兩層中占據主導地位。

為了方便大家觀察，作者還將嵌入在高維空間中的路徑的可視化（實際是 8192 個維度，這里使用 2D 展示）。

從輸入到輸出，軌跡以紅色開始，以紫色結束。我們可以看到，這些路徑基本都是先繞道英語，然后才返回正確的中文。

不過，這是否確實表明 Llama2 先用英文進行推理，然后將再其翻譯成中文？

作者表示，比這更微妙一點。那些看起來像英語的中間嵌入實際上對應于抽象概念，而不是具體的英文 token。

所以，一方面，Llama2 內部的「通用語」不是英語，而是概念；但另一方面，這些神秘字符又顯然是偏向于英語的概念。

因此，在語義上，而非純粹的詞匯意義上，英語確實可以被視為羊駝的「母語」。

網友：我早就發現了

有網友表示：恕我直言，不僅僅是羊駝系列，基本上所有 LLM 都是這樣。

「對于以英語為母語的人來說，這可能會令人驚訝，但對于其他人來說，這種傾向性是可見的，只不過有時多，有時少。」

「有時我會想 LLM 為什么要這樣回答，然后我意識到這個答案在英語中更有意義。」

「這在詩歌中更是顯而易見的。LLM 寫詩很漂亮，但通常沒有押韻 —— 如果你把它翻譯成英語，就押韻了。」

另一位網友表示，這是大模型帶來的偏見，要小心了。

「英語和中文最終將成為 LLM 提示和輸出的最佳語言，而隨著 LLM 的應用范圍越來越廣泛，世界其他語言將更加邊緣化。」

模型表達空間的探索

當嵌入逐層轉換時，它們會經歷 3 個階段：

1. 輸入空間：模型消除分詞器帶來的影響。

2. 概念空間：嵌入進入一個抽象的概念空間中。

3. 輸出空間：概念被映射回原本的表達形式。

模型

實驗專注于 Llama-2 系列語言模型。Llama-2 系列模型在多語言語料庫上進行訓練，語料庫主要由英語主導（占 89.70%）。

不過考慮到總體訓練數據的大小（2 萬億個 token），即使是一小部分非英語訓練數據，絕對值仍然很大（德語占 0.17%=3.4B，中文占 0.13%=2.6B）。

Llama-2 有 7B / 13B / 70B 三種尺寸，分別為 32/40/80 層，嵌入維度 d=4096/5120/8192，詞匯表 V 包含 32,000 個 token。實驗中使用 8 位量化探究這三種不同大小的模型。

實驗

實驗的目標是探索 Llama-2 的內部狀態，是否與特定的自然語言相對應，這需要從 token 分布映射到語言。

為了規避許多 token 在語言方面上模棱兩可的問題，研究人員構造了特殊的提示，限制 token 輸出的唯一性，并且可以明確地歸因于某一種語言。

翻譯任務

將前面的非英語（例如法語）單詞翻譯成中文，示例如下，向模型展示四個單詞，并帶有正確的翻譯，后跟第五個沒有翻譯的單詞，讓模型預測下一個 token：

重復任務

要求模型簡單地重復最后一個單詞，提示如下：

完形填空任務

作為一項稍微困難的任務，模型需要預測句子中缺失的單詞。給定一個目標單詞，通過 GPT-4 構建一個以該單詞開頭的英語句子，屏蔽目標單詞，并將該句子翻譯成其他語言。英語示例如下：

單詞選擇

為了實現明確的語言歸屬，研究人員為每種語言構建了一組封閉的單詞。掃描 Llama-2 的詞匯表，尋找具有單 token 英文翻譯的單 token 中文單詞（主要是名詞）。

這樣一來，Llama-2 預測下一個中文單詞的正確概率就可以直接從下一個 token 概率中讀出。

保險起見，作者還在德語、法語和俄語上進行了相同的實驗，總共測試了 139 個中文、104 個德語、56 個法語和 115 個俄語單詞。三個任務的測試結果如下：

上圖表示 Llama-2 前向傳遞期間，每一層輸出是英語還是中文的概率，三個任務分別為：（a）從德語 / 法語 / 俄語到中文的翻譯任務，（b）中文重復任務，（c）中文完形填空任務。

誤差線顯示輸入文本的 95% 高斯置信區間（翻譯任務為 353，重復任務和完形填空為 139）。

8192D 太空漫游

自回歸 Transformer 是以增量方式求解的，每一層通過添加殘差來修改前一層產生的潛在向量，這一過程在幾何上可以描述為通過 d 維歐幾里得空間的路徑。

為了建立直覺，首先考慮一個假設的極端情況，即 token 位于整個 d 維空間的適當子空間中。

如果 latent embedding（h）具有與 token 子空間正交的分量，則表示預測中包含與 h 無關的信息。

研究人員采用 h 和 token 嵌入之間的均方余弦，來表示 h 的能量有多少轉化為 logit 分數。為了可解釋性，這里通過 token 嵌入本身的均方余弦進行歸一化，得到 h 的平方 token 能量：

在上面的球形示意圖中，所有嵌入都位于原點周圍的球體上。token 嵌入位于赤道上，主要沿 x 軸分布，x 軸捕獲語言（左英文，右中文），y 軸捕捉概念，z 軸提供了額外的自由度，可用于存儲有關上下文、語言等的信息。Transformer 正向傳遞沿球體表面移動。

在第 1 階段，latent embedding 從北極開始，與輸出 token 和概念嵌入正交。

階段 2 旋轉到概念空間中，英語 token 占據主導。

最后，第 3 階段沿赤道旋轉到目標語言的半球，產生輸出 token。

參考資料：

https://arxiv.org/abs/2402.10588

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.tebozhan.com/showinfo-45-4493-0.htmlLLM 的“母語”是什么？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：世界最大開源 AI 社區 Hugging Face 曝安全漏洞：部分用戶密鑰泄露

下一篇：多國勞動力市場將因人工智能出現重大變化

標簽：

熱門焦點

在元宇宙賣酸奶，這波聯動燃爆了！

來源：品牌頭版或許，每個人心中都住著一個小饞孩。可能是童年時百吃不厭，覺得新奇又有趣的跳跳糖；可能是味道香甜，咬下一口嘎嘣脆的扁桃仁；還有可能，是某種不知為什么，就是很愛吃的
沉寂3年，大模型激活小度天貓精靈？

Tech星球（微信ID：tech618）文 | 何煦陽沉寂了許久的智能音箱，在今年大模型橫空出世之后，又再次燃起了新的希望。 2月9日，小度宣布將融合文心一言，打造針對智能設備場景的AI模型&ldq
傳騰訊已推出全新XR業務；摩托羅拉正打造5GXR頸戴式計算組件

今日熱點：傳騰訊已推出全新XR業務；摩托羅拉與Verizon合作打造5G XR頸戴式計算組件；小米AR購物導航專利獲授權；VR一體機Simula One放棄眾籌并開放直接預訂；VR游戲《
百度元宇宙希壤是什么？（附下載）

百度元宇宙希壤是什么，最近很多人關注。還有很多人問希壤怎么下載、百度希壤怎么進入？今天小編帶你來全面了解一下。“希壤”是百度于2021年12月27日于百度AI開
冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

《區塊鏈日報》記者查證，近日來冰墩墩數字藏品交易數量出現大幅下滑，而所謂的暴漲千倍更是有價無市的自嗨。昨日，北京冬奧會正式閉幕。在這屆冬奧會上，吉祥物“冰
權限風波過后 X2Y2如何挑戰OpenSea？

繼LooksRare之后，又一個OpenSea挑戰者X2Y2來了。上周，X2Y2宣布向超過86萬個OpenSea交易用戶發放X2Y2通證空投，并啟動了「掛單挖礦」的獎勵機制。這場早期激勵活動
NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

Block-810多個區塊鏈吸引了希望創建單個NFT或整個集合的用戶的注意。Tezos是其中因其低費用和低碳排放方式而備受贊譽的區塊鏈，就連Snoop Dogg也希望通過公開他
如何在元宇宙中建立品牌忠誠度

Snoop Dogg、耐克、蘇富比和普華永道都有什么共同點？他們都投資于元宇宙的房地產。除了我們在屏幕上看到的二維世界--手機、筆記本電腦、臺式機或iPad--他們決
元宇宙+劇本殺：“在異世界里當演員”

你玩過劇本殺嗎？體驗過“元宇宙+劇本殺”嗎？2月，恒信東方推出了一款次時代劇本殺原創作品——《失落的王朝》。其劇本和線索以數字化資產打造，通過VR技術塑造了與

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

LLM 的“母語”是什么？

在元宇宙賣酸奶，這波聯動燃爆了！

沉寂3年，大模型激活小度天貓精靈？

傳騰訊已推出全新XR業務；摩托羅拉正打造5GXR頸戴式計算組件

百度元宇宙希壤是什么？（附下載）

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

權限風波過后 X2Y2如何挑戰OpenSea？

NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

如何在元宇宙中建立品牌忠誠度

元宇宙+劇本殺：“在異世界里當演員”

最新推薦

茅臺的元宇宙App火了，也被罵慘了

元宇宙步入暗夜

字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

2030年的元宇宙產業將會如何發展？

NFT領域，我們是否應該遵守版權法

NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

猜你喜歡

熱門推薦

相關資訊