AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

LLM 的“母語”是什么?

來源: 責編: 時間:2024-06-05 17:34:50 214觀看
導讀 編輯:alan【新智元導讀】在以英語為主的語料庫上訓練的多語言 LLM,是否使用英語作為內部語言?對此,來自 EPFL 的研究人員針對 Llama 2 家族進行了一系列實驗。大語言模型的「母語」是什么?我們的第一反應很可能是:

6KP28資訊網——每日最新資訊28at.com

編輯:alan6KP28資訊網——每日最新資訊28at.com

【新智元導讀】在以英語為主的語料庫上訓練的多語言 LLM,是否使用英語作為內部語言?對此,來自 EPFL 的研究人員針對 Llama 2 家族進行了一系列實驗。6KP28資訊網——每日最新資訊28at.com

大語言模型的「母語」是什么?6KP28資訊網——每日最新資訊28at.com

我們的第一反應很可能是:英語。6KP28資訊網——每日最新資訊28at.com

但事實果真如此嗎?尤其是對于能夠聽說讀寫多種語言的 LLM 來說。6KP28資訊網——每日最新資訊28at.com

對此,來自 EPFL(洛桑聯邦理工學院)的研究人員發表了下面這篇工作來一探究竟:6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/ pdf / 2402.10588項目地址:https://github.com/ epfl-dlab / llm-latent-language

作者以 Llama2 為對象,向我們展示了具有多語言能力的 Transformer,是如何思考問題的。6KP28資訊網——每日最新資訊28at.com

像「羊駝」這種在英語區下長大的娃,他的「多語言」到底是本質屬性,還是僅僅套了個翻譯的殼?6KP28資訊網——每日最新資訊28at.com

這對于人們理解 LLM 的運行機制至關重要。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

要探究大模型的內心世界,雖然聽起來有點復雜,但實際上一點也不簡單。6KP28資訊網——每日最新資訊28at.com

研究人員在這里化繁為簡,使用特定的提示來保證輸出的唯一性,同時把 Llama-2-7B 的 32 層輸出全部提取出來 —— 一層一層一層地剝開她的心。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

于是,我們能在上圖清楚地看到,羊駝在得到中文翻譯(「花」)時的整個推理過程。6KP28資訊網——每日最新資訊28at.com

Transformer 將輸入 token 進行逐層映射,最終預測出下一個 token,中間那些我們大概能理解或者不能理解的字符串,就是 LLM 使用的「內部語言」。6KP28資訊網——每日最新資訊28at.com

顯然,在中間層的「思考」環節,羊駝用的是偏向于英語的某種神秘文字。這里需要強調一下,這是羊駝的自發行為,因為提示中壓根就沒有一點英語!6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

比如上圖是其中的一個實驗,構建了法語翻譯中文的提示,且限制了正確答案只需 1 個 token(花)。6KP28資訊網——每日最新資訊28at.com

而下圖的統計顯示:在 Llama2 的大部分前向傳遞中,正確中文 token(藍色)的概率遠低于英文翻譯(橙色)的概率。中文只在最后兩層中占據主導地位。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

為了方便大家觀察,作者還將嵌入在高維空間中的路徑的可視化(實際是 8192 個維度,這里使用 2D 展示)。6KP28資訊網——每日最新資訊28at.com

從輸入到輸出,軌跡以紅色開始,以紫色結束。我們可以看到,這些路徑基本都是先繞道英語,然后才返回正確的中文。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

不過,這是否確實表明 Llama2 先用英文進行推理,然后將再其翻譯成中文?6KP28資訊網——每日最新資訊28at.com

作者表示,比這更微妙一點。那些看起來像英語的中間嵌入實際上對應于抽象概念,而不是具體的英文 token。6KP28資訊網——每日最新資訊28at.com

所以,一方面,Llama2 內部的「通用語」不是英語,而是概念;但另一方面,這些神秘字符又顯然是偏向于英語的概念。6KP28資訊網——每日最新資訊28at.com

因此,在語義上,而非純粹的詞匯意義上,英語確實可以被視為羊駝的「母語」。6KP28資訊網——每日最新資訊28at.com

網友:我早就發現了

有網友表示:恕我直言,不僅僅是羊駝系列,基本上所有 LLM 都是這樣。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

「對于以英語為母語的人來說,這可能會令人驚訝,但對于其他人來說,這種傾向性是可見的,只不過有時多,有時少。」6KP28資訊網——每日最新資訊28at.com

「有時我會想 LLM 為什么要這樣回答,然后我意識到這個答案在英語中更有意義。」6KP28資訊網——每日最新資訊28at.com

「這在詩歌中更是顯而易見的。LLM 寫詩很漂亮,但通常沒有押韻 —— 如果你把它翻譯成英語,就押韻了。」6KP28資訊網——每日最新資訊28at.com

另一位網友表示,這是大模型帶來的偏見,要小心了。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

「英語和中文最終將成為 LLM 提示和輸出的最佳語言,而隨著 LLM 的應用范圍越來越廣泛,世界其他語言將更加邊緣化。」6KP28資訊網——每日最新資訊28at.com

模型表達空間的探索

當嵌入逐層轉換時,它們會經歷 3 個階段:6KP28資訊網——每日最新資訊28at.com

1. 輸入空間:模型消除分詞器帶來的影響。6KP28資訊網——每日最新資訊28at.com

2. 概念空間:嵌入進入一個抽象的概念空間中。6KP28資訊網——每日最新資訊28at.com

3. 輸出空間:概念被映射回原本的表達形式。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

模型

實驗專注于 Llama-2 系列語言模型。Llama-2 系列模型在多語言語料庫上進行訓練,語料庫主要由英語主導(占 89.70%)。6KP28資訊網——每日最新資訊28at.com

不過考慮到總體訓練數據的大小(2 萬億個 token),即使是一小部分非英語訓練數據,絕對值仍然很大(德語占 0.17%=3.4B,中文占 0.13%=2.6B)。6KP28資訊網——每日最新資訊28at.com

Llama-2 有 7B / 13B / 70B 三種尺寸,分別為 32/40/80 層,嵌入維度 d=4096/5120/8192,詞匯表 V 包含 32,000 個 token。實驗中使用 8 位量化探究這三種不同大小的模型。6KP28資訊網——每日最新資訊28at.com

實驗

實驗的目標是探索 Llama-2 的內部狀態,是否與特定的自然語言相對應,這需要從 token 分布映射到語言。6KP28資訊網——每日最新資訊28at.com

為了規避許多 token 在語言方面上模棱兩可的問題,研究人員構造了特殊的提示,限制 token 輸出的唯一性,并且可以明確地歸因于某一種語言。6KP28資訊網——每日最新資訊28at.com

翻譯任務6KP28資訊網——每日最新資訊28at.com

將前面的非英語(例如法語)單詞翻譯成中文,示例如下,向模型展示四個單詞,并帶有正確的翻譯,后跟第五個沒有翻譯的單詞,讓模型預測下一個 token:6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

重復任務6KP28資訊網——每日最新資訊28at.com

要求模型簡單地重復最后一個單詞,提示如下:6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

完形填空任務6KP28資訊網——每日最新資訊28at.com

作為一項稍微困難的任務,模型需要預測句子中缺失的單詞。給定一個目標單詞,通過 GPT-4 構建一個以該單詞開頭的英語句子,屏蔽目標單詞,并將該句子翻譯成其他語言。英語示例如下:6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

單詞選擇6KP28資訊網——每日最新資訊28at.com

為了實現明確的語言歸屬,研究人員為每種語言構建了一組封閉的單詞。掃描 Llama-2 的詞匯表,尋找具有單 token 英文翻譯的單 token 中文單詞(主要是名詞)。6KP28資訊網——每日最新資訊28at.com

這樣一來,Llama-2 預測下一個中文單詞的正確概率就可以直接從下一個 token 概率中讀出。6KP28資訊網——每日最新資訊28at.com

保險起見,作者還在德語、法語和俄語上進行了相同的實驗,總共測試了 139 個中文、104 個德語、56 個法語和 115 個俄語單詞。三個任務的測試結果如下:6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

上圖表示 Llama-2 前向傳遞期間,每一層輸出是英語還是中文的概率,三個任務分別為:(a)從德語 / 法語 / 俄語到中文的翻譯任務,(b)中文重復任務,(c)中文完形填空任務。6KP28資訊網——每日最新資訊28at.com

誤差線顯示輸入文本的 95% 高斯置信區間(翻譯任務為 353,重復任務和完形填空為 139)。6KP28資訊網——每日最新資訊28at.com

8192D 太空漫游

自回歸 Transformer 是以增量方式求解的,每一層通過添加殘差來修改前一層產生的潛在向量,這一過程在幾何上可以描述為通過 d 維歐幾里得空間的路徑。6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

為了建立直覺,首先考慮一個假設的極端情況,即 token 位于整個 d 維空間的適當子空間中。6KP28資訊網——每日最新資訊28at.com

如果 latent embedding(h)具有與 token 子空間正交的分量,則表示預測中包含與 h 無關的信息。6KP28資訊網——每日最新資訊28at.com

研究人員采用 h 和 token 嵌入之間的均方余弦,來表示 h 的能量有多少轉化為 logit 分數。為了可解釋性,這里通過 token 嵌入本身的均方余弦進行歸一化,得到 h 的平方 token 能量:6KP28資訊網——每日最新資訊28at.com

6KP28資訊網——每日最新資訊28at.com

在上面的球形示意圖中,所有嵌入都位于原點周圍的球體上。token 嵌入位于赤道上,主要沿 x 軸分布,x 軸捕獲語言(左英文,右中文),y 軸捕捉概念,z 軸提供了額外的自由度,可用于存儲有關上下文、語言等的信息。Transformer 正向傳遞沿球體表面移動。6KP28資訊網——每日最新資訊28at.com

在第 1 階段,latent embedding 從北極開始,與輸出 token 和概念嵌入正交。6KP28資訊網——每日最新資訊28at.com

階段 2 旋轉到概念空間中,英語 token 占據主導。6KP28資訊網——每日最新資訊28at.com

最后,第 3 階段沿赤道旋轉到目標語言的半球,產生輸出 token。6KP28資訊網——每日最新資訊28at.com

參考資料:6KP28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2402.105886KP28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)6KP28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-4493-0.htmlLLM 的“母語”是什么?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 世界最大開源 AI 社區 Hugging Face 曝安全漏洞:部分用戶密鑰泄露

下一篇: 多國勞動力市場將因人工智能出現重大變化

標簽:
  • 熱門焦點
Top