當前位置：首頁 > 科技 > 軟件

大模型訓練loss突刺原因和解決辦法

來源：責編：時間：2024-01-08 09:18:17 249觀看

導讀最近閱讀了《A Theory on Adam Instability in Large-Scale Machine Learning 》這篇論文。比較全面的闡述了100B以上的大模型預訓練中出現loss spike的原因(loss 突然大幅度上漲)，并介紹了一些可能的解決辦法。論文寫

最近閱讀了《A Theory on Adam Instability in Large-Scale Machine Learning 》這篇論文。比較全面的闡述了100B以上的大模型預訓練中出現loss spike的原因(loss 突然大幅度上漲)，并介紹了一些可能的解決辦法。論文寫的非常精彩，但整體上有點散和深，我嘗試著站在工業立場上把它串一下

突刺是什么

首先介紹一下什么是loss spike：

loss spike指的是預訓練過程中，尤其容易在大模型（100B以上）預訓練過程中出現的loss突然暴漲的情況

圖片

如圖所示模型訓練過程中紅框中突然上漲的loss尖峰 loss spike的現象會導致一系列的問題發生，譬如模型需要很長時間才能再次回到spike之前的狀態（論文中稱為pre-explosion），或者更嚴重的就是loss再也無法drop back down，即模型再也無法收斂

PaLM和GLM130b之前的解決辦法是找到loss spike之前最近的checkpoint，更換之后的訓練樣本來避免loss spike的出現。

突刺成因分析

這篇論文（以下稱本文）對loss spike的出現原因做了十分詳細的分析，最后認為預訓練使用的Adam優化器是導致這個現象出現的重要原因之一

Adam算法是牛頓下降法的一個迭代逼近

圖片

一切顯得十分完美，但是理想很豐滿，現實很骨感，收斂過程并不是一帆風順的

圖片

非穩態

圖片

中間態

圖片

穩態

進入正態分布的穩態之后，理想的更新參數變化趨勢應該是方差越來越小，所有更新參數逐漸向0靠近。這應該是一個單向的過程，即穩定的單峰狀態（unimodal）不會再次進入非穩定的雙峰狀態(bimodal)，但事實并非如此，更新參數會再次進入非穩定的雙峰狀態

本文在理論層面做了研究和解釋，從中心極限定理（可以結合道爾頓板實驗理解）出發，認為隨機事件的疊加進入單峰的正態分布的必要條件之一是各個隨機事件事件之間應該是相互獨立的，但是梯度變化以及更新參數的變化并不能特別好的滿足獨立性這一條件，而這一點恰恰是導致更新參數振蕩，loss spike出現以及loss 不收斂的重要原因之一

圖片

造成梯度變化不獨立的原因（1、淺層參數長時間不更新2、batch太大，后期梯度更新趨于平穩）上述的理論有些晦澀，本文作者可能也了解這一點，之后開始直接點題，結合實驗觀察拋出了重要現象和結論

即訓練過程中loss spike的出現與：梯度更新幅度，大小，batch大小這三個條件密切相關

本文作者對loss spike出現時模型的前后變化做了仔細拆解，發現下列一系列連續現象的出現導致了loss spike：

圖片

當前模型處在穩態（健康狀態），即單峰的正態分布狀態，并且梯度值，此時loss平穩，訓練過程正常

圖片

2.模型淺層(embedding層)梯度，這一般是由于訓練一段時間之后，淺層的語義知識表示此時一般已經學習的較好。但此時深層網絡（對應復雜任務）的梯度更新還是相對較大

圖片

3.一段時間淺層(embedding層)梯度之后會導致，。此時趨于0。因此導致淺層參數得不到更新（也對應于上述參數更新事件不獨立的原因）

圖片

4.此時雖然淺層(embedding層)參數長時間不更新，但是深層的參數依然一直在更新。長時間這樣的狀態之后，batch之間的樣本分布變化可能就會直接導致淺層(embedding層)再次出現較大的梯度變化（可以想象成一個水壩蓄水太久終于被沖開了。至于小模型為什么不會出現這種情況，推測是小模型函數空間小，無法捕獲樣本的分布變化，越大規模的模型對樣本之間不同維度的特征分布變化越敏感），此時，再次集中在附近（此時 , ），變成雙峰的非穩定狀態，本文提到了淺層(embedding層)這種突然的參數變化可能造成模型的連鎖反應進而出現loss spike的現象（這也對應了更換樣本重新訓練有可能會減少loss spike的出現頻率，實際上就是選擇分布變化較小的樣本，減小淺層梯度變換幅度）

圖片

5.這個階段模型處于非穩態，梯度變化幅度較大，每一次的梯度變化和更新參數變化事件之間又出現了一定的獨立性，因此經過一定的時間之后模型有可能再次進入穩態，loss再次drop back down（注意，本文著重提了這個再次drop back down并不是一定出現的，也很有可能loss長期處于flat狀態，再也無法收斂）

因此我們得出一些結論，loss spike的出現和淺層的梯度更新幅度，大小密切相關（batch大小帶來的相關性問題倒是顯得沒那么大說服力），實際上就是淺層網絡參數突然進入到了之前長時間不在的狀態與模型深層參數當前的狀態形成了連鎖反應造成了模型進入非穩態。同時一般情況即使出現loss spike也會自動回復到正常狀態，但也有可能再也不會

突刺解法

本文最后提到了防止loss spike出現的一些方法：

1.如之前提到的PaLM和GLM130B提到的出現loss spike后更換batch樣本的方法（常規方法，但是成本比較高）

2.減小learning rate，這是個治標不治本的辦法，對更新參數的非穩態沒有做改進

3.減小大小?；蛘咧苯影?nbsp;設為0，重新定義

在等于0時候的值（這應該是個值得嘗試的辦法）

值得一提的是智譜華章在本文發表之前，在去年的GLM130B訓練時似乎也觀察到了淺層梯度變化和loss spike相關這一現象（GLM-130B: An Open Bilingual Pre-trained Model），他采取的是把淺層梯度直接乘以縮放系數來減小淺層梯度更新值

出自130b

圖片

其實這塊我有個自己的想法，和是否也可以做衰減，隨著訓練過程逐漸減小，來避免loss spike的現象

另外假設我們能一次性加載所有樣本進行訓練（實際上不可能做到），是否還會出現loss spike的現象

最后目前流行的fp8，fp16混合訓練，如果upscale設置的過小，導致梯度在進入優化器之前就下溢，是不是會增加淺層梯度長時間不更新的可能性，進而增加loss spike的出現的頻率。（這么看來似乎提升upscale大小以及優化大小是進一步提升模型效果的一個思路）

本文鏈接：http://www.tebozhan.com/showinfo-26-57943-0.html大模型訓練loss突刺原因和解決辦法

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Maven的插件體系如何幫助開發人員執行各種構建任務？

下一篇：加快SQL查詢的九種優秀實踐

標簽：

熱門焦點

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

華為全新的HarmonyOS 4.0操作系統將于今天下午正式登場，官方在發布會之前也已經正式給出了可升級的機型產品，這意味著這些機型會率先支持升級享用。這次的HarmonyOS 4.0支持
6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年6月1日至6月30日，僅限國內市場。第一名：魅族20 Pro好評率：95%5月份的時候魅族20 Pro就是
女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

近日，江蘇蘇州一女孩租房當天充值了100元電費，開著空調不到2小時發現電費已用完。對于為什么這個快，房東表示，電表壞了這種情況很多，之前也遇到過，給租客換
8月總票房已突破10億！《封神》第一：口碑已經成了

8月5日消息，據燈塔專業版數據，截至8月5日9時35分，8月總票房（含預售）已突破10億。其中，《封神》以大比分的優勢領先。根據官方消息，目前該片總票房已經超過14.
如何通過Python線程池實現異步編程？

線程池的概念和基本原理線程池是一種并發處理機制，它可以在程序啟動時創建一組線程，并將它們置于等待任務的狀態。當任務到達時，線程池中的某個線程會被喚醒并執行任務，執行完任
三言兩語說透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是兩種很有用的技術，可以幫助我們寫出更加優雅、泛用的函數。本文將首先介紹柯里化和反柯里化的概念、實現原理和應用
東方甄選單飛：有些鳥注定是關不住的

作者：彭寬鴻來源：華爾街科技眼&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;東方甄選創始人俞敏洪帶隊的“7天甘肅行”直播活動已在近日順利收官。成立后一
iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

經過了一段時間的密集爆料，昨日iQOO官方如期對外宣布：將于5月23日推出全新的iQOO Neo8系列新品，官方稱這是一款擁有旗艦級性能調校的作品。隨著發布時
榮耀Magicbook V 14 2021曙光藍版本正式開售，擁有觸摸屏

榮耀 Magicbook V 14 2021 曙光藍版本正式開售，搭載 i7-11390H 處理器與 MX450 顯卡，配備 16GB 內存與 512GB SSD，重 1.48kg，厚 14.5mm，具有 1.5mm 鍵盤鍵程、

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

大模型訓練loss突刺原因和解決辦法

突刺是什么

突刺成因分析

突刺解法

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

8月總票房已突破10億！《封神》第一：口碑已經成了

如何通過Python線程池實現異步編程？

三言兩語說透柯里化和反柯里化

東方甄選單飛：有些鳥注定是關不住的

iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

榮耀Magicbook V 14 2021曙光藍版本正式開售，擁有觸摸屏

最新推薦

猜你喜歡

熱門推薦

相關資訊