當前位置：首頁 > 科技 > 軟件

谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

來源：責編：時間：2023-08-05 11:45:42 4684觀看

導讀谷歌在KDD 2023發表了一篇工作，探索了推薦系統ranking模型的訓練穩定性問題，分析了造成訓練穩定性存在問題的潛在原因，以及現有的一些提升模型穩定性方法的不足，并提出了一種新的梯度裁剪方式，提升了ranking模型的訓練穩定

谷歌在KDD 2023發表了一篇工作，探索了推薦系統ranking模型的訓練穩定性問題，分析了造成訓練穩定性存在問題的潛在原因，以及現有的一些提升模型穩定性方法的不足，并提出了一種新的梯度裁剪方式，提升了ranking模型的訓練穩定性。下面給大家詳細介紹一下這篇文章。

1、模型背景

本文以Youtube中的ranking模型為例，進行推薦系統ranking模型訓練穩定性的分析。整體模型如下圖所示，包括特征輸入層、多任務共享層、每個任務私有參數層，整體包括CTR預估、CVR預估等多個任務聯合訓練。

圖片

什么樣的訓練過程是穩定性比較差的呢？如下圖所示，model-a的loss和auc曲線被文中稱為micro-diverged，即訓練過程中出現loss的突增，伴隨著auc下降，但是繼續訓練模型會恢復回來，最終不會影響模型效果。model-b的loss和auc曲線被文中稱為fully-diverged，即模型訓練過程中出現大幅度的loss增加和auc下降，并且后面也不會再恢復了，對模型的性能影響很大。本文更關注的是后面fully-diverged這種情況。

圖片

2、影響穩定性的因素

為什么推薦系統中的模型，存在這樣的訓練穩定性問題呢？訓練過程不穩定，本質原因在于模型在優化到一個比較陡峭的超平面時使用了一個較大的學習率，導致模型參數的更新出現嚴重問題，文中原話是“step size being too large when loss curvature is steep”。在推薦系統的ranking模型中，這種現象更為常見，主要由于以下幾個原因：

多任務學習：推薦系統中的ranking模型經常采用多任務學習的方式，這導致當一個任務的梯度出現問題時，對共享參數層也會造成很大影響，增加了模型訓練不穩定的可能性；

Sequential training：ranking模型經常需要進行ODL或者增量更新，以適應線上數據分布的實時變化。這就導致模型的訓練數據一直是動態變化的，模型需要不斷擬合變化的數據分布，給模型的收斂帶來更大的不確定因素；

模型尺寸和輸入特征：相比其他領域的模型，ranking模型需要更多類型的輸入特征，并且目前的趨勢是不斷增大模型尺寸，這些都可能導致模型的優化超平面變得更加陡峭導致難以收斂。

下圖展示了在相同的學習率下，loss平面的陡峭程度對于梯度更新的影響，越陡峭的超平面，以一個不適配（較大）的學習率更新會導致loss震蕩難以收斂。

圖片

3、現有方法

為了解決這類訓練不穩定問題，業內已經有一些相應的解決方案。例如，針對上述Sequential training需要適配數據分布而帶來的不收斂問題，可以采用滑動時間窗口的方式生成訓練樣本。每次讓模型使用滑動窗口內的數據進行訓練，通過增大滑動窗口的尺寸，可以讓每輪訓練的模型見到的數據分布差異沒那么大，平滑的更新數據分布，緩解模型需要適配數據分布劇烈變化的問題。

不過，從本質原因“step size being too large when loss curvature is steep”來講，一個治標治本的方法是直接優化梯度更新的過程，對于陡峭的loss超平面使用更小的學習率，使用Hessian矩陣最大特征值計算，也可以近似利用梯度代替。Adagrad和梯度裁剪就是這類方法中的經典工作。Adagrad通過每個參數歷史的梯度更新情況進行累計，來調整每個參數的學習率，歷史更新較多的參數，學習率設置的更小一些，梯度更新公式如下所示：

圖片

而梯度裁剪更加直接，如果計算的梯度大于一定的閾值，就將梯度縮小（如下面公式，核心是縮放系數sigmoid的計算，根據閾值和梯度的L2范數比值而來，梯度的L2范數太大就縮小梯度）。

圖片

如何設計梯度裁剪中的閾值呢？后續的工作Adaptive Gradient Clipping提出了一種自動設計閾值的方式，核心思路是梯度的范數與模型參數范數比值不能太大，因此引入這一項幫助個性化調節不同參數的梯度：

圖片

4、本文方法

雖然上述梯度裁剪方法有助于提升ranking模型訓練穩定性，但是文中發現這類方法對于推薦系統中的ranking模型并不能起到有效作用。經過分析，文中發現，之前的梯度裁剪方法在梯度突然暴增的時候控制力不夠。文中提出了Clippy，主要修改的是梯度裁剪中的縮放系數，相比原來的梯度裁剪主要有2個改進點，一方面將L2 norm改成了無窮范數（取各個維度L1最大值），同時對于分子改成了上文adagrad中的r，即歷史梯度的累積。

圖片

這樣修改的原因為，如下圖所示，在step-b到step-c損失函數突增，梯度對應變大，但是之前的梯度裁剪方法得到的縮放系數并不足以控制梯度。將L2范數改成無窮范數，可以方便捕捉某一個維度上的突變，對某一維度的梯度突增有更強的敏感性。另外，將分子變為累計梯度，讓模型根據累計梯度而不是當前梯度調整閾值，更適配Adagrad對模型參數的更新過程。通過這種方式，如下圖第二列所示，對梯度的約束更加強烈，可以有效限制梯度過大導致的訓練不穩定問題。

圖片

最后，文中給出了Clippy加入到Adagrad更新的整體算法流程，如下表：

圖片

通過下面的實驗對比可以發現，使用了Adagrad+Cliipy后，模型的訓練過程更加穩定：

圖片

本文鏈接：http://www.tebozhan.com/showinfo-26-127-0.html谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：如何使用JavaScript創建一只圖像放大鏡？

下一篇：多線程開發帶來的問題與解決方法

標簽：

熱門焦點

六大權益！華為8月服務日開啟：手機免費貼膜、維修免人工費

8月5日消息，一年一度的華為開發者大會2023（Together）日前在松山湖拉開帷幕，與此同時，華為8月服務日也式開啟，到店可享六大專屬權益。華為用戶可在華為商城Ap
K6：面向開發人員的現代負載測試工具

K6 是一個開源負載測試工具，可以輕松編寫、運行和分析性能測試。它建立在 Go 和 JavaScript 之上，它被設計為功能強大、可擴展且易于使用。k6 可用于測試各種應用程序，包括 Web
谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

谷歌在KDD 2023發表了一篇工作，探索了推薦系統ranking模型的訓練穩定性問題，分析了造成訓練穩定性存在問題的潛在原因，以及現有的一些提升模型穩定性方法的不足，并提出了一種新
一文掌握 Golang 模糊測試（Fuzz Testing）

模糊測試（Fuzz Testing）模糊測試（Fuzz Testing）是通過向目標系統提供非預期的輸入并監視異常結果來發現軟件漏洞的方法。可以用來發現應用程序、操作系統和網絡協議等中的漏洞或
Python異步IO編程的進程/線程通信實現

這篇文章再講3種方式，同時講4中進程間通信的方式一、 Python 中線程間通信的實現方式共享變量共享變量是多個線程可以共同訪問的變量。在Python中，可以使用threading模塊中的L
ESG的面子與里子

來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之三伏大幕拉起，各地高溫預警不絕，但處于厄爾尼諾大“烤”之下的除了眾生，還有各大企業發布的ESG報告。ESG是“環境保
三星獲批量產iPhone 15全系屏幕：蘋果史上最驚艷直屏

按照慣例，蘋果將繼續在今年9月舉辦一年一度的秋季新品發布會，有傳言稱發布會將于9月12日舉行，屆時全新的iPhone 15系列將正式與大家見面，不出意外的話
iQOO Neo8系列新品發布會

旗艦雙芯更強更Pro
OPPO K11搭載長壽版100W超級閃充：26分鐘充滿100%

據此前官方宣布，OPPO將于7月25日也就是今天下午14:30舉辦新品發布會，屆時全新的OPPO K11將正式與大家見面，將主打旗艦影像，和同檔位競品相比，其最大的賣

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

1、模型背景

2、影響穩定性的因素

3、現有方法

4、本文方法

六大權益！華為8月服務日開啟：手機免費貼膜、維修免人工費

K6：面向開發人員的現代負載測試工具

谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

一文掌握 Golang 模糊測試（Fuzz Testing）

Python異步IO編程的進程/線程通信實現

ESG的面子與里子

三星獲批量產iPhone 15全系屏幕：蘋果史上最驚艷直屏

iQOO Neo8系列新品發布會

OPPO K11搭載長壽版100W超級閃充：26分鐘充滿100%

最新推薦

猜你喜歡

熱門推薦

相關資訊