AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 知識百科

谷歌:性能不佳的微調模型不要扔,求一下平均權重就能提升性能

來源: 責編: 時間:2023-08-07 16:30:02 281觀看
導讀 本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。如何最大限度地提升模型精度?最近,谷歌等機構發現:性能不好的微調模型先不要扔,求一下平均權重!就能在不增加推理

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。Rn828資訊網——每日最新資訊28at.com

如何最大限度地提升模型精度?Rn828資訊網——每日最新資訊28at.com

最近,谷歌等機構發現:Rn828資訊網——每日最新資訊28at.com

性能不好的微調模型先不要扔,求一下平均權重!Rn828資訊網——每日最新資訊28at.com

就能在不增加推理時間以及內存開銷的情況下,提高模型的準確性和魯棒性。Rn828資訊網——每日最新資訊28at.com

比如,研究人員就使用該方法創造了ImageNet1K的新紀錄:90.94%。Rn828資訊網——每日最新資訊28at.com

Rn828資訊網——每日最新資訊28at.com

將它擴展到多個圖像分類以及自然語言處理任務中,也能提高模型的分布外性能,并改善新下游任務的零樣本性能。Rn828資訊網——每日最新資訊28at.com

而這個方法還有一個有趣的名字,叫Module soup——Rn828資訊網——每日最新資訊28at.com

是不是讓人一下子就讓人聯想到了斐波那契湯的笑話?(昨天的湯+前天的湯=今天的新湯)Rn828資訊網——每日最新資訊28at.com

Rn828資訊網——每日最新資訊28at.com

△ 知乎網友@hzwer,已授權Rn828資訊網——每日最新資訊28at.com

一共三種配方Rn828資訊網——每日最新資訊28at.com

回想一下在此之前,大家是如何給模型漲點的呢?Rn828資訊網——每日最新資訊28at.com

是不是先用各種超參數訓練出多個微調模型,然后再挑出驗證集上表現最好的那一個留下,其余丟掉?Rn828資訊網——每日最新資訊28at.com

由于神經網絡是非線性的,在不同的loss basin中可能有許多解,因此Module soup這一采用保留所有微調模型的權重,對其進行平均的方法就可以提高性能,還是讓人有點驚訝的。Rn828資訊網——每日最新資訊28at.com

不過,最近就已有研究發現,從相同的初始化配置中中獨立優化的微調模型,位于相同的誤差范圍內 (lie in the same basin of the error landscape)。Rn828資訊網——每日最新資訊28at.com

之前也有研究證明,沿單個訓練軌跡進行權重平均,可以提高隨機初始化訓練模型的性能。Rn828資訊網——每日最新資訊28at.com

作者正是從這些結論中受到啟發。Rn828資訊網——每日最新資訊28at.com

Module soup一共有三種“配方”(實現):統一湯(uniform soup)、貪婪湯(greedy soup)和學習湯(learned soup)。Rn828資訊網——每日最新資訊28at.com

其中greedy soup是最主要采用的實現,因為它的性能比直接均勻地平均所有權重更高。Rn828資訊網——每日最新資訊28at.com

具體來說,Greedy soup通過順序添加每個模型作為“湯”中的潛在成分構建而成,并且只有在保持驗證集上的性能有所提高時才將相應模型保留在“湯”中。Rn828資訊網——每日最新資訊28at.com

排序按驗證集精度的降序排列。Rn828資訊網——每日最新資訊28at.com

Rn828資訊網——每日最新資訊28at.com

性能超越單個最佳微調模型Rn828資訊網——每日最新資訊28at.com

作者進行了全面的微調實驗來確定Module soup的有效性。Rn828資訊網——每日最新資訊28at.com

首先是微調CLIP和ALIGN,這兩個模型在圖像-文本對上進行了對比損失預訓練。Rn828資訊網——每日最新資訊28at.com

結果經過module soup操作后,兩者在分布內和自然分布轉移(distribution shifts)測試集上的表現都比最佳的單個微調模型性能更佳。Rn828資訊網——每日最新資訊28at.com

Rn828資訊網——每日最新資訊28at.com

△ 左為CLIP,右為ALIGNRn828資訊網——每日最新資訊28at.com

然后是在JFT數據集上預訓練的ViT-G模型。Rn828資訊網——每日最新資訊28at.com

也就是它在ImageNet1K數據集實現了90.94%的精度,打破了此前CoAtNet保持的90.88%,同時在推理階段還減少了25%的FLOPs。Rn828資訊網——每日最新資訊28at.com

Rn828資訊網——每日最新資訊28at.com

在圖像分類任務以外,作者在NLP領域也對module soup進行了驗證。Rn828資訊網——每日最新資訊28at.com

下表是BERT和T5模型在GLUE benchmark的四個文本分類任務上的結果:Rn828資訊網——每日最新資訊28at.com

Rn828資訊網——每日最新資訊28at.com

可以發現,雖然改進不如圖像分類中的效果明顯,但在多數任務下,greedy soup都可以相較最好的單個模型提高性能。Rn828資訊網——每日最新資訊28at.com

當然,作者也指出,module soup在適用性等方面存在局限,比如現在測試的都是在大型異構數據集上預先訓練的模型,在這些模型之外,效果并不是非常明顯。Rn828資訊網——每日最新資訊28at.com

最后,知乎網友@宮醬手藝人表示,其實這樣的模型參數平均是一個經典trick,transformer原始論文就用了。Rn828資訊網——每日最新資訊28at.com

Rn828資訊網——每日最新資訊28at.com

你發現了嗎?Rn828資訊網——每日最新資訊28at.com

論文地址:Rn828資訊網——每日最新資訊28at.com
https://arxiv.org/abs/2203.0548Rn828資訊網——每日最新資訊28at.com

 Rn828資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-119-2219-0.html谷歌:性能不佳的微調模型不要扔,求一下平均權重就能提升性能

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 云安全日報220317:紅帽OpenShift云應用平臺發現執行任意代碼漏洞,需要盡快升級

下一篇: 終于不瞎編了!AI學會“谷歌一下”,Q&A正確率達90%

標簽:
  • 熱門焦點
  • 一加Ace2 Pro真機揭曉 鈦空灰配色質感拉滿

    終于,在經過了幾波預熱之后,一加Ace2 Pro的外觀真機圖在網上出現了。還是博主數碼閑聊站曝光的,這次的外觀設計還是延續了一加11的方案,只是細節上有了調整,例如新加入了鈦空灰
  • 轎車從天而降電動車主被撞身亡 超速搶道所致:現場視頻讓網友吵翻

    近日,上海青浦區法院判決轎車從天而降電動車主被撞身亡案,轎車車主被判有期徒刑一年。案件顯示當時男子駕駛轎車在上海某路段行駛,前車忽然轉彎提速超車,
  • K6:面向開發人員的現代負載測試工具

    K6 是一個開源負載測試工具,可以輕松編寫、運行和分析性能測試。它建立在 Go 和 JavaScript 之上,它被設計為功能強大、可擴展且易于使用。k6 可用于測試各種應用程序,包括 Web
  • 掘力計劃第 20 期:Flutter 混合開發的混亂之治

    在掘力計劃系列活動第20場,《Flutter 開發實戰詳解》作者,掘金優秀作者,Github GSY 系列目負責人戀貓的小郭分享了Flutter 混合開發的混亂之治。Flutter 基于自研的 Skia 引擎
  • 一文看懂為蘋果Vision Pro開發應用程序

    譯者 | 布加迪審校 | 重樓蘋果的Vision Pro是一款混合現實(MR)頭戴設備。Vision Pro結合了虛擬現實(VR)和增強現實(AR)的沉浸感。其高分辨率顯示屏、先進的傳感器和強大的處理能力
  • JVM優化:實戰OutOfMemoryError異常

    一、Java堆溢出堆內存中主要存放對象、數組等,只要不斷地創建這些對象,并且保證 GC Roots 到對象之間有可達路徑來避免垃 圾收集回收機制清除這些對象,當這些對象所占空間超過
  • 阿里大調整

    來源:產品劉有媒體報道稱,近期淘寶天貓集團啟動了近年來最大的人力制度改革,涉及員工績效、層級體系等多個核心事項,目前已形成一個初步的“征求意見版”:1、取消P序列
  • 消息稱小米汽車開始篩選交付中心:需至少120個車位

    IT之家 7 月 7 日消息,日前,有微博簡介為“汽車行業從業者、長三角一體化擁護者”的微博用戶 @長三角行健者 發文表示,據經銷商集團反饋,小米汽車目前
  • OPPO Reno10 Pro英雄聯盟定制禮盒公布:薩勒芬妮同款配色夢幻十足

    5月24日,OPPO推出了全新的OPPO Reno 10系列,包含OPPO Reno10、OPPO Reno10 Pro和OPPO Reno10 Pro+三款新機,全系標配了超光影長焦鏡頭,是迄今為止拍照
Top