AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 知識百科

神經網絡為何越大越好?NeurIPS論文證明:魯棒性是泛化的基礎

來源: 責編: 時間:2023-08-07 16:29:56 263觀看
導讀 當神經網絡的研究方向逐漸轉為超大規模預訓練模型,研究人員的目標似乎變成了讓網絡擁有更大的參數量,更多的訓練數據,更多樣化的訓練任務。當然,這個措施確實很有效,隨著神經網絡

當神經網絡的研究方向逐漸轉為超大規模預訓練模型,研究人員的目標似乎變成了讓網絡擁有更大的參數量,更多的訓練數據,更多樣化的訓練任務。IGD28資訊網——每日最新資訊28at.com

當然,這個措施確實很有效,隨著神經網絡越來越大,模型了解和掌握的數據也更多,在部分特定任務上已經超越人類。IGD28資訊網——每日最新資訊28at.com

但在數學上,現代神經網絡的規模實際上有些過于臃腫了,參數量通常遠遠超過了預測任務的需求,這種情況也被稱為過度參數化(overparameterization)。IGD28資訊網——每日最新資訊28at.com

NeurIPS上的一篇論文中最近就這一現象提出了一種全新的解釋。他們認為這種比預期規模更大的神經網絡是完全有必要的,只有這樣才能避免某些基本問題,這篇論文中的發現也為這一問題提供一種更通用的見解。IGD28資訊網——每日最新資訊28at.com

IGD28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/abs/2105.12806IGD28資訊網——每日最新資訊28at.com

文章的第一作者Sébastien Bubeck在MSR Redmond管理機器學習基礎研究組,主要在機器學習和理論計算機科學中跨越各種主題進行交叉研究。IGD28資訊網——每日最新資訊28at.com

IGD28資訊網——每日最新資訊28at.com

神經網絡就該這么大IGD28資訊網——每日最新資訊28at.com

神經網絡的一項常見任務是識別圖像中的目標對象。IGD28資訊網——每日最新資訊28at.com

IGD28資訊網——每日最新資訊28at.com

為了創建一個能夠完成該任務的網絡,研究人員首先為其提供許多圖像和對應目標標簽,對其進行訓練以學習它們之間的相關性。之后,網絡將正確識別它已經看到的圖像中的目標。IGD28資訊網——每日最新資訊28at.com

換句話說,訓練過程使得神經網絡記住了這些數據。IGD28資訊網——每日最新資訊28at.com

并且,一旦網絡記住了足夠多的訓練數據,它還能夠以不同程度的準確度預測它從未見過的物體的標簽,這個過程稱為泛化。IGD28資訊網——每日最新資訊28at.com

網絡的大小決定了它能記憶多少東西。IGD28資訊網——每日最新資訊28at.com

IGD28資訊網——每日最新資訊28at.com

可以用圖形化的空間來理解。假設有兩個數據點,把它們放在一個XY平面上,可以用一條由兩個參數描述的線來連接這些點:線的斜率和它與縱軸相交時的高度。如果其他人也知道這條直線的參數,以及其中一個原始數據點的X坐標,他們可以通過觀察這條直線(或使用參數)來計算出相應的Y坐標。IGD28資訊網——每日最新資訊28at.com

也就是說,這條線已經記住了這兩個數據點,神經網絡做的就是差不多類似的事情。IGD28資訊網——每日最新資訊28at.com

例如,圖像是由成百上千的數值描述的,每個像素都有一個對應的值。可以把這個由許多自由值組成的集合在數學上相當于高維空間中一個點的坐標,坐標的數量也稱為維度。IGD28資訊網——每日最新資訊28at.com

傳統的數學結論認為,要用一條曲線擬合n個數據點,你需要一個有n個參數的函數。例如,在直線的例子中,兩個點是由一條有兩個參數的曲線描述的。IGD28資訊網——每日最新資訊28at.com

當神經網絡在20世紀80年代首次作為一種新模型出現時,研究人員也這么認為,應該只需要n個參數來適應n個數據點,而跟數據的維度無關。IGD28資訊網——每日最新資訊28at.com

德克薩斯大學奧斯汀分校的Alex Dimakis表示,現在實際情況已經不是這樣了,神經網絡的參數數量遠遠超過了訓練樣本的數量,這說明了教科書上的內容必須得重寫進行修正。IGD28資訊網——每日最新資訊28at.com

研究人員正在研究神經網絡的魯棒性(robustness),即網絡處理小變化的能力。例如,一個不魯棒的網絡可能已經學會了識別長頸鹿,但它會把一個幾乎沒有修改的版本誤標為沙鼠。IGD28資訊網——每日最新資訊28at.com

IGD28資訊網——每日最新資訊28at.com

2019年,Bubeck和同事們正在尋求證明關于這個問題的定理,當時他們就意識到這個問題與網絡的規模有關。IGD28資訊網——每日最新資訊28at.com

在他們的新證明中,研究人員表明,過度參數化對于網絡的魯棒性是必要的。他們提出平滑性(smoothness),來指出需要多少個參數才能用一條具有等同于魯棒性的數學特性的曲線來擬合數據點。IGD28資訊網——每日最新資訊28at.com

要想理解這一點,可以再次想象平面上的一條曲線,其中x坐標代表一個像素的顏色,y坐標代表一個圖像標簽。IGD28資訊網——每日最新資訊28at.com

由于曲線是平滑的,如果你稍微修改一下像素的顏色,沿著曲線移動一小段距離,相應的預測值只會有少量的變化。另一方面,對于一條鋸齒狀的曲線,X坐標(顏色)的微小變化會導致Y坐標(圖像標簽)的巨大變化,長頸鹿可以變成沙鼠。IGD28資訊網——每日最新資訊28at.com

Bubeck和Sellke在論文中證明,平滑擬合高維數據點不僅需要n個參數,而且需要n×d個參數,其中d是輸入的維度(例如,784個像素的圖像輸入維度為784)。IGD28資訊網——每日最新資訊28at.com

換句話說,如果你想讓一個網絡穩健地記住它的訓練數據,過度參數化不僅是有幫助的,而且是必須的。該證明依賴于一個關于高維幾何的事實,即隨機分布在球體表面的點幾乎都是彼此相距一個直徑的距離,點與點之間的巨大間隔意味著用一條光滑的曲線來擬合它們需要許多額外的參數。IGD28資訊網——每日最新資訊28at.com

IGD28資訊網——每日最新資訊28at.com

耶魯大學的Amin Karbasi稱贊論文中的證明是非常簡潔的,沒有大量的數學公式,而且它說的是非常通用的內容。IGD28資訊網——每日最新資訊28at.com

這一證明結果也為理解為什么擴大神經網絡的簡單策略如此有效提供了一個新的途徑。IGD28資訊網——每日最新資訊28at.com

其他研究揭示了過量參數化有幫助的其他原因。例如,它可以提高訓練過程的效率,也可以提高網絡的泛化能力。IGD28資訊網——每日最新資訊28at.com

雖然我們現在知道過量參數化對魯棒性是必要的,但還不清楚魯棒性對其他事情有多大必要。但通過將其與過度參數化聯系起來,新的證明暗示魯棒性可能比人們想象的更重要,這也可能為其他解釋大模型的益處研究做鋪墊。IGD28資訊網——每日最新資訊28at.com

魯棒性確實是泛化的一個先決條件,如果你建立了一個系統,只是輕微地擾動它,然后它就失控了,那是什么樣的系統?顯然是不合理的。IGD28資訊網——每日最新資訊28at.com

所以,Bubeck認為這是一個非常基礎和基本的要求。IGD28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-119-2174-0.html神經網絡為何越大越好?NeurIPS論文證明:魯棒性是泛化的基礎

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 不可見,無安全!值得關注的十大國外SASE廠商(2022版)

下一篇: Akamai擬9億美元收購Linode 構建從邊到云的分布式計算平臺

標簽:
  • 熱門焦點
  • 一加Ace2 Pro真機揭曉 鈦空灰配色質感拉滿

    終于,在經過了幾波預熱之后,一加Ace2 Pro的外觀真機圖在網上出現了。還是博主數碼閑聊站曝光的,這次的外觀設計還是延續了一加11的方案,只是細節上有了調整,例如新加入了鈦空灰
  • K60至尊版剛預熱 一加Ace2 Pro正面硬剛

    Redmi這邊剛如火如荼的宣傳了K60 Ultra的各種技術和硬件配置,作為競品的一加也坐不住了。一加中國區總裁李杰發布了兩條微博,表示在自家的一加Ace2上早就已經采用了和PixelWo
  • 掘力計劃第 20 期:Flutter 混合開發的混亂之治

    在掘力計劃系列活動第20場,《Flutter 開發實戰詳解》作者,掘金優秀作者,Github GSY 系列目負責人戀貓的小郭分享了Flutter 混合開發的混亂之治。Flutter 基于自研的 Skia 引擎
  • 2023 年的 Node.js 生態系統

    隨著技術的不斷演進和創新,Node.js 在 2023 年達到了一個新的高度。Node.js 擁有一個龐大的生態系統,可以幫助開發人員更快地實現復雜的應用。本文就來看看 Node.js 最新的生
  • Python異步IO編程的進程/線程通信實現

    這篇文章再講3種方式,同時講4中進程間通信的方式一、 Python 中線程間通信的實現方式共享變量共享變量是多個線程可以共同訪問的變量。在Python中,可以使用threading模塊中的L
  • 拼多多APP上線本地生活入口,群雄逐鹿萬億市場

    Tech星球(微信ID:tech618)文 | 陳橋輝 Tech星球獨家獲悉,拼多多在其APP內上線了“本地生活”入口,位置較深,位于首頁的“充值中心”內,目前主要售賣美食相關的
  • 新電商三兄弟,“抖快紅”成團!

    來源:價值研究所作 者:Hernanderz 隨著內容電商的概念興起,抖音、快手、小紅書組成的“新電商三兄弟”成為業內一股不可忽視的勢力,給阿里、京東、拼多多帶去了巨大壓
  • 微博大門常打開,迎接海外畫師漂洋東渡

    作者:互聯網那些事“起猛了,我能看得懂日語了”。“為什么日本人說話我能聽懂?”“中文不像中文,日語不像日語,但是我竟然看懂了”…&hell
  • 2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會隆重舉行

    9月18日,2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會在青島國際新聞中心隆重舉行。發布會上青島市政府領導聯袂出席,對本次雙展會情
Top