當(dāng)前位置：首頁 > 元宇宙 > AI

大模型增速遠(yuǎn)超摩爾定律！MIT 最新研究：人類快要喂不飽 AI 了

來源：責(zé)編：時(shí)間：2024-03-20 17:22:58 181觀看

導(dǎo)讀【新智元導(dǎo)讀】近日，來自 MIT （麻省理工學(xué)院）的研究人員發(fā)表了關(guān)于大模型能力增速的研究，結(jié)果表明，LLM 的能力大約每 8 個(gè)月就會(huì)翻一倍，速度遠(yuǎn)超摩爾定律！硬件馬上就要跟不上啦！我們?nèi)祟惪赡芤B(yǎng)不起 AI 了！近日，來自 M

【新智元導(dǎo)讀】近日，來自 MIT （麻省理工學(xué)院）的研究人員發(fā)表了關(guān)于大模型能力增速的研究，結(jié)果表明，LLM 的能力大約每 8 個(gè)月就會(huì)翻一倍，速度遠(yuǎn)超摩爾定律！硬件馬上就要跟不上啦！

我們?nèi)祟惪赡芤B(yǎng)不起 AI 了！

近日，來自 MIT FutureTech 的研究人員發(fā)表了一項(xiàng)關(guān)于大模型能力增長速度的研究，結(jié)果表明：LLM 的能力大約每 8 個(gè)月就會(huì)翻一倍，速度遠(yuǎn)超摩爾定律！

論文地址：https://arxiv.org/pdf/2403.05812.pdf

LLM 的能力提升大部分來自于算力，而摩爾定律代表著硬件算力的發(fā)展，

—— 也就是說，隨著時(shí)間的推移，終有一天我們將無法滿足 LLM 所需要的算力！

如果那個(gè)時(shí)候 AI 有了意識(shí)，不知道會(huì)不會(huì)自己想辦法找飯吃？

上圖表示不同領(lǐng)域的算法改進(jìn)對(duì)有效計(jì)算翻倍的估計(jì)。藍(lán)點(diǎn)表示中心估計(jì)值或范圍；藍(lán)色三角形對(duì)應(yīng)于不同大小（范圍從 1K 到 1B）的問題的倍增時(shí)間；紫色虛線對(duì)應(yīng)于摩爾定律表示的 2 年倍增時(shí)間。

摩爾定律和比爾蓋茨

摩爾定律（Moore's law）是一種經(jīng)驗(yàn)或者觀察結(jié)果，表示集成電路（IC）中的晶體管數(shù)量大約每?jī)赡攴环?span style="display:none">enW28資訊網(wǎng)——每日最新資訊28at.com

1965 年，仙童半導(dǎo)體（Fairchild Semiconductor）和英特爾的聯(lián)合創(chuàng)始人 Gordon Moore 假設(shè)集成電路的組件數(shù)量每年翻一番，并預(yù)測(cè)這種增長率將至少再持續(xù)十年。

1975 年，展望下一個(gè)十年，他將預(yù)測(cè)修改為每?jī)赡攴环瑥?fù)合年增長率（CAGR）為 41%。

雖然 Moore 沒有使用經(jīng)驗(yàn)證據(jù)來預(yù)測(cè)歷史趨勢(shì)將繼續(xù)下去，但他的預(yù)測(cè)自 1975 年以來一直成立，所以也就成了“定律”。

因?yàn)槟柖杀话雽?dǎo)體行業(yè)用于指導(dǎo)長期規(guī)劃和設(shè)定研發(fā)目標(biāo)，所以在某種程度上，成了一種自我實(shí)現(xiàn)預(yù)言。

數(shù)字電子技術(shù)的進(jìn)步，例如微處理器價(jià)格的降低、內(nèi)存容量（RAM 和閃存）的增加、傳感器的改進(jìn)，甚至數(shù)碼相機(jī)中像素的數(shù)量和大小，都與摩爾定律密切相關(guān)。

數(shù)字電子的這些持續(xù)變化一直是技術(shù)和社會(huì)變革、生產(chǎn)力和經(jīng)濟(jì)增長的驅(qū)動(dòng)力。

不過光靠自我激勵(lì)肯定是不行的，雖然行業(yè)專家沒法對(duì)摩爾定律能持續(xù)多久達(dá)成共識(shí)，但根據(jù)微處理器架構(gòu)師的報(bào)告，自 2010 年左右以來，整個(gè)行業(yè)的半導(dǎo)體發(fā)展速度已經(jīng)放緩，略低于摩爾定律預(yù)測(cè)的速度。

下面是維基百科給出的晶體管數(shù)量增長趨勢(shì)圖：

到了 2022 年 9 月，英偉達(dá)首席執(zhí)行官黃仁勛直言“摩爾定律已死”，不過英特爾首席執(zhí)行官 Pat Gelsinger 則表示不同意。

從下圖我們可以看出，英特爾還在努力用各種技術(shù)和方法為自己老祖宗提出的定律續(xù)命，并表示，問題不大，你看我們還是直線沒有彎。

Andy and Bill's Law

關(guān)于算力的增長，有一句話是這樣說的：“安迪給的，比爾都拿走（What Andy giveth, Bill taketh away）”。

這反映了當(dāng)時(shí)的英特爾首席執(zhí)行官 Andy Grove 每次向市場(chǎng)推出新芯片時(shí)，微軟的 CEO 比爾?蓋茨（Bill Gates）都會(huì)通過升級(jí)軟件來吃掉芯片提升的性能。

—— 而以后吃掉芯片算力的就是大模型了，而且根據(jù) MIT 的這項(xiàng)研究，大模型以后根本吃不飽。

研究方法

如何定義 LLM 的能力提升？首先，研究人員對(duì)模型的能力進(jìn)行了量化。

基本的思想就是：如果一種算法或架構(gòu)在基準(zhǔn)測(cè)試中以一半的計(jì)算量獲得相同的結(jié)果，那么就可以說，它比另一種算法或架構(gòu)好兩倍。

有了比賽規(guī)則之后，研究人員招募了 200 多個(gè)語言模型來參加比賽，同時(shí)為了確保公平公正，比賽所用的數(shù)據(jù)集是 WikiText-103 和 WikiText-2 以及 Penn Treebank，代表了多年來用于評(píng)估語言模型的高質(zhì)量文本數(shù)據(jù)。

專注于語言模型開發(fā)過程中使用的既定基準(zhǔn)，為比較新舊模型提供了連續(xù)性。

需要注意的是，這里只量化了預(yù)訓(xùn)練模型的能力，沒有考慮一些“訓(xùn)練后增強(qiáng)”手段，比如思維鏈提示（COT）、微調(diào)技術(shù)的改進(jìn)或者集成搜索的方法（RAG）。

模型定義

研究人員通過擬合一個(gè)滿足兩個(gè)關(guān)鍵目標(biāo)的模型來評(píng)估其性能水平：

（1）模型必須與之前關(guān)于神經(jīng)標(biāo)度定律的工作大致一致；

（2）模型應(yīng)允許分解提高性能的主要因素，例如提高模型中數(shù)據(jù)或自由參數(shù)的使用效率。

這里采用的核心方法類似于之前提出的縮放定律，將 Dense Transformer 的訓(xùn)練損失 L 與其參數(shù) N 的數(shù)量和訓(xùn)練數(shù)據(jù)集大小 D 相關(guān)聯(lián)：

其中 L 是數(shù)據(jù)集上每個(gè) token 的交叉熵?fù)p失，E、A、B、α 和 β 是常數(shù)。E 表示數(shù)據(jù)集的“不可減少損失”，而第二項(xiàng)和第三項(xiàng)分別代表由于模型或數(shù)據(jù)集的有限性而導(dǎo)致的錯(cuò)誤。

因?yàn)殡S著時(shí)間的推移，實(shí)現(xiàn)相同性能水平所需的資源（N 和 D）會(huì)減少。為了衡量這一點(diǎn)，作者在模型中引入了“有效數(shù)據(jù)”和“有效模型大小”的概念：

其中的 Y 表示年份，前面的系數(shù)表示進(jìn)展率，代入上面的縮放定律，可以得到：

通過這個(gè)公式，就可以估計(jì)隨著時(shí)間的推移，實(shí)現(xiàn)相同性能水平所需的更少資源（N 和 D）的速度。

數(shù)據(jù)集

參與測(cè)評(píng)的包含 400 多個(gè)在 WikiText-103（WT103）、WikiText-2（WT2）和 Penn Treebank（PTB）上評(píng)估的語言模型，其中約 60% 可用于分析。

研究人員首先從大約 200 篇不同的論文中檢索了相關(guān)的評(píng)估信息，又額外使用框架執(zhí)行了 25 個(gè)模型的評(píng)估。

然后，考慮數(shù)據(jù)的子集，其中包含擬合模型結(jié)構(gòu)所需的信息：token 級(jí)測(cè)試?yán)Щ蠖龋Q定交叉熵?fù)p失）、發(fā)布日期、模型參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)集大小，最終篩選出 231 個(gè)模型供分析。

這 231 個(gè)語言模型，跨越了超過 8 個(gè)數(shù)量級(jí)的計(jì)算，上圖中的每個(gè)形狀代表一個(gè)模型。

形狀的大小與訓(xùn)練期間使用的計(jì)算成正比，困惑度評(píng)估來自于現(xiàn)有文獻(xiàn)以及作者自己的評(píng)估測(cè)試。

在某些情況下，會(huì)從同一篇論文中檢索到多個(gè)模型，為了避免自相關(guān)帶來的問題，這里每篇論文最多只選擇三個(gè)模型。

實(shí)證結(jié)果

根據(jù)縮放定律，以及作者引入的有效數(shù)據(jù)、有效參數(shù)和有效計(jì)算的定義來進(jìn)行評(píng)估，結(jié)果表明：有效計(jì)算的中位倍增時(shí)間為 8.4 個(gè)月，95% 置信區(qū)間為 4.5 至 14.3 個(gè)月。

上圖表示通過交叉驗(yàn)證選擇的模型的算法進(jìn)度估計(jì)值。圖 a 顯示了倍增時(shí)間的匯總估計(jì)值，圖 b 顯示了從左到右按交叉驗(yàn)證性能遞減（MSE 測(cè)試損耗增加）排序。

上圖比較了 2016 年至 2020 年前后的算法有效計(jì)算的估計(jì)倍增時(shí)間。相對(duì)于前期，后期的倍增時(shí)間較短，表明在該截止年之后算法進(jìn)步速度加快。

參考資料

https://twitter.com/emollick/status/1767717692608217407

本文來自微信公眾號(hào)：新智元（ID：AI_era）

本文鏈接：http://www.tebozhan.com/showinfo-45-3634-0.html大模型增速遠(yuǎn)超摩爾定律！MIT 最新研究：人類快要喂不飽 AI 了

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： ASCII 字符畫成注入工具，研究人員發(fā)現(xiàn)大模型“越獄”新手段

下一篇：華為ADS稱王？何小鵬回應(yīng)：競(jìng)爭(zhēng)才剛開始！

標(biāo)簽：

熱門焦點(diǎn)

字節(jié)、騰訊、網(wǎng)易鏖戰(zhàn)元宇宙背后，大廠究竟在爭(zhēng)奪什么？

正當(dāng)互聯(lián)網(wǎng)商業(yè)躊躇不前，互聯(lián)網(wǎng)大廠為了在存量中的增長擠破頭皮之時(shí)，元宇宙的概念被資本點(diǎn)燃。先是Facebook更名Meta正式進(jìn)軍元宇宙，然后字節(jié)跳動(dòng)收購了一家VR硬
如何對(duì)一款 NFT 項(xiàng)目進(jìn)行價(jià)值評(píng)估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導(dǎo) Web3 和 NFT 領(lǐng)域的企業(yè)家，因?yàn)槲蚁嘈盼覀冋谝娮C社會(huì)
元宇宙時(shí)代NFT的價(jià)值衡量

有人認(rèn)為NFT的高昂價(jià)格只是炒作的產(chǎn)物，并不具有其對(duì)等的價(jià)值，但其實(shí)NFT并不是空中樓閣，只是區(qū)塊鏈數(shù)字分類賬中的一種形式。誠然，目前的NFT仍處于灰色地帶，相關(guān)的法
2022年中國元宇宙產(chǎn)業(yè)系列研究報(bào)告-基礎(chǔ)設(shè)施篇（5）

傳感器是由敏感元件和轉(zhuǎn)換元件構(gòu)成，能夠感受規(guī)定的檢測(cè)量(物理量、化學(xué)量、生物量等)，并按照一定規(guī)律將檢測(cè)量轉(zhuǎn)化成可用的輸出信號(hào)的器件和裝置，進(jìn)而滿足信息的
從英式拍到荷蘭拍，看傳統(tǒng)金融拍賣玩法如何玩轉(zhuǎn)NFT市場(chǎng)交易

作者：魯拍賣是一種從古至今的商業(yè)活動(dòng)。從古代的典當(dāng)?shù)浆F(xiàn)代的拍賣市場(chǎng)、我們熟知的拍賣行，以及知名街頭藝術(shù)家Bansky名畫拍賣成功后，竟自毀粉碎，現(xiàn)價(jià)值又翻倍的拍
與元宇宙美少女藝術(shù)家的對(duì)話

我最近宣布了我自己的NFT項(xiàng)目，這是我已經(jīng)工作了幾個(gè)月的事情。由于我之前只是一個(gè)收藏家，擁有自己的項(xiàng)目真的給了我一個(gè)新的視角來看待這個(gè)領(lǐng)域。我一直歡迎人們
韓國流行音樂巨頭SM與Binance達(dá)成NFT合作伙伴關(guān)系

韓國流行音樂巨頭 SM Entertainment 與加密貨幣交易所 Binance（幣安）達(dá)成“Play2Create”NFT 合作伙伴關(guān)系。SM 娛樂一直在投資打造元宇宙該公司于 2020 年 10
元宇宙+劇本殺：“在異世界里當(dāng)演員”

你玩過劇本殺嗎？體驗(yàn)過“元宇宙+劇本殺”嗎？2月，恒信東方推出了一款次時(shí)代劇本殺原創(chuàng)作品——《失落的王朝》。其劇本和線索以數(shù)字化資產(chǎn)打造，通過VR技術(shù)塑造了與
在互聯(lián)網(wǎng)考古后，我被豆瓣上這座元宇宙古城征服了

最近一段時(shí)間，豆瓣可謂命途多舛：APP屢次下架，平臺(tái)也被相關(guān)部門約談、處罰，國家網(wǎng)信辦甚至派人入駐豆瓣以督促整改。有爆料稱豆瓣將陸續(xù)關(guān)閉“小組”功能：這個(gè)曾經(jīng)小

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

大模型增速遠(yuǎn)超摩爾定律！MIT 最新研究：人類快要喂不飽 AI 了

字節(jié)、騰訊、網(wǎng)易鏖戰(zhàn)元宇宙背后，大廠究竟在爭(zhēng)奪什么？

如何對(duì)一款 NFT 項(xiàng)目進(jìn)行價(jià)值評(píng)估？

元宇宙時(shí)代NFT的價(jià)值衡量

2022年中國元宇宙產(chǎn)業(yè)系列研究報(bào)告-基礎(chǔ)設(shè)施篇（5）

從英式拍到荷蘭拍，看傳統(tǒng)金融拍賣玩法如何玩轉(zhuǎn)NFT市場(chǎng)交易

與元宇宙美少女藝術(shù)家的對(duì)話

韓國流行音樂巨頭SM與Binance達(dá)成NFT合作伙伴關(guān)系

元宇宙+劇本殺：“在異世界里當(dāng)演員”

在互聯(lián)網(wǎng)考古后，我被豆瓣上這座元宇宙古城征服了

最新推薦

文心一言排名墊底，卻成為百度業(yè)績(jī)?cè)鲩L杠桿

元宇宙步入暗夜

從NFT頂級(jí)公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

“我沒搞懂元宇宙，但一天能賺9w塊”

虛擬數(shù)字人：元宇宙的主角破圈而來

元宇宙需要的5個(gè)重要安全功能

猜你喜歡

熱門推薦

相關(guān)資訊