當前位置：首頁 > 元宇宙 > AI

數據枯竭引發AI危機：模型崩潰如何解決？

來源：責編：時間：2023-08-15 18:48:08 312觀看

導讀7月18日消息，比大更大的AI語言模型成為當今AI領域的熱門話題，似乎再沒有什么比它更為恰當的形容了。大型模型的參數規模不斷擴大，從十億、百億到千億，訓練AI所需的數據量也呈指數級增長。以OpenAI的GPT為例，從GPT-1到GPT-3

7月18日消息，比大更大的AI語言模型成為當今AI領域的熱門話題，似乎再沒有什么比它更為恰當的形容了。

大型模型的參數規模不斷擴大，從十億、百億到千億，訓練AI所需的數據量也呈指數級增長。

以OpenAI的GPT為例，從GPT-1到GPT-3，訓練數據集的規模從4.5GB急劇增長至570GB。

不久前，由Databricks舉辦的Data+AI大會上，a16z創始人馬克·安德森認為，互聯網在過去二十多年積累的海量數據是新一輪AI浪潮興起的重要原因，因為這些數據為AI訓練提供了可用的素材。

然而，盡管網民在網絡上留下了大量有用或無用的數據，對于AI訓練來說，這些數據可能即將見底。

人工智能研究和預測組織Epoch發表的一篇論文預測，高質量的文本數據將在2023年至2027年之間消耗殆盡。

盡管研究團隊承認分析方法存在嚴重局限性，模型的不準確性較高，但很難否認AI對數據集的消耗速度令人擔憂。

當人類數據用盡后，AI訓練不可避免地將依賴于AI自身生成的內容。然而，這種"內循環"會帶來巨大挑戰。

最近，來自劍橋大學、牛津大學、多倫多大學等高校的研究人員發表的論文指出，使用AI生成的內容來訓練AI會導致新模型的崩潰。

那么，為什么使用"生成數據"來訓練AI會導致模型崩潰?是否還有拯救的辦法呢?

研究人員在名為"遞歸的詛咒：用生成數據訓練會使模型遺忘"的論文中指出，"模型崩潰"是幾代模型退化的過程。

在早期的模型崩潰中，模型會逐漸失去對原始數據分布的理解，也就是"干凈的人類數據"。

在晚期階段，模型會將幾代模型對原始數據分布的錯誤認知糾纏在一起，進而扭曲對現實的認知。

研究人員首先對小樣本模型GMM(高斯混合模型)和VAE(變量自動編碼器)進行了訓練。以GMM為例，他們觀察到模型在開始幾十次迭代時對數據的擬合非常好。然而，隨著迭代的進行，模型對數據分布的理解開始出現錯誤。當迭代達到2000次時，模型已經收斂到一個非常小的點，意味著模型開始穩定地輸出錯誤的答案。

為了驗證預訓練對實驗結果的影響，研究人員還在1.25億參數的LLM(大語言模型)OPT-125m上進行了實驗，數據集來自維基百科的wikitext2。通過實驗結果可以看出，到了第9代模型時，輸出的內容已經變得毫無意義。

論文的作者之一伊利亞·舒邁洛夫表示，隨著時間的推移，人工智能生成的數據中的錯誤會不斷累積，主要模型在接受這些數據訓練后，會對現實產生更加扭曲的認知。

那么，為什么會出現模型崩潰呢?

模型崩潰的主要原因在于AI并非真正的智能，其所展現的近似"智能"能力實際上是基于大量數據的統計學方法。

基本上，所有無監督機器學習算法都遵循著一個簡單的模式：給定一系列數據，訓練出一個能夠描述這些數據規律的模型。

在這個過程中，模型更容易關注出現概率較高的數據，而對于出現概率較低的數據則容易低估。

舉個例子，假設我們需要記錄100次擲骰子的結果來計算每個面出現的概率。理論上，每個面出現的概率是相等的。然而，在實際生活中，由于樣本量較小，可能會出現某些面的出現次數比較多的情況。但是對于模型而言，它學習到的數據就是某些面出現的概率較高，因此它會更傾向于生成更多的這些面的結果。

那么，有沒有辦法解決模型崩潰的問題呢?

事實上，并不是所有的希望都已經破滅。

當人類數據越來越稀缺時，AI訓練仍然有機會，有一些方法可以解決數據枯竭的問題：

首先是數據"隔離"。隨著AI的不斷強大，越來越多的人開始使用AI輔助工作，因此可用的"干凈人類數據集"可能會越來越難以獲取。為了解決模型崩潰問題，研究團隊提出了一種"先行者優勢"的方法，即將干凈的人工生成數據源與AI生成的內容分離開來，以防止AIGC對干凈數據的污染。這需要社區和公司的共同努力，共同保護人類數據免受AIGC的污染。

其次是使用合成數據。實際上，專門基于AI生成的數據已經被廣泛用于AI的訓練。對于一些從業者來說，目前關注AI生成數據導致模型崩潰的擔憂可能有些夸大其詞。光輪智能創始人謝晨表示，國外的研究論文中對于AI生成數據導致模型崩潰的實驗方法并不準確。無論是人類數據還是AI生成的數據，都存在可用性和不可用性的區別。因此，關鍵在于建立一套有效的體系來區分AI生成的數據中的可用和不可用部分，并根據訓練后模型的效果進行反饋。OpenAI使用合成數據進行模型訓練已經成為AI行業內的共識。

總之，盡管人類數據面臨枯竭的問題，但AI訓練并非沒有解決辦法。通過數據的隔離和合成數據的使用，可以有效克服模型崩潰的問題，確保AI的持續發展。

本文鏈接：http://www.tebozhan.com/showinfo-45-981-0.html數據枯竭引發AI危機：模型崩潰如何解決？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：馬斯克建立xAI以防止人工智能壟斷

下一篇：互動社交平臺映客的母公司蜜萊塢科技購買昆侖萬維AI技術服務

標簽：

熱門焦點

AI網紅能年賺百萬，普通人的新機會來了？

來源｜運營研究社作者 | 張知白編輯 | 楊佩汶設計 | 晏談夢潔2023 年，數字人成為了當紅的“流量話題”和“商業機會"。不管是 AI 孫燕姿走紅網絡，還是 AI 數字
VR/AR迷失元宇宙“硝煙”

不溫不火的VR/AR可穿戴設備因元宇宙崛起火了一陣，又隨著元宇宙回歸平靜。1月份，微軟在 Surface 設備、HoloLens 混合現實硬件和 Xbox 等部門裁員，其中負責混合現實硬件（MR）的Holo
25萬虛擬er在“元宇宙”追星

“默嘰默嘰，我是默默醬，我是在真元宇宙也有頭有臉的人。”12月11日晚20：00，虛擬偶像@默默醬的首場個人元宇宙演唱會《以夢為馬，抵達繁星》在大有空間APP
冰墩墩還能火多久？

作者：田巧云題圖源自北京2022年冬奧會官方微博如果要問2022年的開年明星是誰，冰墩墩當仁不讓。幾乎所有人都被那個抖雪的動作實力圈粉。在社交媒體的助推，以及日
Layer1的新以太坊，更好的以太坊？

以太坊作為區塊鏈基礎設施地位看起來已不可動搖，但也面臨著費用高、效率低、偏離去中心化初衷等問題。平臺上既得利益群體的形成和固化也逐漸讓革新變得困難。
以太坊升級將會帶來的5個改變

以太坊自2015年誕生以來就廣受歡迎，但最近其昂貴的交易費用和低可擴展性對執行復雜的應用程序產生了負面作用，用戶對以太坊改進的需求也日益急迫。以太坊2.0已進
餐桌上怎么變出元宇宙？

作者：星影“元宇宙讓餐飲業脫胎換骨。”實體的餐飲與虛擬的元宇宙，看起來風馬牛不相及，但最近全世界的餐飲企業都掀起了一股注冊元宇宙商標的熱潮。2月初，全球最大
這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發揮作用

前米高梅首席執行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室，提供 NFT，讓持有者在制作中發揮作用Electromagnetic Productions 創始
Ceramic：為Web3.0社交應用打造的中間件

大家關注老雅痞公眾號這么久，對Web3的概念不陌生吧？讓我們做一個簡短的回顧，Web3主要被描述為去中心化的網絡，旨在實現無服務器、去中心化的互聯網，即用戶掌握自己

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

數據枯竭引發AI危機：模型崩潰如何解決？

AI網紅能年賺百萬，普通人的新機會來了？

VR/AR迷失元宇宙“硝煙”

25萬虛擬er在“元宇宙”追星

冰墩墩還能火多久？

Layer1的新以太坊，更好的以太坊？

以太坊升級將會帶來的5個改變

餐桌上怎么變出元宇宙？

這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發揮作用

Ceramic：為Web3.0社交應用打造的中間件

最新推薦

這一超級富豪“逆襲”，身價大增4330億

三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

虛擬人再升級，企業可以解放雙手了？

VR/AR迷失元宇宙“硝煙”

花旗集團前高管加入Provenance區塊鏈，擔任CEO

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

猜你喜歡

熱門推薦

相關資訊