AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

數據枯竭引發AI危機:模型崩潰如何解決?

來源: 責編: 時間:2023-08-15 18:48:08 254觀看
導讀7月18日消息,比大更大的AI語言模型成為當今AI領域的熱門話題,似乎再沒有什么比它更為恰當的形容了。大型模型的參數規模不斷擴大,從十億、百億到千億,訓練AI所需的數據量也呈指數級增長。以OpenAI的GPT為例,從GPT-1到GPT-3

7月18日消息,比大更大的AI語言模型成為當今AI領域的熱門話題,似乎再沒有什么比它更為恰當的形容了。y2P28資訊網——每日最新資訊28at.com

大型模型的參數規模不斷擴大,從十億、百億到千億,訓練AI所需的數據量也呈指數級增長。y2P28資訊網——每日最新資訊28at.com

以OpenAI的GPT為例,從GPT-1到GPT-3,訓練數據集的規模從4.5GB急劇增長至570GB。y2P28資訊網——每日最新資訊28at.com

不久前,由Databricks舉辦的Data+AI大會上,a16z創始人馬克·安德森認為,互聯網在過去二十多年積累的海量數據是新一輪AI浪潮興起的重要原因,因為這些數據為AI訓練提供了可用的素材。y2P28資訊網——每日最新資訊28at.com

然而,盡管網民在網絡上留下了大量有用或無用的數據,對于AI訓練來說,這些數據可能即將見底。y2P28資訊網——每日最新資訊28at.com

人工智能研究和預測組織Epoch發表的一篇論文預測,高質量的文本數據將在2023年至2027年之間消耗殆盡。y2P28資訊網——每日最新資訊28at.com

盡管研究團隊承認分析方法存在嚴重局限性,模型的不準確性較高,但很難否認AI對數據集的消耗速度令人擔憂。y2P28資訊網——每日最新資訊28at.com

當人類數據用盡后,AI訓練不可避免地將依賴于AI自身生成的內容。然而,這種"內循環"會帶來巨大挑戰。y2P28資訊網——每日最新資訊28at.com

最近,來自劍橋大學、牛津大學、多倫多大學等高校的研究人員發表的論文指出,使用AI生成的內容來訓練AI會導致新模型的崩潰。y2P28資訊網——每日最新資訊28at.com

那么,為什么使用"生成數據"來訓練AI會導致模型崩潰?是否還有拯救的辦法呢?y2P28資訊網——每日最新資訊28at.com

研究人員在名為"遞歸的詛咒:用生成數據訓練會使模型遺忘"的論文中指出,"模型崩潰"是幾代模型退化的過程。y2P28資訊網——每日最新資訊28at.com

在早期的模型崩潰中,模型會逐漸失去對原始數據分布的理解,也就是"干凈的人類數據"。y2P28資訊網——每日最新資訊28at.com

在晚期階段,模型會將幾代模型對原始數據分布的錯誤認知糾纏在一起,進而扭曲對現實的認知。y2P28資訊網——每日最新資訊28at.com

研究人員首先對小樣本模型GMM(高斯混合模型)和VAE(變量自動編碼器)進行了訓練。以GMM為例,他們觀察到模型在開始幾十次迭代時對數據的擬合非常好。然而,隨著迭代的進行,模型對數據分布的理解開始出現錯誤。當迭代達到2000次時,模型已經收斂到一個非常小的點,意味著模型開始穩定地輸出錯誤的答案。y2P28資訊網——每日最新資訊28at.com

為了驗證預訓練對實驗結果的影響,研究人員還在1.25億參數的LLM(大語言模型)OPT-125m上進行了實驗,數據集來自維基百科的wikitext2。通過實驗結果可以看出,到了第9代模型時,輸出的內容已經變得毫無意義。y2P28資訊網——每日最新資訊28at.com

論文的作者之一伊利亞·舒邁洛夫表示,隨著時間的推移,人工智能生成的數據中的錯誤會不斷累積,主要模型在接受這些數據訓練后,會對現實產生更加扭曲的認知。y2P28資訊網——每日最新資訊28at.com

那么,為什么會出現模型崩潰呢?y2P28資訊網——每日最新資訊28at.com

模型崩潰的主要原因在于AI并非真正的智能,其所展現的近似"智能"能力實際上是基于大量數據的統計學方法。y2P28資訊網——每日最新資訊28at.com

基本上,所有無監督機器學習算法都遵循著一個簡單的模式:給定一系列數據,訓練出一個能夠描述這些數據規律的模型。y2P28資訊網——每日最新資訊28at.com

在這個過程中,模型更容易關注出現概率較高的數據,而對于出現概率較低的數據則容易低估。y2P28資訊網——每日最新資訊28at.com

舉個例子,假設我們需要記錄100次擲骰子的結果來計算每個面出現的概率。理論上,每個面出現的概率是相等的。然而,在實際生活中,由于樣本量較小,可能會出現某些面的出現次數比較多的情況。但是對于模型而言,它學習到的數據就是某些面出現的概率較高,因此它會更傾向于生成更多的這些面的結果。y2P28資訊網——每日最新資訊28at.com

那么,有沒有辦法解決模型崩潰的問題呢?y2P28資訊網——每日最新資訊28at.com

事實上,并不是所有的希望都已經破滅。y2P28資訊網——每日最新資訊28at.com

當人類數據越來越稀缺時,AI訓練仍然有機會,有一些方法可以解決數據枯竭的問題:y2P28資訊網——每日最新資訊28at.com

首先是數據"隔離"。隨著AI的不斷強大,越來越多的人開始使用AI輔助工作,因此可用的"干凈人類數據集"可能會越來越難以獲取。為了解決模型崩潰問題,研究團隊提出了一種"先行者優勢"的方法,即將干凈的人工生成數據源與AI生成的內容分離開來,以防止AIGC對干凈數據的污染。這需要社區和公司的共同努力,共同保護人類數據免受AIGC的污染。y2P28資訊網——每日最新資訊28at.com

其次是使用合成數據。實際上,專門基于AI生成的數據已經被廣泛用于AI的訓練。對于一些從業者來說,目前關注AI生成數據導致模型崩潰的擔憂可能有些夸大其詞。光輪智能創始人謝晨表示,國外的研究論文中對于AI生成數據導致模型崩潰的實驗方法并不準確。無論是人類數據還是AI生成的數據,都存在可用性和不可用性的區別。因此,關鍵在于建立一套有效的體系來區分AI生成的數據中的可用和不可用部分,并根據訓練后模型的效果進行反饋。OpenAI使用合成數據進行模型訓練已經成為AI行業內的共識。y2P28資訊網——每日最新資訊28at.com

總之,盡管人類數據面臨枯竭的問題,但AI訓練并非沒有解決辦法。通過數據的隔離和合成數據的使用,可以有效克服模型崩潰的問題,確保AI的持續發展。y2P28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-981-0.html數據枯竭引發AI危機:模型崩潰如何解決?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 馬斯克建立xAI以防止人工智能壟斷

下一篇: 互動社交平臺映客的母公司蜜萊塢科技購買昆侖萬維AI技術服務

標簽:
  • 熱門焦點
  • 《從營銷AIGC化到AIGC營銷化》報告發布

    來源:清元宇宙7月2日上午,清華大學元宇宙文化實驗室舉辦元宇宙在線沙龍“AIGC熱潮與應用”。會議中,清華大學新聞與傳播學院教授、元宇宙文化實驗室主任、新媒體研究
  • 元宇宙是投資中國的第五次重大機遇

    作者為凱思博投資董事長導語:投資邏輯要來自于人性在社會發展過程中的普遍規律,由第一性原理出發找出重大的投資機會來。1978年的改革開放到今天,中國總共經歷了
  • 企業熱、用戶冷,元宇宙第一站將是“營銷場”?

    如果說2021年底什么最火熱,那元宇宙當之無愧?!叭f物皆可元宇宙”似乎成為新的流行語,在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日,有消息傳
  • 從虛擬餐廳到虛擬時裝秀,行業巨頭掀起元宇宙商標注冊潮

    自從 Facebook 更名為 Meta 后,關于元宇宙的討論愈發激烈,這一詞匯也越來越多的出現在我們的視野里。這是一個非常有趣的話題。伴隨著爭論,有些人認為是馬克·扎
  • 元宇宙是數字共識生態的集成邏輯表達

    作者: 李鳴元宇宙是數字共識生態的集成邏輯表達,是以區塊鏈技術為核心的可信數字化價值交互網絡,是基于Web3.0技術體系和運作機制支撐下的數字新生態。本體論是
  • 2022年去中心化交易所會崛起嗎?

    “在某個時候,去中心化衍生品的交易量可能會超過去中心化現貨交易所?!盌EX 越來越多地轉向第二層解決方案?!皵底只鹑谑袌龅母拍钜约叭绾窝刂杂脩魹橹行?/span>
  • NFT 技術將傳世之作帶入博物館

    意大利四大博物館已與一個項目合作,該項目將展示和銷售達芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復制品。該計劃采用了 科技公司Cincello的國際專
  • 以用戶為中心,Web3和區塊鏈如何將用戶放在首位

    競爭優勢正在改變競爭優勢是每個企業都在努力爭取的,由谷歌、Facebook和Netflix等大型科技公司主導的市場中,兩大重要類別的競爭優勢十分突出。第一個競爭優勢來
  • GameFi 深度解析,元宇宙內容雛形顯現

    GameFi=Game(游戲)+Defi(去中心化金融),核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能,GameFi 游戲資產化身為NFT 和代幣上鏈,具備了可驗證性和流通性;開
Top