當前位置：首頁 > 科技 > 資訊

AI“模型崩潰”風險需警惕

來源：責編：時間：2024-09-25 09:46:59 56觀看

導讀　　從客戶服務到內容創作，人工智能（AI）影響了眾多領域的進展。但是，一個日益嚴重的被稱為“模型崩潰”的問題，可能會使AI的所有成就功虧一簣。　　“模型崩潰”是今年7月發表在英國《自然》雜志上的一篇研究論文指出的問

　　從客戶服務到內容創作，人工智能（AI）影響了眾多領域的進展。但是，一個日益嚴重的被稱為“模型崩潰”的問題，可能會使AI的所有成就功虧一簣。

　　“模型崩潰”是今年7月發表在英國《自然》雜志上的一篇研究論文指出的問題。它是指用AI生成的數據集訓練未來幾代機器學習模型，可能會嚴重“污染”它們的輸出。

　　多家外媒報道稱，這不僅是數據科學家需要擔心的技術問題，如果不加控制，“模型崩潰”可能會對企業、技術和整個數字生態系統產生深遠影響。天津大學自然語言處理實驗室負責人熊德意教授在接受記者采訪時，從專業角度對“模型崩潰”進行了解讀。

圖片來源：美國《The Week》

　　“模型崩潰”是怎么回事

　　大多數AI模型，比如GPT-4，都是通過大量數據進行訓練的，其中大部分數據來自互聯網。最初，這些數據是由人類生成的，反映了人類語言、行為和文化的多樣性和復雜性。AI從這些數據中學習，并用它來生成新內容。

　　然而，當AI在網絡上搜索新數據來訓練下一代模型時，AI很可能會吸收一些自己生成的內容，從而形成反饋循環，其中一個AI的輸出成為另一個AI的輸入。當生成式AI用自己的內容進行訓練時，其輸出也會偏離現實。這就像多次復制一份文件，每個版本都會丟失一些原始細節，最終得到的是一個模糊的、不那么準確的結果。

　　美國《紐約時報》報道稱，當AI脫離人類輸入內容時，其輸出的質量和多樣性會下降。

　　熊德意解讀稱：“真實的人類語言數據，其分布通常符合齊普夫定律，即詞頻與詞的排序成反比關系。齊普夫定律揭示了人類語言數據存在長尾現象，即存在大量的低頻且多樣化的內容。”

　　熊德意進一步解釋道，由于存在近似采樣等錯誤，在模型生成的數據中，真實分布的長尾現象逐漸消失，模型生成數據的分布逐漸收斂至與真實分布不一致的分布，多樣性降低，導致“模型崩潰”。

　　AI自我“蠶食”是壞事嗎

　　對于“模型崩潰”，美國《The Week》雜志近日刊文評論稱，這意味著AI正在自我“蠶食”。

　　熊德意認為，伴隨著這一現象的出現，模型生成數據在后續模型迭代訓練中占比越高，后續模型丟失真實數據的信息就會越多，模型訓練就更加困難。

　　乍一看，“模型崩潰”在當前似乎還是一個僅需要AI研究人員在實驗室中擔心的小眾問題，但其影響將是深遠而長久的。

　　美國《大西洋月刊》刊文指出，為了開發更先進的AI產品，科技巨頭可能不得不向程序提供合成數據，即AI系統生成的模擬數據。然而，由于一些生成式AI的輸出充斥著偏見、虛假信息和荒謬內容，這些會傳遞到AI模型的下一版本中。

　　美國《福布斯》雜志報道稱，“模型崩潰”還可能會加劇AI中的偏見和不平等問題。

　　不過，這并不意味著所有合成數據都是不好的。《紐約時報》表示，在某些情況下，合成數據可以幫助AI學習。例如，當使用大型AI模型的輸出訓練較小的模型時，或者當可以驗證正確答案時，比如數學問題的解決方案或國際象棋、圍棋等游戲的最佳策略。

　　AI正在占領互聯網嗎

　　訓練新AI模型的問題可能凸顯出一個更大的挑戰。《科學美國人》雜志表示，AI內容正在占領互聯網，大型語言模型生成的文本正充斥著數百個網站。與人工創作的內容相比，AI內容的創作速度更快，數量也更大。

　　OpenAI首席執行官薩姆·奧特曼今年2月曾表示，該公司每天生成約1000億個單詞，相當于100萬本小說的文本，其中有一大部分會流入互聯網。

　　互聯網上大量的AI內容，包括機器人發布的推文、荒謬的圖片和虛假評論，引發了一種更為消極的觀念。《福布斯》雜志稱，“死亡互聯網理論”認為，互聯網上的大部分流量、帖子和用戶都已被機器人和AI生成的內容所取代，人類不再能決定互聯網的方向。這一觀念最初只在網絡論壇上流傳，但最近卻獲得了更多關注。

　　幸運的是，專家們表示，“死亡互聯網理論”尚未成為現實。《福布斯》雜志指出，絕大多數廣為流傳的帖子，包括一些深刻的觀點、犀利的語言、敏銳的觀察，以及在新背景下對新生事物的定義等內容，都不是AI生成的。

　　不過，熊德意仍強調：“隨著大模型的廣泛應用，AI合成數據在互聯網數據中的占比可能會越來越高，大量低質量的AI合成數據，不僅會使后續采用互聯網數據訓練的模型出現一定程度的‘模型崩潰’，而且也會對社會形成負面影響，比如生成的錯誤信息對部分人群形成誤導等。因此，AI生成內容不僅是一個技術問題，同時也是社會問題，需要從安全治理與AI技術雙重角度進行有效應對。”（記者張佳欣）

本文鏈接：http://www.tebozhan.com/showinfo-16-115986-0.htmlAI“模型崩潰”風險需警惕

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：華為WATCH GT 5系列：新典范來襲，旗艦穿戴再攀高峰？

下一篇：力箭一號遙四發射成功，一箭五星如何實現商業航天新突破？

標簽：

熱門焦點

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

華為全新的HarmonyOS 4.0操作系統將于今天下午正式登場，官方在發布會之前也已經正式給出了可升級的機型產品，這意味著這些機型會率先支持升級享用。這次的HarmonyOS 4.0支持
對標蘋果的靈動島華為帶來實況窗功能

繼蘋果的靈動島之后，華為也在今天正式推出了“實況窗”功能。據今天鴻蒙OS 4.0的現場演示顯示，華為的實況窗可以更高效的展現出實時通知，比如鎖屏上就能看到外賣、打車、銀行
7月安卓手機性能榜：紅魔8S Pro再奪榜首

7月份的手機市場風平浪靜，除了紅魔和努比亞帶來了兩款搭載驍龍8Gen2領先版處理器的新機之外，別的也想不到有什么新品了，這也正常，通常6月7月都是手機廠商修整的時間，進入8月份之
三言兩語說透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是兩種很有用的技術，可以幫助我們寫出更加優雅、泛用的函數。本文將首先介紹柯里化和反柯里化的概念、實現原理和應用
多線程開發帶來的問題與解決方法

使用多線程主要會帶來以下幾個問題：（一）線程安全問題　　線程安全問題指的是在某一線程從開始訪問到結束訪問某一數據期間，該數據被其他的線程所修改，那么對于當前線程而言，該線程
JVM優化：實戰OutOfMemoryError異常

一、Java堆溢出堆內存中主要存放對象、數組等，只要不斷地創建這些對象，并且保證 GC Roots 到對象之間有可達路徑來避免垃圾收集回收機制清除這些對象，當這些對象所占空間超過
超級標準版旗艦！iQOO 11S全球首發iQOO超算獨顯芯片

上半年已接近尾聲，截至目前各大品牌旗下的頂級旗艦都已悉數亮相，而下半年即將推出的頂級旗艦已經成為了數碼圈爆料的主流，其中就包括全新的iQOO 11S系
利用職權私自解除被封帳號 Meta開除20多名員工

11月18日消息，據外媒援引知情人士表示，過去一年時間內，Facebook母公司Meta解雇或處罰了20多名員工以及合同工，指控這些人通過內部系統以不當方式重置用戶帳號，其
中關村論壇11月25日開幕，15位諾獎級大咖將發表演講

11月18日，記者從2022中關村論壇新聞發布會上獲悉，中關村論壇將于11月25至30日在京舉行。本屆中關村論壇由科學技術部、國家發展改革委、工業和信息化部、國務

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

AI“模型崩潰”風險需警惕

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

對標蘋果的靈動島華為帶來實況窗功能

7月安卓手機性能榜：紅魔8S Pro再奪榜首

三言兩語說透柯里化和反柯里化

多線程開發帶來的問題與解決方法

JVM優化：實戰OutOfMemoryError異常

超級標準版旗艦！iQOO 11S全球首發iQOO超算獨顯芯片

利用職權私自解除被封帳號 Meta開除20多名員工

中關村論壇11月25日開幕，15位諾獎級大咖將發表演講

最新推薦

猜你喜歡

熱門推薦

相關資訊