9 月 5 日消息,當地時間 9 月 4 日,據《福布斯》報道,牛津大學的伊利亞?舒梅洛夫博士和他的團隊發現,當生成式 AI 軟件僅依賴于由 AI 生成的內容時,回答的質量開始惡化。這項研究已經發表在《自然》雜志上。
在最初的兩次查詢后,答案逐漸偏離準確性,到第五次時,質量顯著下降,到了第九次連續查詢時,回答已完全退化為無意義的胡言亂語。研究人員將這種生成式 AI 內容的循環過度使用稱為“模型崩潰”,即 AI 在不斷污染自己的訓練集后,輸出的內容逐漸偏離現實,最終變得毫無價值。
舒梅洛夫表示:“令人驚訝的是,模型崩潰發生得如此迅速且難以察覺。最初,它會影響到少數數據 —— 那些代表性不足的數據。接著,它會影響輸出的多樣性,導致差異性減少。有時,你會觀察到對多數數據的微小改進,但這種改進掩蓋了少數數據表現的惡化。模型崩潰可能帶來嚴重后果。”
研究人員通過一種方法確定了“模型崩潰”現象的存在:使用一個預訓練的 AI 驅動的維基百科,然后讓 AI 模型基于自己生成的內容進行更新。受污染數據的影響逐漸導致原本的訓練集被侵蝕,輸出的信息也隨之變得難以理解。例如,在第九次查詢循環后,研究中的維基百科條目從關于 14 世紀英國教堂尖頂的內容滑稽地變成了一篇關于各種顏色的短尾兔子的論文。
報道稱,根據亞馬遜網絡服務(Amazon Web Services)團隊在 6 月發布的另一項研究,大約 57% 的網絡文本都經過了 AI 算法的翻譯。如果互聯網上的人類生成數據迅速被 AI 過濾內容覆蓋,且舒梅洛夫的研究發現屬實,那么 AI 可能正在“自我毀滅”—— 并同時“毀滅”互聯網。
研究得出結論,要實現 AI 的長期可持續發展,唯一方法是確保其能夠訪問現有的非 AI 生成內容,并持續引入新的人工生成內容。
附研究鏈接:
AI models collapse when trained on recursively generated data
本文鏈接:http://www.tebozhan.com/showinfo-45-6808-0.html研究:反復使用 AI 生成的內容來訓練 AI 可造成“模型崩潰”
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com