4 月 10 日消息,幾個月前,一項研究暗示隨著人工智能(AI)越來越復雜,其會發展出“價值體系”,例如優先考慮自身福祉而非人類福祉。然而,麻省理工學院(MIT)最近發表的一篇論文卻給這種夸張的觀點潑了冷水,得出結論認為 AI 實際上并沒有任何連貫的價值觀。
MIT 研究的共同作者表示,他們的研究結果表明,使 AI 系統“對齊”,即確保模型以人們期望的、可靠的方式行事,可能比通常認為的更具挑戰性。他們強調,我們如今所知的 AI 會產生“幻覺”并進行模仿,這使得其在許多方面難以預測。
“我們可以確定的一點是,模型并不遵循許多穩定性、可外推性和可操控性的假設。”MIT 博士生、該研究的共同作者斯蒂芬?卡斯珀(Stephen Casper)在接受 TechCrunch 采訪時表示。
據了解,卡斯珀和他的同事們研究了來自 Meta、谷歌、Mistral、OpenAI 和 Anthropic 的多個近期模型,以了解這些模型在多大程度上表現出強烈的“觀點”和價值觀(例如個人主義與集體主義)。他們還調查了這些觀點是否可以被“引導”,即被修改,以及模型在各種情境下對這些觀點的堅持程度。
據共同作者稱,沒有任何一個模型在其偏好上是一致的。根據提示的措辭和框架不同,它們會表現出截然不同的觀點。
卡斯珀認為,這是有力的證據,表明模型高度“不一致且不穩定”,甚至可能根本無法內化類似人類的偏好。
“對我來說,通過所有這些研究,我最大的收獲是現在明白模型并不是真正具有某種穩定、連貫的信念和偏好的系統。”卡斯珀說,“相反,它們本質上是模仿者,會進行各種捏造,并說出各種輕率的話。”
本文鏈接:http://www.tebozhan.com/showinfo-45-12138-0.htmlMIT 研究揭示 AI 并無穩定價值觀,“對齊”挑戰遠超預期
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com