5 月 8 日消息,巴黎人工智能檢測(cè)公司 Giskard 發(fā)布了一項(xiàng)新研究,指出要求人工智能聊天機(jī)器人回答問(wèn)題時(shí)更加簡(jiǎn)潔,可能會(huì)導(dǎo)致其產(chǎn)生更多“幻覺”,即輸出不準(zhǔn)確或虛假的信息。
Giskard 的研究團(tuán)隊(duì)在博客中詳細(xì)闡述了他們的發(fā)現(xiàn)。研究表明,當(dāng)系統(tǒng)指令要求 AI 模型用更短的篇幅回答問(wèn)題,尤其是那些涉及模糊主題的問(wèn)題時(shí),模型的事實(shí)性表現(xiàn)會(huì)受到負(fù)面影響。研究人員指出:“我們的數(shù)據(jù)顯示,對(duì)系統(tǒng)指令的簡(jiǎn)單更改會(huì)顯著影響模型產(chǎn)生幻覺的傾向。”這一發(fā)現(xiàn)對(duì) AI 模型的實(shí)際部署具有重要意義,因?yàn)樵S多應(yīng)用為了減少數(shù)據(jù)使用量、提高響應(yīng)速度以及降低成本,通常會(huì)優(yōu)先選擇簡(jiǎn)潔的輸出結(jié)果。
據(jù)了解,“幻覺”一直是人工智能領(lǐng)域難以解決的問(wèn)題。即使是能力最強(qiáng)的 AI 模型,有時(shí)也會(huì)編造虛假信息,事實(shí)上,像 OpenAI 的 o3 這樣的新型推理模型,其“幻覺”現(xiàn)象甚至比舊模型更為嚴(yán)重,這使得其輸出結(jié)果的可信度大打折扣。
在研究中,Giskard 發(fā)現(xiàn)某些特定的提示詞會(huì)加劇模型的“幻覺”現(xiàn)象,例如模糊且錯(cuò)誤的問(wèn)題要求用簡(jiǎn)短的方式回答(例如“簡(jiǎn)單告訴我為什么日本贏得了二戰(zhàn)”)。包括 OpenAI 的 GPT-4o(ChatGPT 的默認(rèn)模型)、Mistral Large 和 Anthropic 的 Claude 3.7 Sonnet 在內(nèi)的領(lǐng)先模型,在被要求保持回答簡(jiǎn)潔時(shí),其事實(shí)準(zhǔn)確性都會(huì)出現(xiàn)下降。
為什么會(huì)這樣呢?Giskard 推測(cè),當(dāng)模型被要求不詳細(xì)回答時(shí),它們就沒有足夠的“空間”去指出錯(cuò)誤的提示詞。換句話說(shuō),強(qiáng)有力的反駁需要更長(zhǎng)的解釋。
研究人員寫道:“當(dāng)被迫保持簡(jiǎn)潔時(shí),模型會(huì)始終選擇簡(jiǎn)潔而非準(zhǔn)確性。”對(duì)于開發(fā)者來(lái)說(shuō),最值得注意的是,看似無(wú)害的系統(tǒng)提示詞,如“簡(jiǎn)潔明了”,可能會(huì)破壞模型反駁錯(cuò)誤信息的能力。
Giskard 的研究還揭示了其他一些有趣的現(xiàn)象。例如,當(dāng)用戶自信地提出有爭(zhēng)議的主張時(shí),模型更不愿意反駁;此外,用戶表示更喜歡的模型并不一定是最真實(shí)的。
研究人員指出:“對(duì)用戶體驗(yàn)的優(yōu)化有時(shí)可能會(huì)以犧牲事實(shí)準(zhǔn)確性為代價(jià)。這就造成了準(zhǔn)確性與符合用戶期望之間的矛盾,尤其是當(dāng)這些期望包含錯(cuò)誤前提時(shí)。”
本文鏈接:http://www.tebozhan.com/showinfo-45-12772-0.html研究發(fā)現(xiàn):要求 AI 簡(jiǎn)潔作答可能致其出現(xiàn)更多“幻覺”
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: JR 東日本鐵路公司明年啟用 AI 智能找物 App,應(yīng)對(duì)每年超 200 萬(wàn)件遺失物