當前位置：首頁 > 科技 > 手機

GPT-4.1真不如前代？獨立測試曝光其可靠性問題

來源：責編：時間：2025-04-24 11:34:16 60觀看

導讀近期，科技界迎來了一次人工智能領域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。這款新模型據稱在指令遵循方面有著卓越表現，然而，一系列獨立測試結果卻揭示了與官方宣傳不符的一面。通常，OpenAI 在發布新模型時會附帶詳

近期，科技界迎來了一次人工智能領域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。這款新模型據稱在指令遵循方面有著卓越表現，然而，一系列獨立測試結果卻揭示了與官方宣傳不符的一面。

通常，OpenAI 在發布新模型時會附帶詳盡的技術報告，包括第一方和第三方的安全評估。但此次 GPT-4.1 的發布卻打破了這一慣例，OpenAI 以該模型非“前沿”為由，省略了單獨發布報告的步驟。這一決定引起了部分研究者和開發者的廣泛關注與質疑，他們開始深入探究 GPT-4.1 是否真的遜色于前代 GPT-4o。

牛津大學的人工智能研究科學家 Owain Evans 在對 GPT-4.1 進行不安全代碼微調后發現，該模型在涉及性別角色等敏感話題的回答中，表現出比 GPT-4o 更高頻率的不一致回應。Evans 此前曾參與過一項研究，指出經過不安全代碼訓練的 GPT-4o 版本可能表現出惡意行為。而在即將發布的新研究中，他和他的合著者進一步發現，經過不安全代碼微調的 GPT-4.1 出現了新的惡意行為，例如試圖誘導用戶分享密碼。值得注意的是，當使用安全代碼訓練時，無論是 GPT-4.1 還是 GPT-4o，都不會出現這類不一致行為。

與此同時，人工智能紅隊初創公司 SplxAI 也對 GPT-4.1 進行了獨立測試，結果同樣發現了不良傾向。在約 1000 個模擬測試案例中，SplxAI 發現 GPT-4.1 比 GPT-4o 更傾向于偏離主題，且更容易被惡意利用。SplxAI 分析認為，GPT-4.1 對明確指令的偏好可能是導致其表現不佳的原因之一，這一觀點也得到了 OpenAI 的認同。

SplxAI 在其博客文章中指出：“雖然讓模型在解決特定任務時更具用性和可靠性是一個積極的特性，但這同時也帶來了代價。提供明確指令相對簡單，但如何提供足夠明確且精確的關于不應該做什么的指令則是一個挑戰，因為不想要的行為列表遠比想要的行為列表復雜得多。”

為了應對 GPT-4.1 可能出現的不一致行為，OpenAI 已經發布了針對該模型的提示詞指南。然而，這些獨立測試的結果仍然表明，新模型并非在所有方面都優于舊模型。OpenAI 的新推理模型 o3 和 o4-mini 也面臨著類似的質疑，被指出比舊模型更容易出現“幻覺”，即編造不存在的內容。

本文鏈接：http://www.tebozhan.com/showinfo-22-146847-0.htmlGPT-4.1真不如前代？獨立測試曝光其可靠性問題

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OPPO安卓平板OPD2417獲3C認證，支持33W快充與15W反充

下一篇：小米智能門鎖領跑市場，線上線下雙冠，高端市場亦奪冠！

標簽：

熱門焦點

小米官宣：2023年上半年出貨量中國第一！

今日早間，小米電視官方微博帶來消息，稱2023年小米電視上半年出貨量達到了中國第一，同時還表示小米電視的巨屏風暴即將開始。“公布一個好消息2023年#小米電視上半年出貨量中國
一年經驗在二線城市面試后端的經驗分享

忠告這篇文章只適合2年內工作經驗、甚至沒有工作經驗的朋友閱讀。如果你是2年以上工作經驗，請果斷劃走，對你沒啥幫助~主人公這篇文章內容來自「升職加薪」星球星友的投稿，坐
分布式系統中的CAP理論，面試必問，你理解了嘛？

對于剛剛接觸分布式系統的小伙伴們來說，一提起分布式系統，就感覺高大上，深不可測。而且看了很多書和視頻還是一臉懵逼。這篇文章主要使用大白話的方式，帶你理解一下分布式系統
如何通過Python線程池實現異步編程？

線程池的概念和基本原理線程池是一種并發處理機制，它可以在程序啟動時創建一組線程，并將它們置于等待任務的狀態。當任務到達時，線程池中的某個線程會被喚醒并執行任務，執行完任
在線圖片編輯器，支持PSD解析、AI摳圖等

自從我上次分享一個人開發仿造稿定設計的圖片編輯器到現在，不知不覺已過去一年時間了，期間我經歷了裁員失業、面試找工作碰壁，寒冬下一直沒有很好地履行計劃.....這些就放在日
2023年，我眼中的字節跳動

此時此刻（2023年7月），字節跳動從未上市，也從未公布過任何官方的上市計劃；但是這并不妨礙它成為中國最受關注的互聯網公司之一。從2016-17年的抖音強勢崛起，到2018年的“頭騰
iQOO Neo8系列新品發布會

旗艦雙芯更強更Pro
蘋果MacBook Pro 2021測試：仍不支持平滑滾動

據10月30日9to5 Mac 消息報道，蘋果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后獲得了不錯的評價，亮點包括行業領先的性能，令人印象深刻的電池續航，精美豐
AI藝術欣賞體驗會在上海梅賽德斯奔馳中心音樂俱樂部上演

光影交錯的鏡像世界，虛實幻化的視覺奇觀，虛擬偶像與真人共同主持，這些場景都出現在2019世界人工智能大會的舞臺上。8月29日至31日，“AI藝術欣賞體驗會”在上海

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

GPT-4.1真不如前代？獨立測試曝光其可靠性問題

小米官宣：2023年上半年出貨量中國第一！

一年經驗在二線城市面試后端的經驗分享

分布式系統中的CAP理論，面試必問，你理解了嘛？

如何通過Python線程池實現異步編程？

在線圖片編輯器，支持PSD解析、AI摳圖等

2023年，我眼中的字節跳動

iQOO Neo8系列新品發布會

蘋果MacBook Pro 2021測試：仍不支持平滑滾動

AI藝術欣賞體驗會在上海梅賽德斯奔馳中心音樂俱樂部上演

最新推薦

猜你喜歡

熱門推薦

相關資訊