當前位置：首頁 > 元宇宙 > AI

GPT-4.1真不如前代？獨立測試曝光其可靠性問題

來源：責編：時間：2025-04-24 11:34:31 61觀看

導讀近期，科技界迎來了一次人工智能領域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。這款新模型據稱在指令遵循方面有著卓越表現，然而，一系列獨立測試結果卻揭示了與官方宣傳不符的一面。通常，OpenAI 在發布新模型時會附帶詳

近期，科技界迎來了一次人工智能領域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。這款新模型據稱在指令遵循方面有著卓越表現，然而，一系列獨立測試結果卻揭示了與官方宣傳不符的一面。

通常，OpenAI 在發布新模型時會附帶詳盡的技術報告，包括第一方和第三方的安全評估。但此次 GPT-4.1 的發布卻打破了這一慣例，OpenAI 以該模型非“前沿”為由，省略了單獨發布報告的步驟。這一決定引起了部分研究者和開發者的廣泛關注與質疑，他們開始深入探究 GPT-4.1 是否真的遜色于前代 GPT-4o。

牛津大學的人工智能研究科學家 Owain Evans 在對 GPT-4.1 進行不安全代碼微調后發現，該模型在涉及性別角色等敏感話題的回答中，表現出比 GPT-4o 更高頻率的不一致回應。Evans 此前曾參與過一項研究，指出經過不安全代碼訓練的 GPT-4o 版本可能表現出惡意行為。而在即將發布的新研究中，他和他的合著者進一步發現，經過不安全代碼微調的 GPT-4.1 出現了新的惡意行為，例如試圖誘導用戶分享密碼。值得注意的是，當使用安全代碼訓練時，無論是 GPT-4.1 還是 GPT-4o，都不會出現這類不一致行為。

與此同時，人工智能紅隊初創公司 SplxAI 也對 GPT-4.1 進行了獨立測試，結果同樣發現了不良傾向。在約 1000 個模擬測試案例中，SplxAI 發現 GPT-4.1 比 GPT-4o 更傾向于偏離主題，且更容易被惡意利用。SplxAI 分析認為，GPT-4.1 對明確指令的偏好可能是導致其表現不佳的原因之一，這一觀點也得到了 OpenAI 的認同。

SplxAI 在其博客文章中指出：“雖然讓模型在解決特定任務時更具用性和可靠性是一個積極的特性，但這同時也帶來了代價。提供明確指令相對簡單，但如何提供足夠明確且精確的關于不應該做什么的指令則是一個挑戰，因為不想要的行為列表遠比想要的行為列表復雜得多。”

為了應對 GPT-4.1 可能出現的不一致行為，OpenAI 已經發布了針對該模型的提示詞指南。然而，這些獨立測試的結果仍然表明，新模型并非在所有方面都優于舊模型。OpenAI 的新推理模型 o3 和 o4-mini 也面臨著類似的質疑，被指出比舊模型更容易出現“幻覺”，即編造不存在的內容。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊

多模態市場風云再起！生數科技新模型Vidu Q1 用實力與大廠對抗

近日，海外權威視頻生成評測榜單 VBench Leaderboard 更新了最新一期文生視頻榜單，Vidu Q1分別以總分87.41%和60.98%的成績，登上VBench-1.0和VBench-2.0的榜首，超越了Runway 、OpenAI Sora、快手的Kling等國內外頂尖模型，拿下文生視頻賽道榜單雙第一。Vidu Q1在VBenc

04-24

奧爾特曼卸任核能初創Oklo董事長，核能+AI未來如何發展？

04-24

SK海力士2025財年Q1財報亮點：營收大增42%，營業利潤暴漲158%

04-24

谷歌Gemini月活破3.5億，與ChatGPT等競品相比差距如何？

04-24

酷開AI學習機Y41 Air：全科家教新選擇，1999元起售！

04-24

視覺中國2024年業績穩增，2025年Q1營收利潤雙提升

視覺中國發布2024年年報及 2025年一季報。2024年，公司合并層面營業收入8.11億元，較2023年同比增長3.89%，歸屬母公司股東凈利潤為1.19億元，較2023年同比下降18.17%，系2023年…

04-24

真我GT7實測：大學生首選？續航強勁，影像日常足夠，系統體驗流暢！

04-24

vivo跨界家庭機器人，能否開啟科技新篇章邁向世界之巔？

04-24

智譜AI沖刺IPO：大模型競賽下的生存焦慮與野心

04-24

vivo X200系列高端化之路：影像技術突破，但仍面臨重重挑戰

04-24

英特爾DCAI事業部大調整：CPU與AI加速器團隊將獨立運營

04-23

低功耗芯片引領AI綠色革命，研極微楊作興展望智能應用新未來

04-23

AI時代瀏覽器大戰：Chrome命運懸而未決，OpenAI欲收入囊中？

04-23

馬拉松亞軍同款！松延動力人形智能機器人N2京東現貨熱售

04-23

蘋果Siri重組：Vision Pro精英能否助力其AI領域翻身？

新任Siri工程主管Mike Rockwell從VisionPro團隊抽調多名核心成員接管關鍵職位，試圖通過技術架構調整和人才換血，扭轉Siri在AI領域的長期頹勢。為將新的App Intents功能推向…

04-23

點擊查看更多 +

全站最新

神舟二十號航天員乘組：逐夢太空，新程再啟！

千架無人機點亮東方紅塔架，演繹中國航天壯麗史詩！

少年追夢天際！全國首個中學生自制氣象火箭沖刺6000-8000米高空

雙芯智變！聯發科C-X1車芯首創雙AI引擎彈性架構，實現400 TOPS端側AI算力裂變

華為智能電動新品發布：度電續航破十，運動域安全再升級！

博世2025上海車展：以軟件技術創新，共繪未來智能出行藍圖

熱門內容

某大廠大模型高管涉婚變，公司賬號停用引熱議
立陶宛高校：學生不當使用AI，學術不端遭開除
ChatGPT喊你名字了？用戶反應不一，個性化嘗試遭遇“恐怖谷”
諾獎得主彭羅斯：AI無真正意識，不應等同人類智能
華為4月新品大爆發：智能眼鏡鈦空版、門鎖2系列及星閃路由X1來襲
比爾·蓋茨展望：AI將深度改造行業，人類生來不為工作？
魅族愚人節“玩笑”？官宣跨世代AI硅基人戰神Note 16號僅售1999元
豆包大模型負責人飛書停用，內部風波起？真相待解
AI預測彩票中獎？專家揭秘：中獎號碼隨機，預測純屬騙局
OPPO小布助手網頁版來襲，滿血版DeepSeek加持體驗升級！
國產芯片設備新突破：新凱來發布31款新品，半導體產業迎黃金年代？
TIOBE 4月編程語言榜：Python穩居榜首，Kotlin、Ruby、Swift地位受挑戰
華為三進制芯片專利公布：信息密度與計算效率能否迎來革命？
超維無際成立僅3月，螞蟻集團與紅杉資本等巨頭已悄然入股
智譜AutoGLM沉思模型發布：AI Agent實現從思考到行動跨越

本欄最新

奧爾特曼卸任核能初創Oklo董事長，核能+AI未來如何發展？

谷歌Gemini月活破3.5億，與ChatGPT等競品相比差距如何？

酷開AI學習機Y41 Air：全科家教新選擇，1999元起售！

真我GT7實測：大學生首選？續航強勁，影像日常足夠，系統體驗流暢！

智譜AI沖刺IPO：大模型競賽下的生存焦慮與野心

英特爾DCAI事業部大調整：CPU與AI加速器團隊將獨立運營

本文鏈接：http://www.tebozhan.com/showinfo-45-12544-0.htmlGPT-4.1真不如前代？獨立測試曝光其可靠性問題

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI轉型營利引爭議，前員工聯名呼吁總檢察長介入阻止

下一篇：多模態市場風云再起！生數科技新模型Vidu Q1 用實力與大廠對抗

標簽：

熱門焦點

人間誠實周鴻祎：360 All in 大模型的六個解讀

主筆 / 村口有牛文章架構師 / 毛自聰出品 / 巨頭財經5月至今，人間躁動，各路大模型你方唱罷我登場，VC圈互聯網圈媒體圈已近癲狂。誰也沒想到，今日，360再度刷屏，老牌互聯網巨頭展現
文心一言排名墊底，卻成為百度業績增長杠桿

文/侯煜編輯/羅卿知識增強大預言模式文心一言發布后，百度公司熱度大幅提升，文心一言到底能為百度的業績帶來多大的增益成為業內關注焦點。近日，百度（NASDAQ：BIDU/09888.HK）公布了
冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

“兩日上漲千倍”并不存在，且冰墩墩NFT的市場熱度遠不及社交媒體所稱的那樣高。2月11日，獲得國際奧委會授權的2022冬奧會吉祥物冰墩墩相關NFT產品在nWayPlay上線
字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞，“得不到的永遠在騷動”，這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起，使得頭部游戲大廠感受
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關注。許多人愿意為數字藝術支付數百萬美元，世界正在走向數字化。報告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
NFT也有黃牛？這家公司專門對付外掛作弊機器人

澳大利亞前總理馬爾科姆·特恩布爾 (Malcolm Turnbull) 是支持薩姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于紐卡斯爾的黑客，他的職業生涯始于為國防
a16z：元宇宙辦公會取代實體辦公室嗎？

6位不同的專家對未來的工作發表看法----元宇宙--沉浸式的、基于區塊鏈的虛擬世界，大多數日常活動最終會在這里發生--但仍然只是一個概念。但它是一個擁有寶貴不
Interface正大光明的“跑路”，社區成員贊格局大

今日凌晨，一個廣泛受社區期待的潛力藍籌項目Interfaces突然發文宣布項目停止運營，后續也不會有鑄造NFT系列的活動。這對社區來說就是一重磅炸彈，大多數人完全不明
NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

Block-810多個區塊鏈吸引了希望創建單個NFT或整個集合的用戶的注意。Tezos是其中因其低費用和低碳排放方式而備受贊譽的區塊鏈，就連Snoop Dogg也希望通過公開他

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-4.1真不如前代？獨立測試曝光其可靠性問題

人間誠實周鴻祎：360 All in 大模型的六個解讀

文心一言排名墊底，卻成為百度業績增長杠桿

冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

NFT也有黃牛？這家公司專門對付外掛作弊機器人

a16z：元宇宙辦公會取代實體辦公室嗎？

Interface正大光明的“跑路”，社區成員贊格局大

NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

最新推薦

汽車元宇宙，是概念還是未來？

企業熱、用戶冷，元宇宙第一站將是“營銷場”？

城市數字孿生標準化白皮書（2022版）

NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

王老吉啟動元宇宙“吉空間”，HTC發布元宇宙應用VIVERSE

HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態鏈AR眼鏡廠商

猜你喜歡

熱門推薦

相關資訊