7 月 10 日消息,隨著生成式人工智能(AI)技術不斷演進,其應用場景已從早期的簡單問答擴展到更復雜的任務。然而,對于缺乏技術背景的用戶而言,如何高效、準確地使用這些 AI 工具,正變得越來越具有挑戰性。
一份獨立報告顯示,微軟 AI 部門收到的用戶投訴中,最常見的一條是“Copilot 不如 ChatGPT 好用”。對此,微軟迅速回應,將問題歸咎于用戶“提示詞工程能力不佳”。為改善用戶體驗,微軟還推出了“Copilot 學院”,幫助用戶提升 AI 使用技能。
注意到,麻省理工學院(MIT)的一項最新研究(via Futurism)表明,微軟將問題歸咎于用戶提示詞能力的做法或許并非全無道理。
該研究指出,過度依賴 AI 工具獲取醫療建議可能帶來危險。更令人擔憂的是,如果用戶在提問時出現拼寫錯誤(如單詞拼錯或多余空格),AI 可能會因此建議用戶無需就醫。此外,使用花哨語言或俚語也可能導致 AI 判斷失誤。
研究還發現,女性用戶比男性更容易受到此類錯誤建議的影響,盡管這一結論仍需進一步驗證。
此次研究涵蓋了多個 AI 工具,包括 OpenAI 的 GPT-4、Meta 的 LLaMA-3-70B,以及一款名為 Palmyra-Med 的醫療專用 AI。研究人員模擬了數千個健康案例,數據來源包括真實患者投訴、Reddit 上的健康相關帖子,以及 AI 生成的病例。
為測試 AI 的穩定性,研究人員在數據中加入了“擾動因素”,如句子首字母大小寫不一致、感嘆號、情緒化語言,以及“可能”“大概”等不確定表達。結果顯示,這些擾動使 AI 建議用戶“無需就醫”的概率上升了 7% 至 9%。
研究負責人、MIT 研究員阿比尼塔?古拉巴蒂娜(Abinitha Gourabathina)指出:“這些模型通常是在醫學考試題目上訓練和測試的,但實際應用場景卻相差甚遠,比如評估臨床病例的嚴重程度。我們對大語言模型的理解仍然非常有限。”
這一研究結果引發了對 AI 在醫療領域應用的廣泛擔憂。值得注意的是,就在不久前,微軟剛剛宣布其新推出的 AI 醫療工具“準確率是人類醫生的 4 倍,成本卻低 20%”。微軟 AI 首席執行官甚至稱其為“邁向醫療超級智能的真正一步”。
然而,這項研究再次提醒我們,生成式 AI 在醫療等高度復雜的領域仍遠未達到完全可靠的水平。盡管技術發展迅速,但在真正投入使用前,仍需更多驗證與審慎評估。
本文鏈接:http://www.tebozhan.com/showinfo-45-14483-0.htmlAI 醫療建議可靠性存疑:MIT 研究揭示用戶提問方式影響 AI 判斷
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com