當(dāng)前位置：首頁 > 元宇宙 > AI

OpenAI 發(fā)布并開源醫(yī)療測試基準(zhǔn) HealthBench，旨在更好地衡量 AI 系統(tǒng)在醫(yī)療健康領(lǐng)域能力

來源：責(zé)編：時間：2025-05-15 09:51:35 72觀看

導(dǎo)讀 5 月 13 日消息，OpenAI 今日宣布推出了一個專門面向醫(yī)療大模型的測試評估集 ——HealthBench 并開源，旨在更好地衡量 AI 系統(tǒng)在醫(yī)療健康領(lǐng)域能力。與以往測試集不同的是，HealthBench的 5000 段核心測試對話，由來

5 月 13 日消息，OpenAI 今日宣布推出了一個專門面向醫(yī)療大模型的測試評估集 ——HealthBench 并開源，旨在更好地衡量 AI 系統(tǒng)在醫(yī)療健康領(lǐng)域能力。

與以往測試集不同的是，HealthBench的 5000 段核心測試對話，由來自 60 個國家 / 地區(qū)的 26 個專業(yè) 262 名醫(yī)生打造，極大增強(qiáng)了該測試集的難度、真實(shí)性以及豐富度。

與以前的狹窄基準(zhǔn)不同，HealthBench 通過 48562 個獨(dú)特的醫(yī)生編寫的評分標(biāo)準(zhǔn)進(jìn)行有意義的開放式評估，涵蓋多個健康背景（例如，緊急情況、全球健康）和行為維度（例如，準(zhǔn)確性、遵循指示、溝通）。

此外，HealthBench采用了多輪對話測試，而不是簡單的答題或選擇題模式。注意到，測試數(shù)據(jù)顯示大模型在醫(yī)療保健領(lǐng)域的表現(xiàn)有了顯著提升。例如，從之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%，再到 o3 的 60%，整體性能有了顯著進(jìn)步。尤其是小型模型的進(jìn)步更為突出，GPT-4.1nano 不僅在性能上超越了 GPT-4o，而且成本降低了 25 倍。

參考資料：

《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》

本文鏈接：http://www.tebozhan.com/showinfo-45-12849-0.htmlOpenAI 發(fā)布并開源醫(yī)療測試基準(zhǔn) HealthBench，旨在更好地衡量 AI 系統(tǒng)在醫(yī)療健康領(lǐng)域能力

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI 擴(kuò)展 ChatGPT AI 深度研究連接器，集成微軟 OneDrive 和 SharePoint

下一篇：昆侖萬維宣布開源 Matrix-Game 大模型：工業(yè)界首個開源的 10B+ 空間智能大模型，支持《我的世界》

標(biāo)簽：

熱門焦點(diǎn)

關(guān)于ChatGPT的10點(diǎn)思考

作者：晏濤三壽近日ChatGPT又有大動作。5月19日，OpenAI在官網(wǎng)宣布正式發(fā)布App應(yīng)用，并登錄蘋果應(yīng)用商店。與網(wǎng)頁版的聊天機(jī)器人相比，iOS應(yīng)用程序的發(fā)布有望讓更多人接觸到ChatGPT
文心一言排名墊底，卻成為百度業(yè)績增長杠桿

文/侯煜編輯/羅卿知識增強(qiáng)大預(yù)言模式文心一言發(fā)布后，百度公司熱度大幅提升，文心一言到底能為百度的業(yè)績帶來多大的增益成為業(yè)內(nèi)關(guān)注焦點(diǎn)。近日，百度（NASDAQ：BIDU/09888.HK）公布了
元宇宙火熱的當(dāng)下，我們該如何“身臨其境”的體驗(yàn)元宇宙？

元宇宙的余熱依然沒有過去，甚至大有星星之火開啟燎原之勢，元宇宙本身也從殿堂走向了民間，我們可以看到一些企業(yè)開始了元宇宙的探索，諸如中國電信全資控股子公司天
如何對一款 NFT 項(xiàng)目進(jìn)行價值評估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導(dǎo) Web3 和 NFT 領(lǐng)域的企業(yè)家，因?yàn)槲蚁嘈盼覀冋谝娮C社會
多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰(zhàn)場？

2月21日，2022中國·金魚嘴元宇宙生態(tài)賦能大會在南京建鄴區(qū)金魚嘴基金街區(qū)舉辦，南京建鄴區(qū)金魚嘴基金街區(qū)宣布計(jì)劃出資1億元，支持元宇宙行業(yè)發(fā)展。同時，會上發(fā)布了
吸金31億美元，誰在催火2021年的鏈游？

2021年究竟發(fā)生了什么，才使得鏈游領(lǐng)域在這年一飛沖天？作者：廖羽2022年2月16日，Invest Game發(fā)布《2021年全球游戲投資報告》，報告顯示，游戲行業(yè)的投資重點(diǎn)正在向區(qū)塊
NFT也有黃牛？這家公司專門對付外掛作弊機(jī)器人

澳大利亞前總理馬爾科姆·特恩布爾 (Malcolm Turnbull) 是支持薩姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于紐卡斯?fàn)柕暮诳?，他的職業(yè)生涯始于為國防
知名藝術(shù)家打造去中心化“好萊塢”：一部電影一個DAO

根據(jù)市場追蹤網(wǎng)站 DappRadar 的數(shù)據(jù)，隨著 NFT 的“出圈”與加密貨幣的普及，NFT 市場在 2021 年的銷售額達(dá)到約 250 億美元，而 2020 年僅為 9490 萬美元，同比增超 2
你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

前有騰訊、阿里申請商標(biāo)注冊，后有Facebook宣布改名，若論當(dāng)前互聯(lián)網(wǎng)最火最熱的概念，當(dāng)屬“元宇宙”。“阿里元宇宙”“淘寶元宇宙”“釘釘元宇宙”“QQ元宇宙”“

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 發(fā)布并開源醫(yī)療測試基準(zhǔn) HealthBench，旨在更好地衡量 AI 系統(tǒng)在醫(yī)療健康領(lǐng)域能力

關(guān)于ChatGPT的10點(diǎn)思考

文心一言排名墊底，卻成為百度業(yè)績增長杠桿

元宇宙火熱的當(dāng)下，我們該如何“身臨其境”的體驗(yàn)元宇宙？

如何對一款 NFT 項(xiàng)目進(jìn)行價值評估？

多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰(zhàn)場？

吸金31億美元，誰在催火2021年的鏈游？

NFT也有黃牛？這家公司專門對付外掛作弊機(jī)器人

知名藝術(shù)家打造去中心化“好萊塢”：一部電影一個DAO

你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

最新推薦

拯救XR，蘋果力不從心

中國區(qū)塊鏈產(chǎn)業(yè)生態(tài)地圖報告（2021）

「國產(chǎn)良心」NFT嘲諷了誰？

NFT行業(yè)的三大區(qū)塊鏈之一引起了Snoop Dogg的強(qiáng)烈興趣，究竟有何潛力？

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

虛擬人行業(yè)研究報告

猜你喜歡

熱門推薦

相關(guān)資訊

OpenAI 發(fā)布并開源醫(yī)療測試基準(zhǔn) HealthBench，旨在更好地衡量 AI 系統(tǒng)在醫(yī)療健康領(lǐng)域能力

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

OpenAI 發(fā)布并開源醫(yī)療測試基準(zhǔn) HealthBench，旨在更好地衡量 AI 系統(tǒng)在醫(yī)療健康領(lǐng)域能力