12 月 28 日消息,螞蟻集團今日宣布開源首個醫療專科推理數據集。該數據集由訓練、驗證、測試三部分組成,包含 2132 個問答對,每個問答對由醫生根據臨床經驗編寫的問題、專家提供的回答以及用于幫助推理的上下文構成,病種覆蓋了 97.6% 以上的泌尿科就醫人群,號稱能“真實復刻診療場景”。
在醫療行業,通用型語言模型在應對醫療問診時,會直接給出答案,而醫生則會根據專業知識進行反復的癥狀探討,才能給出答案。此外,大模型的幻覺問題和推理能力不足,當前高質量的中文醫學專科數據集又較為稀缺,這對訓練出色的醫療領域大模型提出了挑戰。
據介紹,為克服這些難題,螞蟻集團與上海仁濟醫院泌尿科專家團隊聯合研發,基于醫生團隊臨床經驗,通過構造模擬病例數據的方式,推出了中文醫療專科問答推理數據集 RJUA-QA,這也是業內首個臨床專科數據集。
專業性上,由于醫療行業有超百個科室,每個專科和疾病,都需要專業的調試。螞蟻集團聯合醫療專家共同研發了多模態醫療知識引擎,進一步推動中國專業醫療數據集的構建與開放。
查詢發現,RJUA-QA 已在 GitHub 上開源,README 頁面顯示“本數據集的病例數據由專業醫生的根據臨床經驗編寫而成,因此不涉及任何醫患個人隱私”。
本文鏈接:http://www.tebozhan.com/showinfo-45-3103-0.html螞蟻集團開源首個醫療專科推理數據集,覆蓋 97.6% 泌尿就醫人群
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com