国产电影一区二区在线观看_国产视频1区_色香蕉在线_黄色高清视频_欧美成人高清_国产偷自视频区视频

聚慕 - 專業醫療器械服務商
設為首頁 收藏本頁 人事招聘 關于聚慕
400-901-5099
全部商品分類
openai發布最新開源框架:醫療大模型評估瞄準現實情況
發布時間:2025-05-19 09:12:17

OpenAI近日發布了一款開源基準測試工具,旨在衡量大型語言模型在醫療健康領域的性能和安全性。

該公司在周一的博客文章中表示,這個名為HealthBench的大型數據集超越了傳統的考試式提問,它基于醫學專家認為最重要的內容,測試人工智能模型在真實醫療場景中的表現。

該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發和部署得當,大型語言模型有潛力擴大健康信息的獲取途徑,支持臨床醫生提供高質量的醫療服務,并幫助人們維護自身及其社區的健康。"

公司高管在博文中表示:"評估對于理解模型在醫療環境中的表現至關重要。學術界和業界雖已付出巨大努力,但許多現有評估未能反映真實場景,缺乏基于醫學專家意見的嚴格驗證,或者未能給最先進的模型留下改進空間。"

該公司表示,該評估框架是與來自60個國家的262名執業醫師合作構建的。

HealthBench內置了5000個真實的醫療對話,并根據醫生制定的評分標準對模型的回應進行評分,評估其安全性、適當性和準確性。

77411747366336684

該公司表示,HealthBench中的對話模擬了AI模型與個人用戶或臨床醫生之間的互動,這些對話通過合成生成和人工對抗測試產生。OpenAI稱,這些對話"旨在真實地模擬大型語言模型在現實世界中的使用情況:它們是多輪次的、多語種的,涵蓋了各種普通用戶和醫療服務提供者的角色,跨越了多個醫學專業和背景,并根據難度進行了篩選。"

HealthBench評估了48562項獨特的評分標準,涵蓋多個健康情境和行為維度,如準確性、指令遵循和溝通能力。

模型的回應由一個基于模型的評分器進行評估,以判斷是否滿足每個評分標準。基于滿足的標準所獲總分,與可能獲得的最高分數進行比較,得到模型回應的總體得分。

HealthBench的對話分為七個主題,例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。

OpenAI 健康人工智能團隊負責人Karan Singhal在LinkedIn的帖子中表示,HealthBench的開發面向兩大受眾:一是AI研究界,旨在"形成共同標準并激勵開發有益于人類的模型";二是醫療機構,旨在"提供高質量證據,以更好地理解當前和未來的用例及局限性。"

OpenAI表示,HealthBench的開發旨在遵循幾項核心原則來評估醫療領域的AI系統。首先,該公司稱,評分應反映現實世界的影響。OpenAI在博文中表示:"這應超越考題范圍,捕捉復雜的現實生活場景和工作流程,以反映個人和臨床醫生與模型互動的方式。"

同時,評估還應反映醫療專業人士的標準和優先事項,為改進AI系統提供堅實的基礎。該公司指出:"應顯示出巨大的改進空間,從而激勵模型開發者持續提升性能。"

斯坦福AI 研究與科學評估中心執行主任Ethan Goh表示,HealthBench是推動醫療 AI 性能評估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(如MedQA, MultiMedQA, MedMCQA, USMLE)依賴于選擇題,這些題目通常來自醫生資格考試。這些基準現已飽和,對于衡量AI模型改進的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個用于任務級評估的基準彌補了這一空白,涵蓋了患者和臨床醫生的使用場景。"

Goh表示,許多行業參與者早已將其模型用于各種醫療保健應用,但坦率地說,在對AI回答進行穩健評估方面做得并不出色,因為他們急于部署一個可用的原型,而這在面向消費者或醫療服務提供者的使用場景中可能具有極高的風險。

OpenAI評估了自家模型以及來自谷歌、Anthropic、Meta 和 xAI (Grok) 的模型。總體而言,OpenAI 的 o3 模型表現最佳。但值得注意的是,也有行業人士警告稱,一家公司自行制定基準,并顯示其模型在該基準上表現最佳,這一做法存在風險。如果不公開其模型及數據集以供公眾審查,那無異于同時扮演法官、陪審團和行刑者的角色。在像醫療這樣討論生死的敏感領域,這種程度的不透明是不可接受的,這種不透明性可能會掩蓋模型的弱點。

54901747366342543

OpenAI在醫療健康領域動作頻頻,該公司正與賽諾菲和Formation Bio合作,構建一款由AI驅動的工具,旨在通過加速臨床試驗招募來改進藥物研發。Iodine Software也正與OpenAI合作,將包括GPT-4在內的生成式AI和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color Health也與OpenAI合作開發了生成式AI工具,包括一款AI驅動的癌癥輔助診療應用,雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學健康科學中心 (UTHealth Houston) 也與OpenAI合作,構建和部署用于醫學培訓和患者床旁的算法。


注:文章來源于網絡,如有侵權,請聯系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價格
  • 安調
  • 其他
* 手機號碼:
* 姓名:
主站蜘蛛池模板: 久久亚洲欧美日韩精品专区 | 国产精品69毛片高清亚洲 | 国产日韩欧美 | 色av成人 | 久久中文字幕视频 | 日韩精品一区二区三区在线观看 | 久久av一区二区 | 欧美午夜精品久久久久久人妖 | 欧美大片一区 | 精品亚洲一区二区 | 欧美淫片 | 日韩一区二区三区精品 | 国产精品久久久久久久久久久久久 | 欧美视频区 | 亚洲va欧美va天堂v国产综合 | 亚洲自拍偷拍网 | 看亚洲a级一级毛片 | 亚洲精品电影在线一区 | 澳门av| 色久综合 | 在线观看免费视频黄 | 欧美日韩成人 | 久久久久久免费精品 | 四房婷婷 | 中文字幕精品一区二区三区精品 | 欧美久久久久久久久久久久久久 | 在线视频a| 永久av| 国产精品欧美日韩在线观看 | 国产精品国产精品国产专区不片 | 视频一区二区在线观看 | 久久国产经典视频 | 日韩一区二区三区在线观看 | 一本久久久 | 久久美女视频 | 日本乱偷中文字幕 | 精品国产91乱码一区二区三区 | 在线观看的av | 中文字幕一区二区三区四区五区 | 四虎影视免费看电影 | 日韩在线免费观看视频 |