中新網(wǎng)杭州11月28日電 (張煜歡)27日記者從浙江省衛(wèi)生健康委了解到,國家人工智能應(yīng)用中試基地(醫(yī)療)·浙江(下稱基地)日前組建成立醫(yī)學(xué)人工智能臨床專家?guī)臁_@支專家團隊匯集省內(nèi)外41家醫(yī)院和機構(gòu)的近300名醫(yī)學(xué)專家,覆蓋64個專科領(lǐng)域。
他們依托基地與中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院、中國信息通信研究院共建的“醫(yī)學(xué)人工智能測評驗證聯(lián)合實驗室”,參與醫(yī)療大模型能力評測的標準建立、考題制作、結(jié)果審核等工作。目前,團隊已完成超過20個醫(yī)療大模型的評測任務(wù)。
近年來,各類醫(yī)療大模型紛紛涌現(xiàn),卻缺乏嚴肅、權(quán)威、專業(yè)的評價體系。一個核心問題日益凸顯:如何確保這些與百姓健康息息相關(guān)的AI產(chǎn)品安全、可靠?
(資料圖片)
“專家團隊覆蓋了內(nèi)科、外科、婦產(chǎn)科、兒科等核心臨床專科,并納入了影像、病理等關(guān)鍵醫(yī)技科室的權(quán)威專家,”醫(yī)療大模型評測技術(shù)負責(zé)人康俊暉介紹,“團隊已構(gòu)建超過6萬道題的測評題庫,建立初審、復(fù)審和抽樣校驗的三審機制。這套嚴謹?shù)捏w系,相當于為醫(yī)學(xué)人工智能量身定制了一套‘專業(yè)考題’。”
這些考題圍繞《衛(wèi)生健康行業(yè)人工智能應(yīng)用場景參考指引》設(shè)計,覆蓋患者就醫(yī)、醫(yī)生診療等真實場景,構(gòu)建了健康科普、分診導(dǎo)診、報告解讀、用藥指導(dǎo)、檢驗檢查推薦、輔助診斷和輔助病歷撰寫等七大應(yīng)用場景。
在題型設(shè)計上,團隊也進行了創(chuàng)新突破。“常規(guī)的客觀選擇題只能評估模型的知識覆蓋能力,難以衡量其在復(fù)雜醫(yī)療場景中的實際表現(xiàn)。”康俊暉說,“我們大幅增加了主觀簡答題比重,通過對大模型回答的深度分析,更準確地評估其臨床推理能力。”
例如,在輔助診斷場景中,不僅要求模型給出診斷名稱,還要求模型詳細闡述診斷依據(jù)和思路;在用藥指導(dǎo)環(huán)節(jié),則需要說明藥物選擇的理由和注意事項。
“醫(yī)學(xué)人工智能是一個非常特殊的領(lǐng)域,倫理、安全、算法黑箱、幻覺等問題倍受關(guān)注,稍有不慎,極易導(dǎo)致信任崩塌。”基地相關(guān)負責(zé)人、浙江省衛(wèi)生健康信息中心主任李春浦指出,“基于網(wǎng)絡(luò)公開數(shù)據(jù)或有限臨床數(shù)據(jù)訓(xùn)練出來的大模型,在一些醫(yī)院的落地應(yīng)用中,就出現(xiàn)了‘水土不服’。”
李春浦進一步解釋,應(yīng)用在真實臨床診療場景下的人工智能產(chǎn)品,僅靠掌握公開的醫(yī)學(xué)教材、文獻資料和個別醫(yī)院的數(shù)據(jù)是遠遠不夠的。
“這就好比一個醫(yī)學(xué)生,即便熟讀教科書,經(jīng)歷了臨床實習(xí),仍難以勝任復(fù)雜的診療工作。因此,我們必須用大量的‘真案例、真標準’來檢驗,通過不同醫(yī)院、不同領(lǐng)域真實的臨床案例,包括疑難重癥病例,參考國內(nèi)外最新診療指南進行評測,才能科學(xué)評估人工智能在嚴肅醫(yī)療場景下的真實水平。”李春浦說。
目前,浙江正在開展醫(yī)療大模型第二輪的測評驗證工作,推動醫(yī)療大模型測評將常態(tài)化,讓真正好用、管用、實用的醫(yī)療AI產(chǎn)品加速推廣應(yīng)用,推動醫(yī)學(xué)人工智能高質(zhì)量發(fā)展。(完)
標簽:
中新網(wǎng)杭州11月28日電(張煜歡)27日記者從浙江省衛(wèi)生健康委了解到,國