未來將大語言模型應(yīng)用于醫(yī)學(xué)可能會成為一種趨勢。在分診問診等臨床咨詢階段,利用模型與患者進(jìn)行交互,收集到完整、準(zhǔn)確的信息并形成初步意見,再將其交給專業(yè)醫(yī)生進(jìn)行最終判斷,這在一定程度上可以減少因為信息收集不充分、患者主訴不明確等問題帶來的誤診和漏診。
你是否想過,未來給你問診的可能是人工智能?據(jù)報道,用于尋醫(yī)問診的大語言模型在國內(nèi)已經(jīng)出現(xiàn),醫(yī)檢行業(yè)等垂直領(lǐng)域也正加速布局對應(yīng)的大語言模型。不僅如此,《自然》雜志近日還發(fā)表了一篇論文,展示了一個用于評估大語言模型在醫(yī)學(xué)問題上整體表現(xiàn)水平的基準(zhǔn)。
那么,將大語言模型用于尋醫(yī)問診是否有可能成為一種趨勢?其技術(shù)原理是什么,又該如何對其進(jìn)行監(jiān)管和評估?帶著這些問題,記者采訪了相關(guān)專家。
國內(nèi)企業(yè)紛紛入局醫(yī)檢大語言模型
ChatGPT的發(fā)布,掀起了各廠商研發(fā)大語言模型的熱潮。“此前人工智能應(yīng)用于醫(yī)學(xué)的進(jìn)展速度并不算快,能否借助這一輪大語言模型發(fā)展熱潮,把對專業(yè)性、精準(zhǔn)度要求極高的AI醫(yī)療推向發(fā)展的快車道,成了大家現(xiàn)在關(guān)注的焦點。”廣州金域醫(yī)學(xué)檢驗集團股份有限公司(以下簡稱金域醫(yī)學(xué))數(shù)字化運營管理中心算法總監(jiān)劉斯表示。
國內(nèi)在“大語言模型+醫(yī)學(xué)”領(lǐng)域雖起步相對較晚,但也是“八仙過海、各顯神通”。今年5月,互聯(lián)網(wǎng)醫(yī)院——醫(yī)聯(lián)率先發(fā)布了基于Transformer架構(gòu)的國內(nèi)首款醫(yī)療大語言模型——MedGPT。而在醫(yī)檢領(lǐng)域,金域醫(yī)學(xué)正聯(lián)合華為云等行業(yè)巨頭,研發(fā)聚焦智能臨床咨詢、檢測項目智能推薦、智能檢測報告生成與解讀等方面的醫(yī)檢行業(yè)大語言模型。
目前,網(wǎng)絡(luò)上也有一些沒有大語言模型加持的尋醫(yī)問診機器人。這種機器人與大語言模型加持下的尋醫(yī)問診機器人有何不同?
“大語言模型加持下的問診服務(wù)將具有更好的柔性。在患者不能用專業(yè)術(shù)語描述自身癥狀,或者患者的回答并沒有按照預(yù)設(shè)路徑進(jìn)行的時候,大語言模型擁有更加靈活的應(yīng)對能力。”劉斯透露,利用這些特性,他們正在訓(xùn)練醫(yī)檢大模型,并希望借此打造人工智能醫(yī)檢咨詢師。
有望減少誤診漏診提供普惠醫(yī)療服務(wù)
當(dāng)前,醫(yī)檢服務(wù)正日益趨向?qū)I(yè)化、精準(zhǔn)化、個性化。以廣東省新一代人工智能開放創(chuàng)新平臺的承建單位金域醫(yī)學(xué)為例,其已在醫(yī)檢生成式人工智能領(lǐng)域有所布局,目前已建立起標(biāo)準(zhǔn)報告語言規(guī)范及高質(zhì)量專病數(shù)據(jù)庫,并正利用預(yù)訓(xùn)練模型在醫(yī)學(xué)文本實體抽取、病理報告結(jié)構(gòu)化等領(lǐng)域開展探索。
受訪專家們一致認(rèn)為,未來將大語言模型應(yīng)用于醫(yī)學(xué)可能會成為一種趨勢。在分診問診等臨床咨詢階段,利用模型與患者進(jìn)行交互,收集到完整、準(zhǔn)確的信息并形成初步意見,再將其交給專業(yè)醫(yī)生進(jìn)行最終判斷,這在一定程度上可以減少因為信息收集不充分、患者主訴不明確等問題帶來的誤診和漏診。這個方案不管是從準(zhǔn)確率還是從效率上來看,都具備一定的可行性。
“許多最前沿的醫(yī)療知識分散在少數(shù)人手里,而大語言模型卻能夠融合頂尖知識,提供更加普惠的醫(yī)療知識服務(wù)。”左手醫(yī)生創(chuàng)始人兼CEO張超說。
上海長海醫(yī)院實驗診斷科主任、博士生導(dǎo)師劉善榮也表示,未來若能搜集到大型三甲醫(yī)院的醫(yī)生對于某些疾病的認(rèn)知并將其導(dǎo)入大語言模型進(jìn)行整合、學(xué)習(xí),一些醫(yī)療資源不充足的地區(qū)也有可能享受到高質(zhì)量的醫(yī)療服務(wù)。
對齊真實醫(yī)療場景需技術(shù)倫理雙管齊下
大語言模型或許能提升醫(yī)檢行業(yè)效率,但在面對真實的尋醫(yī)問診場景時,目前的大語言模型仍有其局限性,這主要體現(xiàn)在準(zhǔn)確性、一致性和及時性上。
在準(zhǔn)確性上,由于模型預(yù)訓(xùn)練時所用的文本范圍不一定囊括所有???,針對疑難雜癥以及罕見疾病的語料也不一定足夠豐富,因此模型在面對較為罕見的場景時,有可能會出現(xiàn)根據(jù)它當(dāng)前掌握的知識強行作答的情況。“在醫(yī)檢實踐場景中,我們也發(fā)現(xiàn)大模型在回答問題的過程中有可能出現(xiàn)幻覺,會將沒有出現(xiàn)在描述里的癥狀納入到考慮范圍中。”劉斯表示。
在一致性上,若以相同的問題重復(fù)多次詢問模型,模型偶爾會出現(xiàn)回答前后不一致的情況。這種隨機性在日常對話或者故事創(chuàng)作中是受歡迎的,但在臨床咨詢場景中是不允許發(fā)生的。
在及時性上,大模型受限于訓(xùn)練語料的時限性,無法直接利用訓(xùn)練之后才產(chǎn)生的新語料。換言之,新的醫(yī)療發(fā)現(xiàn)和診療指南等信息難以直接、有效地注入未更新的大模型里。
“與以聊天為‘主業(yè)’的ChatGPT相比,在醫(yī)療方面,我們需要大語言模型給出盡可能穩(wěn)定和精確的結(jié)論,避免因為模型幻覺或者含糊不清的回答,誤導(dǎo)患者選擇錯誤的診療方案。”劉斯指出,目前大部分醫(yī)療領(lǐng)域的大語言模型會選用知識圖譜進(jìn)行輔助,圖譜質(zhì)量在很大程度上會影響其回答質(zhì)量。
大語言模型要借助什么技術(shù)手段解決這些缺陷呢?劉斯認(rèn)為,除了預(yù)訓(xùn)練過程中需要納入足夠多的醫(yī)學(xué)專業(yè)數(shù)據(jù)外,在模型設(shè)計中,也需要重視它對知識圖譜的利用能力,以及基于圖譜的推理能力。目前看來,完全依賴大模型進(jìn)行外部不可見的獨立推理過程并直接向醫(yī)生輸出結(jié)果,這種模式在醫(yī)學(xué)場景中較難達(dá)到足夠高的準(zhǔn)確率,也較難獲得醫(yī)生的認(rèn)同。“知識圖譜+大模型”的技術(shù)路徑,可能會是促進(jìn)大模型在醫(yī)學(xué)場景落地的更優(yōu)選擇。
此外,大語言模型在微調(diào)階段和測試階段,需要醫(yī)學(xué)專家的深度介入,依托具有交叉學(xué)科背景的研發(fā)團隊對模型進(jìn)行迭代,保障模型的反饋嚴(yán)格遵照醫(yī)學(xué)邏輯;同時,在應(yīng)用過程中,也需要注重大語言模型本身以及相關(guān)知識圖譜的更新頻率,如可借助指令精調(diào)乃至重新預(yù)訓(xùn)練等手段將新增的醫(yī)學(xué)語料納入大語言模型的“知識庫”,以應(yīng)對模型醫(yī)學(xué)知識更新不及時的問題。
同時,業(yè)內(nèi)專家也提醒道,要注意對用于醫(yī)學(xué)領(lǐng)域的大語言模型進(jìn)行監(jiān)管和評估。劉斯表示,應(yīng)在遵循現(xiàn)有生成式人工智能以及人工智能醫(yī)用軟件的管理辦法和規(guī)章制度,保證數(shù)據(jù)來源和技術(shù)安全、合規(guī)、可控的前提下,在大語言模型研發(fā)過程中加強與醫(yī)學(xué)專家團隊的協(xié)作,這樣一方面可確保醫(yī)學(xué)領(lǐng)域的知識有效注入到模型中,另一方面也能使模型輸出的結(jié)果與醫(yī)生診療結(jié)論保持相似或一致。此外,將現(xiàn)階段模型輸出的結(jié)果用于診療決策之前,仍需要由醫(yī)生來把最后一道關(guān),保障結(jié)果的專業(yè)性。目前來講,大語言模型僅能作為醫(yī)生的助手,而不能替代醫(yī)生進(jìn)行決策。(葉青)