資訊
頻道
當(dāng)前位置:首頁 > 醫(yī)療器械資訊 > 市場分析 > 利用AI大模型,破解醫(yī)療數(shù)據(jù)困境

利用AI大模型,破解醫(yī)療數(shù)據(jù)困境

文章來源:智慧醫(yī)療網(wǎng)發(fā)布日期:2024-05-11瀏覽次數(shù):36

隨著AI技術(shù)飛躍,醫(yī)療基礎(chǔ)模型在2023年逐漸涌現(xiàn)。它們不僅能深刻理解臨床數(shù)據(jù),還能生成富有洞見的醫(yī)療知識。從影像診斷到藥物研發(fā),這些模型正逐步改寫醫(yī)療服務(wù)的未來。然而,數(shù)據(jù)量有限、標(biāo)注成本高、多模態(tài)數(shù)據(jù)融合困難等挑戰(zhàn)仍舊存在。

如何在確保隱私的前提下,高效利用有限的醫(yī)療數(shù)據(jù)?以下分享上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室張少霆團(tuán)隊(duì)解析基礎(chǔ)模型(foundation model)在破解醫(yī)療數(shù)據(jù)困境方面的研究進(jìn)展。

醫(yī)療診斷對減少疾病發(fā)生、降低死亡率、提高民眾健康水平具有重要意義。高質(zhì)量的醫(yī)療數(shù)據(jù)在其中扮演了不可或缺的角色,包括影像、基因組學(xué)、實(shí)驗(yàn)室測試等臨床數(shù)據(jù)。無論是對醫(yī)療專家,還是對醫(yī)療AI而言,臨床數(shù)據(jù)都有助于充分了解患者體征情況、提出合理決策。然而多年來,在醫(yī)療信息化領(lǐng)域,臨床數(shù)據(jù)的收集、處理和使用卻面臨著種種挑戰(zhàn),包括數(shù)據(jù)量有限[1]、數(shù)據(jù)標(biāo)注成本高[2]、數(shù)據(jù)模態(tài)多[3]、患者隱私保護(hù)難[4] 等。這些問題猶如醫(yī)療AI發(fā)展路上的絆腳石,阻礙了醫(yī)療AI的進(jìn)步。

隨著通用領(lǐng)域AI的快速發(fā)展,我們看到了新的曙光。近年來,基礎(chǔ)模型(foundation model)在視覺識別、語言理解、知識發(fā)現(xiàn)等傳統(tǒng)AI領(lǐng)域取得了突破性的進(jìn)展。這些基礎(chǔ)模型在醫(yī)療AI領(lǐng)域也開始嶄露頭角:強(qiáng)大的邏輯推理、語義理解、內(nèi)容生成能力,已經(jīng)在醫(yī)療對話[5]、患者健康分析[6]、治療規(guī)劃[7]等方面展現(xiàn)出巨大的潛力。不僅如此,人們也在基于通用基礎(chǔ)模型和醫(yī)療數(shù)據(jù),構(gòu)建醫(yī)療領(lǐng)域的基礎(chǔ)模型,以應(yīng)對更需要醫(yī)療專業(yè)知識的場景。僅在2023年,醫(yī)療領(lǐng)域就涌現(xiàn)了一大批強(qiáng)大的基礎(chǔ)模型,例如病理圖像模型PathoDuet [8]、眼底圖像模型RETFound [9]、內(nèi)窺鏡檢查視頻分析模型Endo-FM [10]、醫(yī)學(xué)綜合問答模型Med-Flamingo [11]和Med-PaLM 2 [12]等。這些模型逐步在臨床診斷、醫(yī)療對話、藥物研發(fā)等方方面面投入了實(shí)際應(yīng)用,為醫(yī)療工作者和患者們帶來了福祉。

然而,由于數(shù)據(jù)是基礎(chǔ)模型的根基,醫(yī)療領(lǐng)域長久存在的數(shù)據(jù)問題必然會對醫(yī)療基礎(chǔ)模型的發(fā)展產(chǎn)生負(fù)面影響。因此,在強(qiáng)大的AI系統(tǒng)真正大規(guī)模應(yīng)用之前,這些數(shù)據(jù)問題亟待解決。

通用領(lǐng)域的基礎(chǔ)模型為解決醫(yī)療數(shù)據(jù)困境提供了新的可能。OpenAI團(tuán)隊(duì)通過大量涵蓋各種醫(yī)療場景的實(shí)驗(yàn),驗(yàn)證了GPT-4模型在醫(yī)學(xué)文本理解和生成方面的卓越能力[7]。來自斯坦福大學(xué)的一項(xiàng)工作利用stable diffusion模型根據(jù)文字生成X光圖片,證明了用基礎(chǔ)模型生成高質(zhì)量醫(yī)療數(shù)據(jù),以解決數(shù)據(jù)稀缺問題的可行性[13]。這些成果無疑為醫(yī)療AI的發(fā)展注入了新的活力。

在基礎(chǔ)模型的新時(shí)代,解決醫(yī)療數(shù)據(jù)問題成為了醫(yī)療AI研究的重中之重。通用領(lǐng)域的研究已經(jīng)為醫(yī)療領(lǐng)域打好了基礎(chǔ),然而目前通用領(lǐng)域的基礎(chǔ)模型在醫(yī)療領(lǐng)域究竟能有多大程度的應(yīng)用,醫(yī)療領(lǐng)域基礎(chǔ)模型的發(fā)展現(xiàn)狀和前景又如何?我們用本文簡介基礎(chǔ)模型的工作原理,列舉基礎(chǔ)模型為醫(yī)療領(lǐng)域數(shù)據(jù)問題帶來的新解決方案,并討論其可能涉及的隱私保護(hù)和道德風(fēng)險(xiǎn)。


數(shù)據(jù)量


在醫(yī)療場景中,既有常見病,又有許多影響人群比例很低的罕見病、某些遺傳疾病等。前者有著大量數(shù)據(jù)的支持,能夠作為醫(yī)療AI訓(xùn)練的燃料。而后者的數(shù)據(jù)量則極為有限,數(shù)據(jù)提供的有限信息無法滿足在特定醫(yī)療任務(wù)上訓(xùn)練一個(gè)魯棒模型所需的信息量,這可能導(dǎo)致模型訓(xùn)練不足,產(chǎn)生不準(zhǔn)確、不可靠的模型結(jié)果。同時(shí),由于患者隱私保護(hù)等規(guī)范,即使是常見病,公開的醫(yī)療數(shù)據(jù)記錄也很有限。此外,包括數(shù)據(jù)收集、清理和標(biāo)注等多個(gè)環(huán)節(jié)的現(xiàn)實(shí)世界數(shù)據(jù)集構(gòu)建通常較為昂貴。

通用領(lǐng)域的基礎(chǔ)模型有望緩解醫(yī)療應(yīng)用中數(shù)據(jù)量不足的問題。一方面,基礎(chǔ)模型能夠輔助醫(yī)療數(shù)據(jù)增強(qiáng)。許多工作利用基礎(chǔ)模型生成訓(xùn)練數(shù)據(jù),相較于傳統(tǒng)數(shù)據(jù)增強(qiáng)方法,這種新型訓(xùn)練方法引入了模型中包含的大量信息,提升了信息熵。大語言模型和擴(kuò)散模型這類生成式大模型在醫(yī)療數(shù)據(jù)增強(qiáng)上效果良好。例如哈佛大學(xué)的研究者利用DALL-E生成皮膚病圖片來訓(xùn)練分類模型[14],浙江大學(xué)的研究者開發(fā)的PathAsst基礎(chǔ)模型能夠生成病理學(xué)子領(lǐng)域的指令樣本來訓(xùn)練其他模型[15]等。

另一方面,基礎(chǔ)模型能夠更為高效地利用現(xiàn)有數(shù)據(jù)?;A(chǔ)模型可以成為連接有限的下游數(shù)據(jù)與大量上游數(shù)據(jù)的橋梁。例如,上海交通大學(xué)的研究者利用醫(yī)學(xué)語言基礎(chǔ)模型所包含的對醫(yī)學(xué)圖像和概念的理解,引導(dǎo)通過自然圖像訓(xùn)練的視覺模型遷移至病理圖像,從而完成病理圖像少樣本分類任務(wù)[16]。又如,哈佛大學(xué)的研究者們實(shí)驗(yàn)驗(yàn)證了醫(yī)療領(lǐng)域的基礎(chǔ)語言模型能在罕見病的診斷中發(fā)揮作用[17]。在2023年NeurIPS會議上,OpenMEDLab發(fā)起了MedFMC基礎(chǔ)模型醫(yī)學(xué)圖像分類挑戰(zhàn),吸引世界各地600多個(gè)團(tuán)隊(duì)參加,推動(dòng)了對通用基礎(chǔ)模型在醫(yī)學(xué)圖像分類任務(wù)上高效應(yīng)用的研究[18]。

在互聯(lián)網(wǎng)信息愈發(fā)豐富的今天,通過互聯(lián)網(wǎng)獲取基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)也成為了解決數(shù)據(jù)量問題有效且常用的方法之一。我們需要從高質(zhì)量的醫(yī)學(xué)數(shù)據(jù)平臺,例如PubMed,爬取數(shù)據(jù)。同時(shí),可以用合適的采樣、過濾、清洗方法,包括使用基礎(chǔ)模型或訓(xùn)練一個(gè)專用的小模型來判斷數(shù)據(jù)是否為我們所需[19,20]。


數(shù)據(jù)標(biāo)注


除了解決數(shù)據(jù)量的問題,對已經(jīng)收集到的數(shù)據(jù)進(jìn)行標(biāo)注也是一個(gè)關(guān)鍵步驟。在利用基礎(chǔ)模型診斷疾病、制定治療計(jì)劃,并為更明智、高效的醫(yī)療系統(tǒng)鋪平道路的持續(xù)努力中,數(shù)據(jù)標(biāo)注發(fā)揮著關(guān)鍵作用。通過分配信息豐富的元數(shù)據(jù)或類別標(biāo)簽,數(shù)據(jù)標(biāo)注為原始數(shù)據(jù)集添加了人類專業(yè)知識和背景理解,為醫(yī)療教育、診斷和人工智能應(yīng)用提供了有價(jià)值的見解。然而,數(shù)據(jù)標(biāo)注仍然面臨諸如專業(yè)標(biāo)注人員短缺、標(biāo)注過程復(fù)雜等挑戰(zhàn)。幸運(yùn)的是,基礎(chǔ)模型的可擴(kuò)展性使我們能夠緩解大規(guī)模醫(yī)療數(shù)據(jù)標(biāo)注的成本問題。

文本標(biāo)注的過程需要從各類醫(yī)學(xué)報(bào)告中提取關(guān)鍵信息,有助于醫(yī)生快速了解患者的狀況,做出更為準(zhǔn)確的診斷。同時(shí),這也有利于建立完整準(zhǔn)確的患者檔案,為長期跟蹤、理解疾病發(fā)展規(guī)律等提供便利。人類專家對醫(yī)療信息的提取有較高的準(zhǔn)確率,但比較耗時(shí)耗力。而如今的基礎(chǔ)模型,尤其是大語言模型,已經(jīng)可以達(dá)到和人類專家近似水平的信息提取效果,為醫(yī)療工作者節(jié)省成本。例如,在醫(yī)療數(shù)據(jù)上微調(diào)的大語言模型Med-PaLM 2 [12]能夠進(jìn)行高質(zhì)量的醫(yī)學(xué)問答,其回答堪比甚至超過專業(yè)臨床醫(yī)生,可以用于醫(yī)療文本數(shù)據(jù)的標(biāo)注。

另一方面,醫(yī)學(xué)影像標(biāo)注對于病理學(xué)、放射學(xué)圖像等醫(yī)療數(shù)據(jù)的理解和分析也十分重要。其中,對圖像分割掩碼的標(biāo)注對醫(yī)生診斷病情、定位病灶起著關(guān)鍵作用。2023年4月,通用領(lǐng)域視覺分割基礎(chǔ)模型SAM問世,此后許多工作嘗試使用SAM對醫(yī)學(xué)圖像進(jìn)行分割,并實(shí)驗(yàn)驗(yàn)證了SAM能夠在醫(yī)學(xué)圖像上有較好的分割表現(xiàn),因而能夠作為圖像數(shù)據(jù)標(biāo)注的工具[21]。然而,直接使用SAM也可能導(dǎo)致結(jié)果缺乏足夠的一致性和可靠性,需將其在醫(yī)學(xué)圖像上進(jìn)行微調(diào)再進(jìn)行標(biāo)注更為合理[22]。OpenMEDLab和上海交通大學(xué)的研究者們基于SAM,開發(fā)了名為MedLSAM的3D CT圖像定位+分割基礎(chǔ)模型,能夠保證不受數(shù)據(jù)集大小影響的、常數(shù)時(shí)間的3D醫(yī)學(xué)圖像標(biāo)注,大大降低了標(biāo)注成本[23]。


多模態(tài)數(shù)據(jù)融合


醫(yī)療數(shù)據(jù)的多模態(tài)特性,如影像、診斷報(bào)告、生物信號等,為醫(yī)療工作者提供了多角度的患者信息。如何融合多模態(tài)數(shù)據(jù)成為了提升診斷準(zhǔn)確性和治療效果的關(guān)鍵。如今,基礎(chǔ)模型為醫(yī)療數(shù)據(jù)模態(tài)融合提供了新視角。在模型預(yù)訓(xùn)練階段,可以通過大規(guī)模配對的多模態(tài)數(shù)據(jù)進(jìn)行多模態(tài)聯(lián)合預(yù)訓(xùn)練,使模型能夠接受并理解多模態(tài)輸入;在下游應(yīng)用階段,可以通過大語言模型等基礎(chǔ)模型的transformer結(jié)構(gòu),在隱空間進(jìn)行模態(tài)融合。

多模態(tài)聯(lián)合預(yù)訓(xùn)練利用配對的數(shù)據(jù)樣本(如圖片和對應(yīng)的文本)使得各模態(tài)數(shù)據(jù)在表征空間具有相似的特征,實(shí)現(xiàn)模態(tài)融合。這類方法在醫(yī)療領(lǐng)域也很常用,尤其是在放射學(xué)、病理學(xué)等子領(lǐng)域,數(shù)據(jù)通常以圖像和文字報(bào)告配對形式存在。例如,來自微軟的Benedikt Boecking等人在大量胸片和其對應(yīng)的放射報(bào)告上訓(xùn)練BioViL模型,以獲得相匹配的圖像和語言特征[24]。又如,斯坦福大學(xué)的研究者們大量收集了Twitter上包含特定關(guān)鍵詞的內(nèi)容和對應(yīng)的病理圖像,構(gòu)建了病理圖像文本對的公開數(shù)據(jù)集OpenPath,并在此數(shù)據(jù)集上訓(xùn)練了PLIP模型,在下游的圖像分類等零樣本任務(wù)上獲得很好的結(jié)果[25]。

另一方面,大語言模型憑借其注意力機(jī)制具有強(qiáng)大的語義理解能力,而這種能力并不局限于語言,也可以遷移到多模態(tài)場景。來自不同模態(tài)的數(shù)據(jù)可以作為大語言模型的提示詞輸入進(jìn)行聚合,組合而成的多模態(tài)輸入通過模型中的transformer層進(jìn)行融合,通過注意力機(jī)制彼此交換信息,達(dá)成模態(tài)融合的結(jié)果。由于如GPT-4等強(qiáng)大的語言模型本身在醫(yī)學(xué)領(lǐng)域已被驗(yàn)證有足夠強(qiáng)的能力[7],這種模態(tài)融合方法在醫(yī)療領(lǐng)域同樣適用。例如,斯坦福大學(xué)的研究人員將圖片和文字輸入拼接成一個(gè)序列,經(jīng)過大語言模型得到輸出,并對融合模塊進(jìn)行訓(xùn)練,開發(fā)了Med-Flamingo模型。Med-Flamingo在涉及醫(yī)療圖片的問答任務(wù)上展現(xiàn)出了很強(qiáng)的少樣本學(xué)習(xí)能力[11]。


數(shù)據(jù)隱私


醫(yī)療數(shù)據(jù)的隱私性保護(hù)一直是一個(gè)重要議題。為此,各國紛紛出臺法律法規(guī),嚴(yán)格規(guī)范私有數(shù)據(jù)的共享和使用[26]。而隨著AI技術(shù)的發(fā)展,尤其是基礎(chǔ)模型的興起,我們看到了解決這一難題的新希望?;A(chǔ)模型依靠其強(qiáng)大的數(shù)據(jù)生成能力,可以生成足以用于模型訓(xùn)練但不包含任何患者隱私信息的數(shù)據(jù)。有研究基于擴(kuò)散模型訓(xùn)練了能夠生成高分辨率3D醫(yī)學(xué)圖像的模型,其生成的圖像在去除了關(guān)鍵隱私信息的同時(shí),保留了足以用于模型訓(xùn)練的特征[27]。

然而,基礎(chǔ)模型規(guī)模大的特性使得其具有對預(yù)訓(xùn)練數(shù)據(jù)的記憶能力,并且在輸出時(shí)傾向于模仿訓(xùn)練所見數(shù)據(jù),因此使用基礎(chǔ)模型也可能產(chǎn)生隱私保護(hù)問題[28,29]。這就要求我們在利用基礎(chǔ)模型的同時(shí),也要做好其預(yù)訓(xùn)練數(shù)據(jù)的去隱私化處理,確保患者信息的安全,要真正安全地將其應(yīng)用在醫(yī)療領(lǐng)域數(shù)據(jù)生成上,還需要進(jìn)一步研究。目前已經(jīng)有許多工作討論基礎(chǔ)模型的隱私問題。


模型評估


在訓(xùn)練階段后,準(zhǔn)確地度量模型的性能和安全性等指標(biāo)是將模型真正投入使用的前提。由于基礎(chǔ)模型的規(guī)模和復(fù)雜性,對其進(jìn)行評估是一項(xiàng)很大的挑戰(zhàn)。下面我們介紹三類基礎(chǔ)模型的評估策略,這些策略各有優(yōu)劣。

固定的數(shù)據(jù)集和指標(biāo)是常用的評估方式之一。目前在醫(yī)療領(lǐng)域,研究人員已經(jīng)構(gòu)建了大量用于評估的數(shù)據(jù)集和指標(biāo),包括MIMIC-III [30]、BLURB [31]等。其好處是評估結(jié)果的可重復(fù)性,以及模型之間比較的公平性。然而,在真實(shí)世界使用基礎(chǔ)模型時(shí)往往會遇到許多需要靈活應(yīng)變的情況,而靜態(tài)數(shù)據(jù)集不能很好體現(xiàn)基礎(chǔ)模型在這些罕見的、多變的、與人類交互等情況下的真實(shí)表現(xiàn)。同時(shí),在評估基礎(chǔ)模型與人類價(jià)值觀一致性方面,目前相關(guān)的數(shù)據(jù)集和指標(biāo)仍然較少。并且,在模型規(guī)模越來越大的今天,指標(biāo)的更新速度難以跟上基礎(chǔ)模型的發(fā)展。

在研究中同樣常用于基礎(chǔ)模型評估的,還有人類專家的評估,例如斯坦福大學(xué)的研究者們邀請放射學(xué)家對ChatGPT翻譯放射報(bào)告的正確性進(jìn)行評估[13]。人類專家的優(yōu)勢是對模型的評估更為準(zhǔn)確,具備靈活性,以及和人類價(jià)值觀吻合。然而,邀請人類專家的成本較為高昂,且人類專家的評估可能由于其背景等因素的不同產(chǎn)生過多主觀性[32]。

如果有一個(gè)足夠強(qiáng)大且與人類價(jià)值觀對齊的基礎(chǔ)模型,它能否成為評估其他模型的標(biāo)桿?這種方法通常不需要一個(gè)固定的數(shù)據(jù)集以及標(biāo)注,僅需要標(biāo)桿模型的推理,是一種比較高效的方法。例如,來自中國臺灣的研究團(tuán)隊(duì)驗(yàn)證了ChatGPT在故事生成和對抗攻擊兩個(gè)自然語言任務(wù)上能達(dá)到人類專家的評估水平,并且在不同提示詞下能產(chǎn)生穩(wěn)定的結(jié)果[33]。盡管在醫(yī)療領(lǐng)域要找到這樣一個(gè)標(biāo)桿模型通常并不容易——自然領(lǐng)域的基礎(chǔ)模型在醫(yī)療領(lǐng)域仍然會遇到領(lǐng)域偏移較大的問題,且很可能缺乏足夠的領(lǐng)域?qū)I(yè)知識評估其他模型——利用基礎(chǔ)模型的自動(dòng)化評估仍是一個(gè)非常值得研究的方向。結(jié)合人類專家與自動(dòng)評估來獲得更高質(zhì)量的評估結(jié)果,取長補(bǔ)短,可能是一個(gè)很有潛力的方法。


基礎(chǔ)模型的缺陷


在解決醫(yī)療數(shù)據(jù)有限方面,基礎(chǔ)模型已經(jīng)展現(xiàn)出了巨大的潛力。但正如任何技術(shù)一樣,它們也并非完美無缺?;A(chǔ)模型還存在著一些亟待解決的缺陷,包括幻覺、偏見、缺乏規(guī)范等。

基礎(chǔ)模型可能生成看似合理但實(shí)際不準(zhǔn)確的內(nèi)容,這就是基礎(chǔ)模型的幻覺。這種現(xiàn)象可能由多種數(shù)據(jù)因素引起,包括訓(xùn)練數(shù)據(jù)的質(zhì)量、規(guī)模和內(nèi)在偏見。在與醫(yī)療相關(guān)的基礎(chǔ)模型應(yīng)用中,錯(cuò)誤信息可能對所有醫(yī)療利益相關(guān)者造成嚴(yán)重后果,因而解決幻覺問題至關(guān)重要。在幻覺影響下,基礎(chǔ)模型可能生成影響醫(yī)療診斷、決策和患者護(hù)理的內(nèi)容。

為了解決這一問題,關(guān)鍵的一步是正確識別和評估幻覺的嚴(yán)重程度。檢測幻覺的評估指標(biāo)和任務(wù)應(yīng)考慮事實(shí)準(zhǔn)確性、連貫性和一致性等因素。例如,Med-HALT(醫(yī)學(xué)領(lǐng)域幻覺測試)的基準(zhǔn)能夠用于評估大語言模型中的幻覺[34]。Med-HALT包括基于推理和記憶的幻覺測試,可用于評估大語言模型在醫(yī)學(xué)背景下的問題解決和信息檢索能力。另一個(gè)方向是AI與人類的合作。引入人類的知識和判斷可以幫助檢測模型產(chǎn)生的幻覺。眾包平臺也可以用于收集人類對模型生成內(nèi)容的評估,以開發(fā)可靠的醫(yī)療基礎(chǔ)模型。應(yīng)開發(fā)與醫(yī)療基礎(chǔ)模型對抗性測試,以識別可能觸發(fā)幻覺的輸入提示詞等,從而提高模型生成內(nèi)容的可信度[35]。

基礎(chǔ)模型也可能帶有對某些群體、地域、性別等的偏見。這種偏見可能源于訓(xùn)練數(shù)據(jù)中的文化、語言、人口統(tǒng)計(jì)和政治等因素。例如,來自美國的AnsibleHealth機(jī)構(gòu)和來自中國的研究團(tuán)隊(duì)分別評估了ChatGPT在中美醫(yī)學(xué)執(zhí)業(yè)許可考試上的表現(xiàn),其結(jié)果表明ChatGPT在英文考試中準(zhǔn)確率更高,其原因在于大語言模型在訓(xùn)練過程中存在語言偏見[36,37]。目前基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)通常從互聯(lián)網(wǎng)收集,很可能沒有受到人類專家的監(jiān)督,導(dǎo)致在醫(yī)療領(lǐng)域中人類與模型結(jié)果之間的潛在認(rèn)知差距。

為了減輕這種偏見,需要在數(shù)據(jù)集構(gòu)建和模型評估等過程中引入人類專家的指導(dǎo),以開發(fā)可信的基礎(chǔ)模型[38]。同時(shí),醫(yī)療利益相關(guān)者和基礎(chǔ)模型的開發(fā)者應(yīng)該認(rèn)識到,目前基礎(chǔ)模型的架構(gòu)和訓(xùn)練模式缺乏對有害信息和對抗性操縱的防御和檢測能力。為了改善這一點(diǎn),我們可以考慮在醫(yī)療基礎(chǔ)模型的開發(fā)中引入對抗性攻擊訓(xùn)練,以增強(qiáng)有害信息的防御和檢測能力[38]。

隨著醫(yī)療AI應(yīng)用的日益增多,基礎(chǔ)模型的規(guī)范化也成為一個(gè)重要議題。各國政府(如美國食品藥品管理局)開始將執(zhí)行醫(yī)療功能的程序視為醫(yī)療設(shè)備進(jìn)行監(jiān)管。未來,基礎(chǔ)模型將被視為新型的醫(yī)療設(shè)備,接受更為嚴(yán)格的監(jiān)管,包括明確基礎(chǔ)模型的實(shí)際應(yīng)用目的和范圍,在權(quán)威數(shù)據(jù)上進(jìn)行性能基準(zhǔn)測試,制定用戶使用指南,并通過臨床試驗(yàn)驗(yàn)證有效性等。在模型部署后,也需持續(xù)監(jiān)管以適應(yīng)不斷變化的任務(wù)和環(huán)境[39]。