資訊
頻道
當前位置:首頁 > 醫(yī)療器械資訊 > 業(yè)界動態(tài) > 積極構建智能化醫(yī)療器械技術測評體系

積極構建智能化醫(yī)療器械技術測評體系

文章來源:全球醫(yī)療器械網(wǎng)發(fā)布日期:2023-05-26瀏覽次數(shù):50
核心提示:人工智能醫(yī)療器械算法測評公共服務平臺與第三方測試數(shù)據(jù)庫間的數(shù)據(jù)交互、待測產(chǎn)品在平臺上的部署,均采用專用加密VPN通道,以保障數(shù)據(jù)庫和待測產(chǎn)品安全性。

測評技術研究工作組


測評技術研究工作組由中國信息通信研究院牽頭組建,并作為組長單位組織開展人工智能醫(yī)療器械數(shù)據(jù)質控和產(chǎn)品驗證等方面測評工作,研究數(shù)據(jù)質量要求及產(chǎn)品測評方法。


測評技術研究工作組基于人工智能醫(yī)療器械產(chǎn)品的發(fā)展現(xiàn)狀、技術特性,提出了一套測評體系,包括可落地實施的測評方法,以及全面指標體系和指標計算方式,能夠在一定程度上證明產(chǎn)品安全有效性,同時具有以下三點優(yōu)勢。


一是第三方數(shù)據(jù)庫具有樣本量豐富、信息量大、多維度等特點,能夠更好評估算法的泛化性。


二是人工智能技術具有數(shù)據(jù)驅動、更新迭代快等特點,在產(chǎn)品發(fā)生數(shù)據(jù)驅動型更新后,可以基于第三方測試數(shù)據(jù)庫驗證其算法性能是否發(fā)生變化。


三是可支持企業(yè)或第三方測評機構明晰網(wǎng)絡安全漏洞掃描過程及掃描方法。


融合人工智能等技術的醫(yī)療器械作為新興產(chǎn)品,具有數(shù)據(jù)驅動、快速迭代、高流通性等特點,傳統(tǒng)的基于軟件質量模型的測試方法不能實現(xiàn)對其安全有效性的全面驗證,急需建立面向智能化醫(yī)療器械的專有技術測評體系,規(guī)范技術標準。人工智能醫(yī)療器械創(chuàng)新合作平臺測評技術研究工作組(以下簡稱工作組)牽頭研究建設了一套包含測試公共服務平臺、產(chǎn)品性能標準、網(wǎng)絡安全漏洞掃描等在內的安全、權威、可追溯的測評體系,為監(jiān)管提供依據(jù),推動智能化醫(yī)療器械產(chǎn)業(yè)持續(xù)健康發(fā)展。


建立算法測評公共服務平臺


工作組建立了人工智能醫(yī)療器械算法測評公共服務平臺。目前,該平臺已與北京協(xié)和醫(yī)院建設的“糖尿病視網(wǎng)膜病變常規(guī)眼底彩色照相AI標準數(shù)據(jù)庫”對接,具備針對糖網(wǎng)AI輔助決策產(chǎn)品開展測評工作的能力,支持是否需要轉診、有無糖尿病視網(wǎng)膜病變(DR)、國際分期DR、是否合并其他病變、圖像質量等檢測需求。平臺能夠動態(tài)接入第三方測試數(shù)據(jù)庫,為不同的醫(yī)療AI產(chǎn)品提供測試環(huán)境,實現(xiàn)對醫(yī)療AI產(chǎn)品算法性能自動化測試并輸出測試報告。


該平臺采取分布式建庫模式,可靈活對接多個測評數(shù)據(jù)庫,通過整合第三方機構資源,充分保障數(shù)據(jù)庫來源的可信性和可靠性。分布式建庫將數(shù)據(jù)庫建設工作委托給第三方機構,能夠保障測評數(shù)據(jù)庫具有產(chǎn)權清晰、高質量、大規(guī)模、多元化、動態(tài)更新、擴展靈活、可持續(xù)發(fā)展等特點。平臺對接的“糖尿病視網(wǎng)膜病變常規(guī)眼底彩色照相AI標準數(shù)據(jù)庫”,在建庫過程中的各階段參與人員均完成了相應培訓并考核合格。該數(shù)據(jù)庫收集了來自全國8個省份共14個地區(qū)的真實世界數(shù)據(jù),共1.5萬張?zhí)悄虿』颊哐鄣撞收眨w目前市場上主要眼底照相機型;經(jīng)倫理審查和數(shù)據(jù)脫敏,數(shù)據(jù)標注和建庫流程均符合平臺相關質控要求,已于2020年7月17日作為人工智能醫(yī)療器械創(chuàng)新合作平臺成果發(fā)布。


人工智能醫(yī)療器械算法測評公共服務平臺與第三方測試數(shù)據(jù)庫間的數(shù)據(jù)交互、待測產(chǎn)品在平臺上的部署,均采用專用加密VPN通道,以保障數(shù)據(jù)庫和待測產(chǎn)品安全性。用于待測產(chǎn)品部署的VPN通道,設置了時效性限制,且遵循“只進不出”原則。整個測試過程在封閉的沙箱環(huán)境中完成,沙箱環(huán)境實現(xiàn)物理隔離;測試全流程實現(xiàn)自動化和加密化,遵循“無人工干預”原則。


該平臺可自動記錄每次檢測的完整過程及測試數(shù)據(jù)的元屬性,流經(jīng)檢測節(jié)點的所有關鍵數(shù)據(jù)記錄均可查,以保證測試可追溯。


起草產(chǎn)品性能指標和測試方法


工作組組織相關單位共同起草了《基于眼底彩照的糖尿病視網(wǎng)膜病變輔助決策產(chǎn)品性能指標和測試方法》和《基于胸部CT的肺結節(jié)影像輔助決策產(chǎn)品性能指標和測試方法》兩個技術文稿,目前已在人工智能醫(yī)療器械創(chuàng)新合作平臺上發(fā)布。文稿內容包括范圍、規(guī)范性引用文件、術語和定義、性能指標和測試方法五部分,用以指導人工智能醫(yī)療器械算法測評公共服務平臺開展相關產(chǎn)品的性能評測工作。兩個文稿均提出,人工智能醫(yī)療器械產(chǎn)品的性能指標分為兩部分,分別是臨床性能指標與其他性能指標。


其中,臨床性能指標分不同技術場景制定。全部場景可分為四類,分別是判別分類、目標檢測、圖像分割與定量計算,不同類型的產(chǎn)品有其中的一類或多類技術場景。例如,糖網(wǎng)輔助診斷類產(chǎn)品的技術場景為判別分類;大多數(shù)肺結節(jié)輔助診斷類產(chǎn)品的技術場景為目標檢測、圖像分割與定量計算,部分產(chǎn)品還包括判別分類。


其他性能指標分為三部分,分別是魯棒性、泛化性與可再現(xiàn)性。


魯棒性指系統(tǒng)在一定(結構、大?。┑膮?shù)攝動下維持某些性能的特性。測試方式為:抽取部分測試數(shù)據(jù)進行隨機的基本變換,來進行產(chǎn)品魯棒性的測試。其中,基本變換包括原圖邊長5%的裁剪、左右翻轉、上下翻轉、增加對比度(5%)、減少對比度(5%)、增加亮度(5%)、減少亮度(5%)、增加一定信號幅度的高斯白噪聲(5%)。實際測試過程中應至少包括其中三種變換,具體采取何種變換由產(chǎn)品聲稱選擇。進行基本變換的數(shù)據(jù)應占所有測試樣本量的10%。用變換后的測試數(shù)據(jù)及剩余未變換的數(shù)據(jù)灌入封閉沙箱,計算得到臨床性能指標結果,分析是否有統(tǒng)計學差異。


泛化性指算法對訓練集之外的樣本類別的預測能力。測試方式為:基于臨床性能測試,根據(jù)不同維度的數(shù)據(jù)屬性統(tǒng)計測試結果,分別計算不同屬性下的臨床性能指標,分析是否有統(tǒng)計學差異。例如,統(tǒng)計維度為不同地區(qū),則每一類數(shù)據(jù)屬性為中部地區(qū)、北部地區(qū)、南部地區(qū)等。具體統(tǒng)計維度可包括不同地區(qū)、不同采集設備廠商等。


可再現(xiàn)性指在算法測試環(huán)境和初始條件相同的情況下,算法對于相同或相似的數(shù)據(jù)集的不同測試結果之間的一致性。測試方式為:基于上次臨床性能測試使用的相同數(shù)據(jù)集進行第二次測試,所得到的臨床性能指標應不劣于上次測試結果。


編制網(wǎng)絡漏洞識別與評估方法文件


2022年11月,工作組編制的《醫(yī)療器械網(wǎng)絡安全漏洞識別與評估方法(征求意見稿)》在人工智能醫(yī)療器械創(chuàng)新合作平臺向社會征求意見。該文件旨在規(guī)范醫(yī)療器械網(wǎng)絡安全漏洞的評估過程和方法,指導相關單位開展網(wǎng)絡安全漏洞檢測工作,提升醫(yī)療器械網(wǎng)絡安全防護能力。


征求意見稿將網(wǎng)絡安全漏洞評估分為五個過程:


一是評估范圍分析。對于醫(yī)療器械網(wǎng)絡安全漏洞的評估,不僅針對醫(yī)療器械產(chǎn)品本身,還應綜合考慮產(chǎn)品實際使用時所處的運行環(huán)境,包括產(chǎn)品技術要求中所描述的必備軟硬件、運行環(huán)境等。


二是確定漏洞掃描策略。在進行網(wǎng)絡安全漏洞掃描之前,需要確定產(chǎn)品的結構和組成,根據(jù)不同的產(chǎn)品結構特點和組成類型,確定相應掃描檢測評估方法。


三是執(zhí)行漏洞掃描。通過發(fā)現(xiàn)目標網(wǎng)絡或主機,進一步搜集目標信息,包括操作系統(tǒng)類型、開放的端口、運行的服務、使用的協(xié)議類型等。根據(jù)搜集到的信息,由漏洞掃描工具向搜尋到的目標發(fā)送請求信息,分析返回信息,確定是否存在安全漏洞。


四是漏洞掃描檢測結果評估。在對醫(yī)療器械產(chǎn)品完成掃描檢測后,對掃描檢測的情況進行描述,記錄檢測過程中的信息,說明漏洞分布情況,輸出漏洞信息。


五是已知剩余漏洞的維護。根據(jù)掃描后已知的剩余漏洞及漏洞分布情況,注冊申請人針對剩余漏洞的具體信息、漏洞風險等級、漏洞出現(xiàn)的位置、漏洞修復的難易程度、漏洞修復的緊迫性等,綜合分析剩余漏洞對產(chǎn)品安全性方面的影響,確定網(wǎng)絡安全策略,制定漏洞維護方案。


推動研究成果落地應用


人工智能醫(yī)療器械算法測評公共服務平臺、醫(yī)療器械網(wǎng)絡安全漏洞檢測方法已支撐多款產(chǎn)品完成訓練優(yōu)化及測試驗證工作,為產(chǎn)品上市過程中的安全有效性評價提供有力支撐。


人工智能醫(yī)療器械算法測評公共服務平臺在應用過程中,根據(jù)產(chǎn)品類型與檢測需求提交檢測任務,測試數(shù)據(jù)庫根據(jù)檢測任務進行測試數(shù)據(jù)集準備,將抽取出來的測試數(shù)據(jù)分為影像數(shù)據(jù)與金標準數(shù)據(jù)標簽兩部分。影像數(shù)據(jù)與被測產(chǎn)品一同灌入封閉安全的測試環(huán)境,運行產(chǎn)品,產(chǎn)品輸出預測數(shù)據(jù)標簽,通過與金標準數(shù)據(jù)標簽進行對比,依據(jù)指標體系,計算各項性能指標。


對于醫(yī)療器械網(wǎng)絡安全漏洞檢測方法,現(xiàn)階段,工作組對網(wǎng)絡安全的研究工作主要集中在輔助治療、醫(yī)學影像處理等人工智能醫(yī)療器械軟件,以及有源類醫(yī)療器械,例如手術機器人、基因測序系統(tǒng)、持續(xù)葡萄糖監(jiān)測系統(tǒng)、病人監(jiān)護儀等。


以腹腔內窺鏡手術系統(tǒng)為例,其結構組成主要包括醫(yī)生控制臺、患者手術平臺、三維腹腔內窺鏡、影像處理平臺等,各個組成部分都是一個獨立的功能模塊,均含有各自的控制系統(tǒng),通過網(wǎng)絡連接進行協(xié)同工作。在產(chǎn)品設計上,醫(yī)生控制臺、三維腹腔內窺鏡、影像處理平臺多采用通用計算平臺,使用Windows或Linux系統(tǒng);患者手術平臺因其對實時性、可靠性、小型化等要求較高,通常采用嵌入式系統(tǒng),如嵌入式Linux、Vxworks、QNX等。在進行網(wǎng)絡安全漏洞掃描時,對于不同的結構單元,使用不同的掃描策略。如上述情形,在對醫(yī)生控制臺、三維腹腔內窺鏡、影像處理平臺進行掃描時,采用基于網(wǎng)絡的掃描方式,將檢測工具接入其內部網(wǎng)絡中進行掃描,以探測發(fā)現(xiàn)操作系統(tǒng)、組件、協(xié)議、數(shù)據(jù)庫、網(wǎng)絡系統(tǒng)等的漏洞;患者手術平臺采用嵌入式系統(tǒng),對其固件進行靜態(tài)掃描檢測,以逆向工程的方式發(fā)現(xiàn)二進制固件中存在的漏洞。