隨著5G和云計算技術(shù)的不斷發(fā)展,深度學(xué)習(xí)輔助決策軟件(以下簡稱AI軟件)得到越來越廣泛的應(yīng)用。AI軟件在影像數(shù)據(jù)的輔助評閱上有很大的應(yīng)用潛力,其處理速度快、病灶識別靈敏度高,對閱片經(jīng)驗不足的臨床醫(yī)生的工作能起到很好的輔助作用。
2019年7月,國家藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評中心發(fā)布全球關(guān)于人工智能醫(yī)療器械的技術(shù)審評要點(diǎn)——《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評要點(diǎn)》(以下簡稱《審評要點(diǎn)》),并于今年先后批準(zhǔn)了多款AI軟件產(chǎn)品。雖然我國在AI軟件上已經(jīng)進(jìn)行了一定程度的探索性應(yīng)用,但目前暫無具有病灶定位功能的影像輔助決策軟件獲批上市,如何對該類軟件進(jìn)行臨床評價值得探討。
與傳統(tǒng)診斷試驗類似
根據(jù)《審評要點(diǎn)》,申請AI軟件注冊應(yīng)提交基于臨床試驗的臨床評價資料。從臨床試驗角度出發(fā),AI軟件的臨床試驗本質(zhì)上是診斷試驗,因此,在試驗設(shè)計上與傳統(tǒng)診斷試驗具有相似特征。如今年8月獲批的“糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件”用于糖尿病視網(wǎng)膜病變的診斷,其主要指標(biāo)為靈敏度和特異度,而評價結(jié)果為簡單的二分類變量,即“患病”或“未患病”,臨床試驗設(shè)計特征與傳統(tǒng)診斷試驗基本一致。
若AI軟件針對的疾病不涉及病灶的定位要求,其臨床試驗設(shè)計較為簡單,采用傳統(tǒng)診斷試驗設(shè)計即可。若AI軟件針對的疾病具有病灶定位要求(如CT影像中對肺結(jié)節(jié)的識別及定位、內(nèi)鏡影像下對息肉的識別及定位等),則其臨床試驗與傳統(tǒng)診斷試驗設(shè)計存在一定差別,包括靈敏度的定義、ROC曲線的繪制、非完美金標(biāo)準(zhǔn)的校正等。如何合理地評價具有病灶定位功能的AI軟件產(chǎn)品的性能及臨床價值,是此類臨床試驗的重點(diǎn)與難點(diǎn)。
回顧性研究可作為重要參考
是否能采用回顧性研究進(jìn)行AI軟件臨床試驗是大部分申請人關(guān)注的重點(diǎn)之一?;仡櫺匝芯渴腔诂F(xiàn)有的評價數(shù)據(jù)對AI軟件的診斷性能進(jìn)行評價,這種試驗設(shè)計具有實施容易、成本低廉、試驗時間短等優(yōu)點(diǎn)。因此,回顧性研究是注冊申請人感興趣的臨床研究設(shè)計方式。
產(chǎn)品是否能進(jìn)行回顧性研究應(yīng)優(yōu)先根據(jù)其風(fēng)險級別進(jìn)行選擇。根據(jù)《審評要點(diǎn)》要求,對于安全級別為B、A級的中低風(fēng)險AI軟件,回顧性研究可用作預(yù)實驗或替代臨床試驗,而安全級別為C級的高風(fēng)險AI軟件,回顧性研究可作為預(yù)實驗,為臨床試驗設(shè)計提供參考依據(jù)。對于大部分具有病灶定位要求的AI軟件,其安全級別為C級。
除法規(guī)上的考量外,在臨床試驗方法學(xué)上,回顧性研究還存在一些難以避免的嚴(yán)重偏倚。因此,采用回顧性研究必須有嚴(yán)格的偏倚控制措施。
一般來說,由于回顧性研究存在固有缺陷,不對AI軟件采用回顧性研究進(jìn)行臨床評價,但回顧性研究在產(chǎn)品性能評價和為臨床試驗作參考時具有重要價值。
境外申請人通常較為關(guān)注是否能采用境外AI軟件臨床試驗數(shù)據(jù)進(jìn)行注冊申報。對于這個問題,《審評要點(diǎn)》有明確說明。其中,進(jìn)口AI軟件的研發(fā)和驗證應(yīng)當(dāng)優(yōu)先考慮人種及流行病學(xué)特征,一般來說,臨床影像在人種上的差異可能較小,境外申請人應(yīng)優(yōu)先關(guān)注流行病學(xué)方面的問題。包括相關(guān)疾病的流行病特征(如發(fā)病率、不同疾病類型的分布等)、疾病診斷差別(如臨床診斷指南的差異等)、不同國家和地區(qū)的醫(yī)療水平(如影像設(shè)備的水平差別)等。對于擬采用境外數(shù)據(jù)進(jìn)行申報的申請人,在提交境外數(shù)據(jù)之前應(yīng)考慮上述流行病學(xué)差異問題,并在提交資料前積極與國家藥監(jiān)局醫(yī)療器械技術(shù)審評中心溝通。
優(yōu)先考慮前瞻性研究
鑒于回顧性研究存在諸多難以控制的試驗偏倚,AI軟件的臨床試驗應(yīng)優(yōu)先考慮前瞻性研究,尤其是具有病灶定位能力的AI軟件產(chǎn)品。
按照《審評要點(diǎn)》要求,AI軟件的臨床試驗應(yīng)基于軟件預(yù)期用途、使用場景和核心功能進(jìn)行試驗設(shè)計。雖然不同的AI軟件針對的疾病類型各不相同,但其試驗設(shè)計和統(tǒng)計方法類似。
根據(jù)《審評要點(diǎn)》,入排標(biāo)準(zhǔn)應(yīng)基于目標(biāo)疾病的流行病學(xué)特征,保證陽性樣本和陰性樣本選取的合理性和充分性。在實際入選患者時,可結(jié)合產(chǎn)品的特點(diǎn)選擇具有特定特征的患者樣本。如針對肺結(jié)節(jié)識別的AI軟件,可選擇需進(jìn)行肺結(jié)節(jié)篩查的高危人群。
采用該方法入選的病例具有很好的樣本代表性,但該方法入組時間較長,成本較高;另一種比較折中的入選病例方法是有針對性地入選患者,由研究者根據(jù)患者體征、癥狀等綜合判斷其是否應(yīng)該接受影像檢查,該方法較有針對性,也是診斷試驗中比較流行的一種做法,但為進(jìn)一步避免選擇偏倚,在實施這種入組方法時應(yīng)在試驗方案中對每一種疾病類型/嚴(yán)重程度的樣本量比例進(jìn)行規(guī)定。
在評價指標(biāo)方面,根據(jù)《審評要點(diǎn)》的要求,原則上選擇靈敏度、特異度、ROC/AUC等作為主要評價指標(biāo)。對于用于病灶定位的AI軟件,其靈敏度應(yīng)在病灶水平上進(jìn)行統(tǒng)計。當(dāng)臨床試驗選擇用戶結(jié)合軟件聯(lián)合決策與用戶單獨(dú)決策進(jìn)行優(yōu)效對照設(shè)計時,可選用ROC/AUC作為主要評價指標(biāo)。此時,研究者需要在沒有AI軟件輔助的時候單獨(dú)找出影像上的病灶,并對這些病灶進(jìn)行5級把握度評分(肯定不是病灶、可能不是病灶、無法確定、可能是病灶、肯定是病灶),然后再在有AI軟件輔助的情形下,重新按上述方法進(jìn)行病灶評價。需要注意的是,采用此種方法進(jìn)行評價時應(yīng)注意閱片的隨機(jī)順序,以避免研究者的記憶偏倚。如有可能,建議可在兩次閱片之間設(shè)置一定的洗脫期。
診斷正確應(yīng)定義為在正確的位置上識別出正確的病灶。以閱片數(shù)據(jù)中對每個病灶的5級評分作為截斷值,即可建立相應(yīng)的ROC曲線。常見的曲線繪制方法有定位ROC曲線法(LROC)、因變量自由ROC曲線法(FROC)及感興趣區(qū)域ROC曲線法(ROIROC)等。
LROC要求研究者對圖像上某處至少一個病灶進(jìn)行把握度評級,然后選出有可能是病灶的區(qū)域,對于同一影像中的多個病灶,多出來的病灶不多加分。因此,該方法比較適用于患者病灶數(shù)目不超過1的情況。對于每例患者病灶數(shù)目超過1的情況,可采用FROC進(jìn)行評價。此時,曲線的縱坐標(biāo)為靈敏度(正確定位的病灶比例),橫坐標(biāo)為每個個體的平均假陽性數(shù)。ROI-ROC將檢測區(qū)域分為有臨床意義的ROI,如肺結(jié)節(jié)檢測時的五段肺葉、乳腺癌檢測時的左右乳房等,要求研究者識別并定位所有疑似病灶,并對這些病灶進(jìn)行把握度評分,然后將上述評分進(jìn)行ROI映射。若真實病灶被判定為“疑似”,則該處得分就是該ROI的得分;若真實病灶檢測出錯,則此時的ROI得分為低把握度。以上述ROI的不同分級為截斷值即可構(gòu)建ROC曲線,然后采用3級或4級作為截斷值即可構(gòu)建出相應(yīng)的靈敏度及特異度指標(biāo),對AI軟件的診斷性能作出綜合評價。
實際進(jìn)行病灶定位類AI軟件臨床試驗時,試驗方案中應(yīng)有全面的偏倚控制考慮,包括操作偏倚、評價偏倚等。臨床試驗結(jié)果的評價應(yīng)優(yōu)先采用第三方獨(dú)立評價的方式。同時,在統(tǒng)計上也應(yīng)對聚類數(shù)據(jù)、不完美金標(biāo)準(zhǔn)等進(jìn)行數(shù)學(xué)上的校正,以科學(xué)、合理地評價產(chǎn)品臨床性能。
作者:廣州奧咨達(dá)醫(yī)療器械技術(shù)股份有限公司招仲恒