生存時間數(shù)據(jù)分析的一個重要內(nèi)容是模型擬合或分布擬合,描述生存時間分布的模型通 常有指數(shù)分布、Weibull分布、對數(shù)正態(tài)分布、Gamma分布等,常見生存時間分布的概率密度 函數(shù)f(t)、生存函數(shù)S(t)和風險函數(shù)h(t)見表17-4。實際對生存數(shù)據(jù)作分布擬臺時,可用上述模型分別進行擬合,根據(jù)擬合優(yōu)度檢驗的結(jié)果選擇適當?shù)哪P汀5?,對于一批生存?shù)據(jù),事先不知道生存時間分布的總體趨勢,也不好判斷應該用什么樣的模型合適,遣時許多研究者一般直接采用非參數(shù)方法或半?yún)?shù)法。 但是,如果一批數(shù)據(jù)確實符合某特定的參數(shù)模型,由于非參數(shù)方法的精度一般低于參數(shù)方法,因此,按照非參數(shù)方法進行的分析就不能有效地利用和闡述樣本數(shù)據(jù)所包含的信息,同時它對樣本量的要求也高于參數(shù)方法。
(一)指數(shù)模型
指數(shù)分布是一種純隨機死亡模型,在任何時間上的風險函數(shù)為一常數(shù).即風險函數(shù)的大小 不受生存時間長短的影響,以獨特的“無記憶性”而聞名。λ為指數(shù)分布的風險率,稱為刻度參數(shù)或尺度參數(shù).其大小決定了生存時間的長短。風險率越大,生存率下降越快,生存時間越短;風險率越小,生存時間越長。
(二)Weibull模型
Weibull分布也是生存分析的理論基礎,由瑞典科學家Waloddi Weibull提出。Weibull分布是指數(shù)分布的一種推廣形式,它不像指數(shù)分布假定危險率是常數(shù),因而有更廣的應用性。 λ和γ為兩個參數(shù)。λ稱為尺度參數(shù),它決定分布的分散度;γ為形狀參數(shù).它決定該分布的形態(tài)。γ>1時風險函數(shù)隨時間單調(diào)遞增;γ<1時風險函數(shù)隨時間單調(diào)遞減;顯然,當γ=l時,風險不隨時間變化,Weibull分布退化為指數(shù)分布,所以指數(shù)分布是Weibull分布在γ=l時的特例,
(三)Gamma模型
生存分析討詒兩類不同的Gamma模型:標準Gamma模型(2參數(shù))和廣義Gamma模型(3參數(shù))。標準Gamma分布的特性取決于兩個參數(shù)γ和λ,γ為形狀參數(shù),λ為尺度參數(shù)。 當0<γ<1時,若時間從0增加到無窮時,風險函數(shù)從無窮單調(diào)地減小到γ,表現(xiàn)為負老化; 當γ>1時,若時間從0增加到無窮時,風險函數(shù)從0增加到λ,表現(xiàn)為正老化;當γ=1時,風 險等于常數(shù)γ,即指數(shù)分布情形。 廣義Gamma模型比我們之前考慮的其他模型多一個參數(shù),它的風險函數(shù)可呈現(xiàn)更多的形狀。特別地,它可以是U形或浴盆形的風險函數(shù),在這樣的函數(shù)中風險先下降,下降到小 值后又升高。眾所周知,人類在整個生命周期中的死亡危險性就屬于這種形狀。 一般地,似然比統(tǒng)計量用于比較嵌套模型。如果限制模型B中的參數(shù)可得到模型A,那么 模型A嵌套于模型B。比如,指數(shù)模型同時嵌套于Weibull模型和標準Gamma模型。當Weibull模型的γ=1時,或當標準Gamma模型的形狀參數(shù)和尺度參數(shù)都=1時,便得到指數(shù) 模型。如果模型A嵌套于模型B.可以通過取兩模型對數(shù)似然值的正差值的2倍來評價A模 型的擬合優(yōu)度。 廣義Gamma分布是一個相當靈活的三參數(shù)分布族,指數(shù)模型(λ=γ=1)、Weibull模型(γ=1)和標準Gamma模型(λ=γ)都是廣義Gamma模型的特例??蓳?jù)此進行參數(shù)回歸模 型的擬合優(yōu)度檢驗。
【例17-5】在17年里追蹤調(diào)查了149位糖尿病患者,數(shù)據(jù)見表17-5。變量及其賦值如下,試進行患者生存剛目的影響因素分析并進行生存預測。 結(jié)局(status ,l表示死亡,0表示截尾);生存時間(t,年);隨訪開始時年齡(agel,歲);體重指數(shù)(BMI;診斷出糖尿病時的年齡(Age0,歲);吸煙狀況(smk,0表示不吸煙;l.表示曾吸煙;2.表示吸煙);收縮壓(SBP,mmHg);舒張壓(DBP,mmHg);心電圖讀數(shù)(ECG,0表示正常;1表示可疑;2表示異常);病人是否有冠心病(CHD,0表示無;1表示有).
考慮到例17-5中收縮壓和舒張壓兩個變量有一定的相關(guān)性,數(shù)據(jù)分析時取平均血壓 (MBP),即令MBP=SBP* (1/3)+DBP* (2/3)。程序名為CT17-5。
PROC LIFEREG過程對生存數(shù)據(jù)擬合參數(shù)模型,其大特點在于可以處理右截尾、左截 尾或區(qū)間截尾數(shù)據(jù).同時含有豐富的生存分布形式,特別是其中的廣義Gamma分布可以進行許多其他概率分布的似然比擬合優(yōu)度檢驗。 CLASS語句用于說明分類變量。 MODEI.語句指出哪些變量用于該模型的回歸部分以及模型的誤差項或隨機項的分布是 什么。MODEL語句可用的選項:
(1) DISTRIBUTIONI DISTID—distribution-type(分布的類型).說明生存時間的分布型。exponential,weibull,Gamma.normal,Inormal,Logistic,Logistic指定指數(shù)分布、Weibull分布、Gamma分布、正態(tài)分布、對數(shù)正態(tài)分布、Logistic分布和對數(shù)Logistic分布。
(2)NOLOG要求不對反應變地進行對數(shù)變換,缺省時LIFEREG過程對反應變量進行對數(shù)變換。
(3)SCALE=value(值),要求尺度參數(shù)以這個值作為初始值。
(4)NOSCALE要求尺度參數(shù)固定。
(5)SHAPI:1= value(值),要求形狀參數(shù)用規(guī)定的value值為初始值。 (6)NOSHAPEI要求個形狀參數(shù)SHAPE1保持固定。 OUTPUT語句創(chuàng)建一個新SAS數(shù)據(jù)集,它包含模型擬臺之后計算的統(tǒng)計量。 OUTPUT < OUT=SAS-data-set > keyword=nameOUT=SAS-data-set(SAS數(shù)據(jù)集).命名輸出數(shù)據(jù)集。keyword - name(關(guān)鍵同一名 字),規(guī)定在OUTPUT數(shù)據(jù)集中包含的統(tǒng)計量(如下).并給出包含這些統(tǒng)計量的新名字。
①CONTROL在輸人數(shù)據(jù)集中命名用于控制分位數(shù)估計的變量。
②PREDJCTEDIP,命名存放分位數(shù)估計結(jié)果的變量。缺省時計算第50百分位數(shù)即中位 生存時間。
③QUANTILES | Q,給出所要求汁算的分位數(shù)列表。
④STD_ERR | STD,命名存放分位數(shù)標準差估計結(jié)果的變量。
⑤XBETA命名存放分位計算結(jié)果的 變量。 LIFEREG過程也可以得到原始數(shù)據(jù)集外其他枷變撾值所列應的預測值。模型擬合 前,將這些協(xié)變班值附加在原數(shù)據(jù)集后,生存時間設置為缺失值。這樣這些觀測不用于模 型擬臺,但可生成它們的預測值。如果只需要幾個觀察值(真實值或假想值)的預測,則 生成一個變量如USE,若需要預測,則該變 量=l;否則,該變量=0。OUTPUT語句中 包括CONTROL=USE。
主要分析結(jié)果及解釋:
以下是程序CTl7-5輸出的主要結(jié)果及其解釋。
在PROC LIFEREG中沒有直接擬合標準Gamma模型的方法,但PROC LIFEREG可以將尺度參數(shù)和形狀參數(shù)設定為特定值。若擬合標準Gamma模型,可試用許多不同的值(比如用直線搜索法),直到找到一個能使對數(shù)似然值達到大的共同的尺度參數(shù)和形狀參數(shù)。本倒 不再嘗試。 現(xiàn)比對3個模型的擬合效果,可采用似然比檢驗,似然比統(tǒng)計量的公式為:
式中χ2v服從自由度為v的χ2分布,−2logLq和− 2logLq+v分別為含q和q+v個參數(shù)的模型的對數(shù)似然函數(shù)值。因Weibull分布包含兩個參數(shù),指數(shù)分布包含1個參數(shù).廣義Gamma分布包含3個參數(shù),標準Gamma分布包含2個參數(shù)。所以,各種分布擬合效果有無差異的假設檢驗結(jié)果可匯總?cè)缦?,見?7-6。
17. 6kPa(132mmHg),舒張壓(DBP)12. 8kPa(96mmHg),心電圖讀數(shù)正常,預測此類患者的中位生存時間為28.7年。第2號患者隨|方開始時年齡(agel)49歲,收縮壓(SBP)17.3kPa(130rnmHg),舒張壓(DBP)9. 6kPa(72mmHg),心電圖讀數(shù)正常,預測此類患者的中位生存時間為32.5年。其他依此類推。