生存分析 PPT-软装分析ppt.ppt
- 文档编号:11670204
- 上传时间:2023-06-02
- 格式:PPT
- 页数:117
- 大小:2.09MB
生存分析 PPT-软装分析ppt.ppt
《生存分析 PPT-软装分析ppt.ppt》由会员分享,可在线阅读,更多相关《生存分析 PPT-软装分析ppt.ppt(117页珍藏版)》请在冰点文库上搜索。
生存分析survivalanalysis,医学研究中,为了解某种疾病(如慢性病、恶性肿瘤等)的预后及远期疗效、评价治疗方法的优劣或观察预防保健措施的效果等,常需对研究对象进行追踪观察,以获得必要的数据(如病人的生存时间、治疗后病情缓解情况及持续时间等),这类资料都属于随访资料。
随访资料是指对一批研究对象进行追踪观察所获得的有关其结局以及出现这种结局所经历的时间等方面的资料。
由于随访资料的分析最初起源于对寿命资料的统计分析,故称为生存分析,或称为生存时间分析。
2,何为生存分析,3,传统方法在分析随访资料时存在的困难1,随访结局和时间都成为了要关心的因素原有的疗效指标如有效率、治愈率等难以适用。
除了关注是否出现某种结局(如有效、治愈、死亡等),还要考虑出现这些结局所经历的时间长短。
如:
除了随访结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当被认为有效。
即时间延长也认为有效。
将两者均作为因变量拟合多元模型极为困难(“时间”分布不明,一般不呈正态分布,在不同情况下的分布规律也不同)。
4,传统方法在分析随访资料时存在的困难2,存在大量失访的资料失去联系(病人搬走,电话号码改变)无法观察到结局(死于其他原因)研究截止显然,无论是将失访数据算作“死亡”还是“存活”似乎都不大合理。
生存分析是将研究对象的观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。
并能充分利用所获得的信息,达到较准确、全面地评价和比较随访资料的目的,是临床试验和队列研究的一种重要分析手段。
5,生存分析的历史与应用,17、18世纪:
寿命表的提出及其应用。
1926年:
Greenwood提出评价生存函数的误差的方法Greenwood公式。
1958年:
生存函数的计算方法Kaplan-Meier法(乘积极限法product-limit)的提出。
1960年代中叶:
生存时间的组间比较方法的开发广义Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-ranktest,又称时序检验)Mantel,1966年。
1970年:
将协变量的影响模型化参数模型(假设生存时间服从Weibull分布、对数正态分布等);半参数模型(比例风险模型,又称Cox回归模型)Cox,1972年。
主要内容,概述生存分析的基本概念、资料要求生存率估计的非参数法乘积极限法、寿命表法生存率的比较Log-rank检验Cox比例风险回归模型,6,7,1概述,生存分析的方法已被广泛应用到医学研究领域,如现场追踪研究、临床疗效试验、疾病预后分析等,生存时间的涵义也随之扩展到更广义的范围,又称为时间-效应分析(time-effectanalysis)。
其研究内容主要包括:
对生存状况进行统计描述(生存概率、生存率、中位生存期等);寻找影响生存时间的“危险因素”和“保护因素”;估计生存率和生存时间长短,进行预后评价。
8,随访研究,例:
某医师收集了1992年1月1日到2001年12月31日10年间共346例手术后的大肠癌患者资料,以了解患者术后生存情况及其可能的影响因素。
表22-110年间346例手术后的大肠癌患者生存资料记录表,随访过程示意图,9,10,一、生存分析中的基本概念,1.起始事件、终点事件2.生存时间3.死亡概率、死亡率4.生存概率、生存率、生存函数5.生存率曲线6.中位生存期7.危险率函数,11,基本概念,
(一)起始事件、终点事件起始事件(initialevent):
反映研究对象生存过程的起始特征的事件。
如癌症患者接受某种特定的治疗、铅作业工人开始职业性铅接触等。
终点事件(endpointevent):
又称失效事件(failureevent),指研究者所关心的研究对象的特定结局。
如患者死于癌症、工人出现重症铅中毒症状等。
12,基本概念,
(二)生存时间定义:
广义的生存时间(survivaltime):
也称失效时间(failuretime),指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。
13,疾病确诊死亡疾病确诊痊愈治疗开始死亡治疗开始痊愈症状缓解疾病恶化接触毒物出现毒性反映接触危险因素发病出生出现第一颗乳牙开始戒烟(毒)再次吸烟(毒),起始事件,终点事件,随访时间,生存时间,14,基本概念,
(二)生存时间特点:
1.分布类型不易确定。
一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布等,多数情况下往往不服从任何规则的分布类型。
2.生存时间的影响因素多而复杂且不易控制。
15,基本概念,
(二)生存时间特点:
3.根据研究对象的结局,生存时间数据可分为:
(1)完全数据(completedata):
研究对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。
(2)截尾数据(截尾值、删失数据,censoreddata):
观察期内尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。
表示为“”,16,基本概念,
(二)生存时间特点:
3.根据研究对象的结局,生存时间数据可分两种类型:
(1)完全数据
(2)截尾数据截尾的原因失访:
生存但中途失访,包括拒绝访问、失去联系等。
退出:
中途退出试验、改变治疗方案、死于其它与研究无关的原因:
如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。
终止:
指观察期结束时仍未出现结局。
17,随访资料常见形式,18,基本概念,
(二)生存时间生存时间资料的收集与整理:
对于随访资料,需记录的原始数据包括开始观察的时点(起始事件发生的时间)、终止观察的时点、研究对象的结局、考虑的影响因素等。
生存时间t为反映时间长短的指标,属数值变量:
生存时间(t)=终止观察的时点开始观察的时点;结局变量反映终点事件是否发生,为二分类的变量。
通常用(t,)完整地表示一个观察对象的随访结果。
19,20,基本概念,(三)死亡概率、死亡率死亡概率(mortalityprobability):
是指某单位时段期初的观察对象在该单位时段内死亡的可能性大小。
若某时段内有删失,则分母用校正人口数:
21,基本概念,(三)死亡概率、死亡率死亡率(mortalityrate):
指单位时间内研究对象的死亡频率或强度,即平均每千人(或万人、百人等)中的死亡人数。
平均人口数=(该时段期初人口数+期末人口数)/2,22,基本概念,(四)生存概率、生存率、生存函数生存概率(survivalprobability):
表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。
若该时段内有删失,则分母用校正人口数。
23,基本概念,(四)生存概率、生存率、生存函数生存率(survivalrate):
指研究对象经历t个时段后仍存活的概率,即生存时间大于等于t的概率,用P(Tt)表示。
生存函数(survivalfunction):
生存率随时间t变化而变化,即生存率是相对于时间t的函数,记为S(t)。
生存函数在某时点的函数值就是生存率。
24,25,基本概念,(五)生存率曲线生存率曲线(survivalcurve):
指以时间为横轴、生存率为纵轴,将各个时点的生存率连接在一起的曲线图。
阶梯形:
小样本资料用直接法估计的生存曲线;折线形:
大样本资料用频数表法估计的生存曲线。
26,27,28,基本概念,(六)中位生存期中位生存期(mediansurvivaltime):
也称半数生存期,即生存时间的中位数,表示生存率等于50%时的时间。
反映生存时间的平均水平。
由于生存时间并非正态分布,故常用中位生存期作为某人群生存过程的概括性描述指标。
中位生存期越长,表示疾病预后越好;中位生存期越短,表示疾病预后越差。
利用生存曲线图或线性内插法估计,29,基本概念,(七)危险率函数危险率函数(hazardfunction):
指t时刻尚存活的研究对象死于t时刻后一瞬间的概率,为条件概率。
即活到t时刻的条件下在tt+t这一微时段内死亡的概率,用h(t)表示。
T为观察对象的生存时间危险率函数也称为死亡力(forceofmortality)、瞬时死亡率(instantaneousfailurerate)等。
30,危险率函数与生存函数的关系,31,h1(t)是一种上升的曲线,表示危险率随时间变化而增加,如急性白血病患者治疗无效其危险率随时间呈增加趋势;h2(t)的曲线为下降趋势,表示危险率逐渐减小,如意外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;h3(t)为一种稳定的危险率函数,如某些慢性病患者在稳定期,其危险率基本不变。
h4(t)为一种山峰型曲线,表示危险率先增大后降低。
32,二、生存分析对资料的基本要求,1.样本由随机抽样方法获得,要有一定的数量。
2.完全数据所占的比例不能太少,即截尾值不宜太多。
3.截尾值出现的原因无偏性。
为防止偏性,常需对截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析。
4.生存时间尽可能精确。
因为许多常用的生存分析方法都在生存时间排序的基础上作统计处理,即使小小的舍入误差也可能改变生存时间顺序而影响结果。
5.缺项要尽量补齐。
33,三、生存分析的方法,1非参数法:
其特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。
2参数法:
其特点是假定生存时间服从于特定的参数分布,根据已知分布的特点对影响生存时间的因素进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法等。
3半参数法:
兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,典型方法为Cox模型分析法。
乘积极限法(product-limitmethod):
小样本未分组资料寿命表法(lifetablemethod):
大样本分组资料,34,2生存率估计的非参数法,乘积极限法(product-limitmethod)是由Kaplan和Meier在1958年首先提出,故又称Kaplan-Meier法(K-M法)。
该法主要适用于样本含量较小的资料。
35,一、乘积极限法,例:
用某中药+化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访记录患者死前存活月数,结果如下。
试分别估计两组的生存率并绘制生存率曲线。
中药组(n=16):
102+12+13186+19+269+8+6+43+943124对照组(n=10):
2+137+11+61113177,乘积极限法估计生存率的步骤:
1.将n个样本观察值(生存时间t)由小到大依次排列,秩次i=1,2,n。
如非截尾值与截尾值相同,将非截尾值排在前面。
2.列出各时点(实为一短的时间单位)的死亡例数。
截尾值对应的死亡数为0。
3.列出各时点(实为一短的时间单位)开始时的存活数,即期初观察单位数ni。
36,乘积极限法,乘积极限法估计生存率的步骤:
4.计算各时点死亡概率q及生存概率p。
5.求活过各时点的生存率S(ti),等于从开始观察时点到ti时点各生存概率的连乘积。
37,乘积极限法,生存率的区间估计:
以上计算出的样本生存率是总体生存率的点估计,进一步求得各生存率的标准误,即可按照近似正态分布原理估计总体生存率的可信区间。
38,乘积极限法,39,40,绘制生存率曲线常绘制成阶梯形的曲线。
方法是将各非截尾值及其对应的生存率标在直角坐标纸上,然后将各点垂直向下再水平向右连成阶梯形。
41,乘积极限法,图16-2两种疗法治疗后白血病患者的生存率曲线,42,1.曲线阶梯形不能用直线或曲线连接相邻的两个生存率散点。
随着死亡时点增多,曲线的阶梯形逐渐不明显。
2.曲线左连续每一级台阶的右端为断点,当前死亡时点处的纵坐标值在下一个台阶。
3.曲线尾部不稳定随着时间的增加,观察例数越来越少,误差越来越大,曲线尾部极不稳定。
在多组比较时,常发生曲线尾部交叉现象,这很可能是因误差大而出现的一种假象。
此时可适当提前终止日期,使得最后一个死亡时点仍有一定的观察例数。
43,生存率曲线特点(乘积极限法),44,45,生存率,死亡率,生存率的标准误,死亡例数,生存例数,46,描述性统计量,47,48,完整数据,截尾数据,49,50,二、寿命表法,如果随访人数很多,原始资料可以按照生存时间分成不同组段得到各组段频数,这种大样本的分组数据通常可以用寿命表法来描述生存过程。
寿命表法(lifetablemethod):
采用编制定群寿命表的原理来计算生存率,首先求出患者在治疗后或健康者在预防措施后各时期的生存概率,然后根据概率的乘法法则,将各时期的生存概率相乘,即可得到自观察开始到各时点的生存率。
51,寿命表法,例:
某人对食管癌患者手术后随访的资料如下表
(1)(4)栏,用寿命表法估计生存率。
(1)术后年数t:
以术后为观察起点,按术后年数划分组段,如“0”组段指术后不满1年。
(2)期内死亡人数d:
表示相应时段内出现结局事件(如死亡)的人数。
(3)期内删失人数c:
表示相应时段内出现截尾(失访、死于它病或研究结束时尚存活等)的人数。
(4)年初观察人数n0:
表示各组段下限对应时点的观察人数。
52,寿命表法,(5)校正期初观察人数n:
n=n0-c/2(6)死亡概率q:
q=d/n(7)生存概率p:
p=1-q,53,(8)生存率S(t+1):
表示各组段上限对应时点的生存率,即研究对象活满t+1年的概率。
(9)生存率的标准误SES(t+1):
t+1年生存率的标准误为:
寿命表法,54,本例结果分析:
(1)动态变化:
从死亡概率一栏看,前3年死亡危险性逐年增加,而后呈下降趋势,生存概率从反面说明了这一结果。
(2)累积情况:
从第(9)列看,生存率的标准误都很小,说明生存率具有代表性;再看第(8)列的生存率,半数以上的病人术后活不到2年,提示此恶性肿瘤对生命威胁大。
可按用正态近似法估计总体生存率的置信区间。
如,本例手术后5年生存率的95%可信区间为:
0.11791.960.0226=(0.0736,0.1622)。
55,寿命表法,56,寿命表法,用寿命表法计算的频数表资料的生存率,绘制生存率曲线时应绘制成线图,即相邻两个时点的生存率之间用线段连接。
生存率曲线特点:
1.曲线折线形因不知道时段内生存率的变化规律,故用直线连接各端点,形成一条折线。
2.曲线连续可估计任意时点的纵坐标值(生存率)。
3.曲线尾部稳定性好寿命表法用于大样本,通常最后一个时段仍有一定的观察例数,故曲线尾部稳定性比K-M法好。
dataAA16;doc=0to1;doi=1to6;inputtf;output;end;end;cards;06816123831648523081723314050;proclifetestmethod=lifewidth=1plots=(s);timet*c
(1);freqf;run;,57,计算生存率的规定时间区间为1,t为横坐标S为纵坐标,TheLIFETESTProcedureLifeTableSurvivalEstimatesConditionalEffectiveConditionalProbabilityIntervalNumberNumberSampleProbabilityStandardLower,Upper)FailedCensoredSizeofFailureErrorSurvivalFailure01688229.00.29690.03021.0000012617153.50.39740.03950.70310.29692338387.50.43430.05300.42370.57633416147.50.33680.06860.23970.7603458031.00.25810.07860.15890.84115.23023.01.000000.11790.8821,58,生存率死亡率,SummaryoftheNumberofCensoredandUncensoredValuesPercentTotalFailedCensoredCensored233214198.15,59,60,3生存率的比较,生存率比较的假设检验方法有:
参数法、半参数法和非参数法非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。
常用的非参数法有:
log-rank检验(时序检验)似然比检验(likelihoodratiotest)wilcoxon检验(又称Breslow检验)。
61,log-rank检验(时序检验),时序检验由Mantel等人于1966年提出。
该法不指定生存时间服从某种特定的分布,所比较的是整个生存时间的分布,而不是仅仅比较某个特定时间点的生存率。
基本思想:
在无效假设成立的前提下,根据两种处理不同生存时间的期初观察人数和理论死亡概率计算出的理论死亡数(期望死亡数),应该与实际死亡数相差不大;如果相差较大,则无效假设不成立,可以认为两条生存曲线间的差异有统计学意义。
可用于两组或多组生存率曲线的比较。
62,log-rank检验(时序检验),例:
用某中药+化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访记录患者死前存活月数,结果如下。
试比较两组患者总体生存率。
中药组:
102+12+13186+19+269+8+6+43+943124对照组:
2+137+11+61113177,63,log-rank检验(时序检验),H0:
两组总体生存率曲线分布相同H1:
两组总体生存率曲线分布不同=0.05
(1)将两组资料的生存时间混合后统一排序,并按K-M法计算合并的死亡概率(第6栏);
(2)分别统计两组在各时点的期初观察人数(第7和9栏);(3)分别计算各单位时段内,H0假设成立下两组的预期死亡人数(第8和10栏),即用合并的死亡概率乘以相应的期初观察人数。
64,65,续表,66,dataAA16;doc=1to2;inputn;doi=1ton;inputtimecensor;output;end;end;cards;161012012013118160190261908060430914131124110201317011061111113117171;proclifetestplots=(s);timetime*censor(0);stratac;run;,定义分组变量,67,两条生存曲线的比较结果,68,生存曲线图,对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生存率然后进行比较,其基本原理与上述方法相同。
例203例急性脑血栓患者出院后随访资料如下,试比较3个年龄组脑血栓患者的总体生存率是否相同。
69,log-rank检验(时序检验),70,log-rank检验(时序检验),H0:
3个年龄组总体生存率曲线相同H1:
3个年龄组总体生存率曲线不同或不全相同=0.05列计算表,表中预期死亡人数。
如4059岁组的“0”组段:
。
71,按自由度k-1=2查2界值表,得P0.005,按水准拒绝H0,接受H1,可认为3个年龄组的总体生存率不等或不全相等。
72,注意,对于生存率比较的时序检验,计算方法有近似法和精确法两种,以上两例检验统计量的计算均为近似法,精确法计算时的分母是对应的方差估计量。
两种方法的结果在样本例数较小时稍有不同。
用log-rank检验对样本的生存率进行比较时,要求各组生存率曲线不能交叉,若生存率曲线交叉提示存在某种混杂因素,此时应采用分层的办法或多因素的办法来校正混杂因素。
另外,当假设检验推断各组总体生存率曲线不同时,可以通过生存率曲线的高低、半数生存期的长短及相对危险度等指标来评价其效果。
73,74,Log-rank精确检验法,上述方法为Log-rank近似计算方法,其计算结果与SAS软件结果存在差距,SAS软件的计算结果为Log-rank精确计算法的结果。
75,Log-rank精确检验法,4Cox比例风险回归模型,76,生存分析中一个很重要的内容是探索影响生存时间或生存率的危险因素,这些危险因素通过影响各时刻的死亡风险(即危险率)而影响生存率,不同特征的人群在不同时刻的危险率函数不同。
通常将危险率函数表达为基准危险率函数与相应协变量函数的乘积,即:
对于协变量函数f(X),最常用的是对数线性模型,即,77,h0(t)已知时,当基准危险率函数h0(t)已知时,为参数模型,如:
h0(t)=时,为指数回归模型;h0(t)=tr-1时,为Weibull回归模型;h0(t)=et时,为Gompertz模型。
78,h0(t)未知时,1972年英国生物统计学家D.R.Cox提出在基准危险率函数未知的情况下估计模型参数的方法,后人将这一模型称为Cox比例风险回归模型(Coxsproportionalhazardregressionmodel)。
由于该模型的参数估计不依赖于基准危险率的分布类型,故属于一种半参数模型。
一、Cox比例风险回归模型的基本形式,79,生存分析的主要目的在于研究协变量X与观察结果即生存函数之间的关系,当S(t)受到协变量的影响时,传统的方法是考虑回归分析,即分析各协变量对S(t)的影响,但由于生存分析研究的数据中包含有截尾数据,用一般的方法难以解决上述问题。
看下面的例子,80,例:
如果分析x1-x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线性回归方程?
或建立生存函数S(t)与影响因素间的线性回归方程?
t=b0+b1x1+b2x2+b6x6?
S(t)=b0+b1x1+b2x2+b6x6?
81,所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。
右侧可分为两部分:
h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。
82,Cox比例风险回归模型,Cox回归模型与一般的回归分析不同,它不是直接用生存时间作为回归方程的因变量,协变量对生存时间的影响是通过风险函数和基础风险函数的比值反映的,其中的风险函数和基础风险函数是未知的。
另外,偏回归系数的估计需要借助于偏似然函数的方法。
在完成参数估计的情况下,可对基础风险函数和风险函数做出估计,并可计算每一个时刻的生存率。
83,84,实例-胃癌患者预后,手术治疗(X1:
1施行手术治疗;0未施行手术治疗)放射治疗(X2:
1接受放射治疗;0未接受放射治疗)偏回归系数1、2的估计值分别为b1=0.360,b2=0.333,85,Cox回归模型的两个前提假设,各危险因素的作用不随时间变化而变化,即不随时间变化而变化;各危险因素之间不存在交互作用。
86,二、Cox回归分析的步骤,分析前的准备数据整理参数估计,拟合模型对模型的假设检验模型的解释及应用模型的拟合优度检验,87,88,1.分析前的准备数据整理,严密的研究设计收集资料:
影响疾病的因素、病人的个性及行为特征等资料(如病人的年龄、性别、职业、是否饮酒、是否吸烟及病情、病理类型等资料)、研究对象的生存时间和截尾指示变量(一般用变量t表示生存时间,用变量d表示是否截尾)。
资料应尽量避免偏性及主观因素的影响。
样本含量:
不宜过小。
一般情况下,样本例数应为分析因素的5-20倍。
数据预处理:
如数据的变换、日历数据与生存时间的转化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生存分析 PPT-软装分析ppt 生存 分析 PPT