Logistic回归模型和生存分析简介PPT推荐.ppt
- 文档编号:7565323
- 上传时间:2023-05-08
- 格式:PPT
- 页数:53
- 大小:3.44MB
Logistic回归模型和生存分析简介PPT推荐.ppt
《Logistic回归模型和生存分析简介PPT推荐.ppt》由会员分享,可在线阅读,更多相关《Logistic回归模型和生存分析简介PPT推荐.ppt(53页珍藏版)》请在冰点文库上搜索。
出现较多0的单元Logistic回归模型单元为0的信息可以利用;
自变量可以是连续性变量基于线性回归模型的思想发展而来,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,5,模型简介,应变量为0/1变量的Logistic回归模型在冠心病可疑危险因素的研究中,记录下每个研究对象的p个自变量(年龄、性别、饮酒等),记为x1,xp。
随访一段时间,如果发生冠心病,应变量y记为1,如果没有发生冠心病,y=0。
可以观察到,不同的x1,xp的研究对象,冠心病的发生概率P(y=1)不同,如果我们希望依据随访得到的这组数据建立一个描述自变量x1,xp与冠心病的发生概率P(y=1)间关系的回归方程,并根据建立的回归方程进行预测,对各个自变量的作用大小和方向作出评价,如何实现?
我们首先想到的是能不能用线性回归模型来实现?
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,6,模型简介,存在的问题1.模型两边的值域不同:
左边概率0,1,右边-,;
2.应变量概率P与自变量间通常不存在线性关系解决办法:
Logit变换应变量取值区间的变化-问题1的解决P=0logitP=ln(0/1)=-P=0.5logitP=ln(0.5/0.5)=0P=1logitP=ln(1/0)=+实践证明,logitP往往和自变量呈线性关系-问题2的解决,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,7,模型简介,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,8,模型简介,模型名称的来源:
Logistic这个名称来源于它对应变量所采用的logit变换,和英文单词Logistic的含义(后勤的)一点关系都没有,与逻辑就更不相干模型用途筛选危险因素校正混杂因素预测与判别(判别分析),2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,9,模型中参数的估计与意义,模型参数的估计方法由于应变量为二分类,所以误差项服从二项分布,而非正态分布。
最小二乘法不适用,最大似然法,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,10,模型中参数的估计与意义,模型中参数的意义0-常数项自变量取值全为0时的基线状况,未必有实际意义;
比数(Y=1与Y=0的概率之比)的自然对数值;
病例对照研究中,病例与对照两组人数的比例是人为定的,不能代表人群中真实的病人与正常人比例,因此该常数项不是各自变量取值为0时人群患病比的估计值的对数。
因此根据病例对照研究资料建立的Logistic回归模型中,常数项意义不大,主要针对结果中自变量的偏回归系数及其转换成OR值的意义作解释,不适宜直接用于预测和判别。
如希望进行预测,则需知道人群中真实的患病率P。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,11,模型中参数的估计与意义,ii和多重线性回归模型中系数的解释一样,偏回归系数;
代表固定其它Xj时,Xi改变一个单位引起logitP平均值的改变量;
在实际应用中,可以为这些系数找到更加贴近实际的解释,比数比(OddsRatio,OR)=exp(i):
Logit变换的优势当其它自变量(Xj)取值保持不变时,Xi取值增加一个单位引起OR自然对数值的变化量,因此在使用上OR值要远比i本身更常用,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,12,模型中参数的估计与意义,(X1增加一个单位),2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,13,模型与参数的假设检验,1.似然比检验模型(两个模型拟合效果的比较)及偏回归系数的假设检验假设模型1含有较少自变量,模型2含有较多自变量,检验的H0:
模型1与模型2的拟合效果无差异似然比检验统计量:
,即两个模型负二倍对数似然函数值之差,G反映的是模型2较模型1拟合优度提高的程度。
当样本量较大时,在H0成立的情况下,G服从卡方分布,自由度为2个模型的变量个数之差,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,14,模型与参数的假设检验,2.Walds检验模型中回归系数的假设检验在SPSS输出的结果中,关于值的所有检验都是Walds检验该检验基于值服从正态分布的假设,首先求出值的标准误,然后基于正态分布原理求出P值进行检验模型中参数可信区间的估计就是基于Walds检验来的;
常用于模型中变量的剔除,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,15,模型与参数的假设检验,3.记分检验模型中回归系数的假设检验及两个模型拟合效果的比较以未包含某一个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导数(又称有效比分)及信息矩阵;
记分检验统计量Score=S(COV)S列向量S是对数似然函数的一阶偏导数,S是行向量COV是模型的方差协方差矩阵当样本量较大时,Score服从卡方分布常用于模型中变量的纳入,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,16,模型与参数的假设检验,三种假设检验方法似然比检验是基于整个模型的拟合情况进行的,结果最可靠;
记分检验结果一般与似然比检验一致Walds检验没有考虑各因素的综合作用,当因素间存在共线性的时候,结果不可靠。
在筛选变量时,用Walds法应慎重;
另外,由于参数的可信区间也是基于该检验算得的,故以95%可信区间来筛选变量也应慎重,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,17,模型的拟合优度,-2lnL:
越小越好伪决定系数:
基于对数似然值而来,类似于线性回归模型中的决定系数模型预测的正确率和ROC曲线Hosmer-Lemeshow统计量:
LackofFittestH0:
nolackoffit自变量中有连续性变量仅适用于0/1应变量,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,18,Logistic回归模型中的高级话题,哑变量偏回归系数表示其它自变量Xj不变,Xi每改变一个单位,所导致logitP的平均变化量x为连续性/二分类变量:
没有问题x为多分类变量:
不太合适无序多分类:
民族,各族之间不存在大小问题有序多分类:
家庭收入分为高、中、低三档,它们之间的差距无法准确衡量在以上这些情况时,我们就必须将原始的多分类变量转化为数个哑变量(DummyVariable),,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,19,Logistic回归模型中的高级话题,哑变量每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义对于取值具有n个水平的自变量Xi,可以生成n-1个哑变量模型中哑变量遵循“同进同出”的原则,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,20,Logistic回归模型中的高级话题,Logistic回归模型只能用于应变量为0/1变量的资料?
有序多分类的Logistic回归模型(e.g.累积Logit模型)无序多分类的Logistic回归模型,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,21,Logistic回归模型中的高级话题,Logistic回归模型非条件Logistic回归模型:
0/1;
有序多分类;
无序多分类条件(配对)Logistic回归模型:
分层的Cox比例风险模型,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,22,分析实例,Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,数据间文件logistic_step.sav,应变量为出生的婴儿是否为低体重婴儿(变量名LOW,1表示低出生体重2500g),考虑的影响因素有:
1.产妇怀孕前体重(1wt,磅);
2.产妇年龄(age,岁);
3.产妇在怀孕期间是否吸烟(smoke,0表示不吸烟);
4.本次怀孕前早产次数(ptl,次);
5.是否还有高血压(ht,0表示未患高血压);
6.子宫对按摩、催产素等刺激引起收缩的应激性(ui,0无应激性);
7.怀孕前3个月社区医生随访次数(ftv,次)8.种族(race,1白人,2黑人,3其它种族):
哑变量,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,23,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,24,Logistic回归模型LogitP=Ln(P低出生体重/P非低出生体重)=0.893-0.015*产妇怀孕前体重lwt+0.728*本次怀孕前早产次数ptl+1.789*是否患有高血压ht危险因素:
ptl;
ht保护因素:
lwt,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,25,生存分析简介,生存分析概述基本概念生存率的估计生存曲线的比较Cox比例风险模型,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,26,生存分析概述,疾病的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。
如果病人的结局都为死亡,但活的时间长短不一样,那么活的时间长的病人其预后相对较好,这类资料一船通过随访收集。
生存时间和生存结局都成为了要关心的因素:
应变量有两个只考虑生存时间:
时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟和模型有困难只考虑生存结局:
如死亡/未死亡(Logistic),没有利用生存时间的有用信息;
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,27,生存分析概述,大量失访:
失去联系(病人搬走,电话号码改变);
无法观察到结局(死于其他原因);
研究截止将失访数据无论是算作死亡还是存活似乎都不大合理生存分析的特点与局限在针对结局比较凶险,即总体生存时间都比较短的疾病的研究中,生存分析比只考虑结局,不考虑时间因素的Logistic模型等方法的研究效率要高得多。
如果相应疾病的结局都非常好,比如几乎人人都可痊愈的感冒,生存分析的利用价值也许并不大,除非是特殊情况,否则感冒晚好两天对医生或病人来说根本没有多大影响,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,28,生存分析概述,生存分析的主要研究内容1描述生存过程(单样本):
研究人群生存状态的规律,如生存时间的分布特点,计算某个时间点的生存率、生存率曲线的变动趋势等;
2比较不同人群的生存过程(两/多样本):
比较不同人群的生存状况,进行两组或多组生存率的比较;
3.分析影响生存过程的相关因素:
比较不同人群的生存状况,进行两组或多组生存率比较,以了解哪些因素会影响目标人群的生存过程,这是生存分析方法最重要的研究内容,在临床医学中应用的非常广泛。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,29,生存分析概述,生存分析的方法参数法要求观察的生存时间t服从某一特定的分布,采用估计分布中参数的方法获得生存率的估计值生存时间的分布可能为指数分布、Weibull分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。
只需求出相应参数的估计值,即可获得生存率的估计值和曲线非参数法实际工作中,多数生存时间的分布不符合上述所指的分布,少用参数法,多用非参数法与以往所学的非参数法一样,假设两组或多组的总体生存曲线分布相同,而不考虑总体的分布形式和参数如何。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,30,生存分析概述,半参数法只规定了影响因素对生存率的影响规律,但是没有对生存时间(和基线风险函数)的分布情况加以限定主要用于分析生存率的影响因素,属多因素分析方法,其典型方法是Cox比例风险模型,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,31,基本概念,1.起点事件与终点事件起点事件:
研究者根据研究目的设定的开始关心某一事件的起点,如“某疾病的确诊”、“治疗结束”、“某电子设备的开始使用”等;
(广义的概念)终点事件/失效事件:
观察到随访对象出现了预先规定的结局终点事件的确定是生存分析的基础,必须绝对准确失效事件应当由研究目的而决定,并非一定是死亡(如病例的死亡、疾病的痊愈、某电子设备出现故障),而死亡也被并非一定是发生了失效事件(如肺癌患者死于车祸)。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,32,基本概念,起点事件与终点事件是相对的都是由研究目的决定的,须在研究设计时就明确规定,并在研究期间严格遵守而不能随意改变;
不同的研究目的有不同的终点事件,如果研究的是肿瘤的局部复发情况,那么死于肿瘤远处转移只能算做截尾,而不是终点事件;
在一项研究中,可以设定开始治疗为起点事件,痊愈为终点事件,而在另一项研究中,可以把痊愈作为起始事件,而把第一次复发作为终点事件。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,33,基本概念,2.生存时间/失效时间从某起点事件开始到被观测对象出现终点事件或失访前最后一次的随访时间记录所经历的时间,包括三个要素:
起点、终点和时间尺度(天、周、月、年等),如从疾病“确诊”到“死亡”;
从“治疗结束到痊愈”;
电子设备从“开始使用”到“出现故障”等一般情况下应尽量以个体为单位采用较细的时间单位来记录,但在许多大型的随访中,不可能做到按个体记录,常见的是按固定的时间段记录有多少人失访、多少人发生失效事件,此时收集到的资料被称为分组生存资料不服从正态分布,右偏、非负,包括完整生存时间和删失生存时间,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,34,基本概念,3.删失值/截尾值终止随访不是由于终点事件发生,而是失访造成,常加符号“”表示。
生存但中途失访:
包括拒绝访问、失去联系或中途退出试验死于其它与研究无关的原因:
如肺癌患者死于心梗、车祸随访截止:
随访研究结束时观察对象仍存活左删失、右删失和期间删失左/右删失:
期待结局发生的时间未知,只知道发生在某一时点之前/后期间删失:
期待结局发生的时间未知,只知道发生在某两时点之间,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,35,基本概念,4.生存概率与生存率(生存曲线)生存概率:
记为p,是指在某段时间开始时存活的个体至该时段结束时仍存活的可能性大小生存率:
累积生存概率,指某个观察对象活过t时刻的概率,常用P(xt)表示,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,36,基本概念,生存率和生存概率虽然仅1字之差,但含义却是不同的。
生存概率是针对单位时间而言的,而生存率是针对某个较长时间段的,是生存概率的累积结果。
如评价肿瘤预后常用的5年生存率,是指第1年存活、第2年存活、直到第5年仍存活的累积概率,而这5年间每1年有不同的生存概率。
5.中位生存时间当累积生存概率为0.5时所对应的生存时间,表示有且只有50%的个体可以活过这个时间如果无失访,其估计值等于50%死亡,还有50%人存活的时间如果存在失访,其估计值不等于样本中还有一半人存活的时间由于生存时间分布为正偏态,其估计值不会等于均数,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,37,生存率的估计,描述生存过程为什么不用普通的率计算方法进行估计?
由于存在大量的失访,直接使用该时点的存活人数进行生存率的计算会严重低估生存率这样计算出来的标准误也不准确这里介绍的为基本的非参数方法,没有对生存时间的分布S(t)做任何假定,计算结果最为稳妥,但也最为粗糙Kaplan-Meier法(小样本的精细记录)寿命表法(大样本的粗略记录),2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,38,生存率的估计,Kaplan-Meier法乘积极限法:
最基本的一种生存分析方法,非参数方法主要用于小样本资料,难以将生存时间按组段划分,利用tk时刻之前各时点上生存概率的连乘积来估计在时刻tk的生存率,不需要对被估计的资料分布作任何假设(也可用于大样本资料)假定病人在各个时段生存的事件独立,生存概率为p,则应用概率乘法得生存率估计的应用公式为:
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,39,生存率的估计,Kaplan-Meier法分析实例一组10例病人的生存时间(日)如下,用Kaplan-Meier法估计其生存曲线(+代表截尾)3,5,5,6+,8,16+,22,30,47+,71,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,40,生存率的估计,寿命表法在大型研究中,因条件限制,往往无法对每一个人做到详细跟踪、及时记录结果,只能按一定的时间间隔记录随访情况,此时收集到的资料就是分组的生存资料,相应的分析就被称为分组资料的生存分析寿命表法(大样本资料)基本思想资料是以分时间段的形式收集,对于每个时间段,由于没有更多信息,只能假设死亡事件是在该时间段内均匀出现的,即生存率匀速下降,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,41,生存率的估计,寿命表法分析实例现有68名心脏移植后的病人追踪观察记录,其生存天数从移植的第一天算起,请计算它们的生存率,并绘制生存曲线。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,42,生存率的估计,寿命表法适用于大样本或无法准确得知研究结果出现时间的资料,K-M法主要用于小样本,也可以用于大样本;
寿命表法是按照指定的时段来分段,估计的是时间区间右端点上的生存率,分析的重点是研究总体的生存规律;
K-M法根据死亡时点分段,逐个估计死亡时点的生存率,分析的重点除了研究总体的生存规律外,往往更要寻找相关影响因素;
寿命表法不能确切得知死亡时间,假定每个时间段中的“死亡”是呈均匀分布,生存率为线性变化,故简单化以直线相连接;
K-M法其生存曲线是左连续的阶梯型曲线,间断点的纵坐标在下一阶处,当样本量较大及死亡时点较多时,阶梯形不明显。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,43,生存曲线的比较,如果我们将患某种肿瘤的病人分成两组,一组给予化疗,另一组给予化疗加放疗。
那么,我们一定想知道哪一种疗法更有效,使病人存活的时间更长。
若两组病人的生存率不同,在统计学上是否有意义?
若用Kaplan-Meier曲线绘制两条曲线,表示两组病人的生存状况,这两条曲线的差异是抽样误差所致,还是本质上的差异,为了回答上述问题,这就需要进行统计学检验。
非参数方法:
不强行假定生存时间的分布情况,仅仅比较不同人群生存时间的分布位置是否重叠,适用范围更广,也最为常用Log-Rank检验Breslow检验,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,44,生存曲线的比较,原理:
本质为大样本卡方检验,在观察对象按时间排序后,利用全部时间点上死亡数的观察值和理论值的差值构造卡方统计量基本思想如果两总体生存曲线无差别,根据不同时间两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数,所有的死亡人数应当在两组间均匀分配如无效假设成立,则实际死亡数与理论死亡数不会相差不大,否则认为无效假设可能不成立,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,45,生存曲线的比较,Log-Rank检验Breslow检验,(Nj每一时间点上的总观察数),2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,46,生存曲线的比较,分析实例某医生收集23例晚期肺癌患者在接受化疗后的生存时间t(月),按接受治疗方案的不同划分为2组(1为常规方案,2为新方案),问不同的治疗方案对其生存时间长短的影响有无显著性差异。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,47,生存曲线的比较,注意当在不同时间段内生存曲线出现明显交叉,则可以考虑分段分析,或者多因素方法Breslow检验更注重生存曲线的开始阶段,因为它的权重是每一生存时刻两组的总观察例数,在开始阶段总有较多的观察对象,这样生存早期有较大的权重,对两个生存分布的早期差别更敏感,而生存末期,被观察对象较少,权重也变少,因此晚期没有Log-rank检验敏感;
Log-rank检验对所有的生存时间均给予了相等的权重,由于末期生存观测对象数量减少,这样相对强调生存曲线的末期阶段。
二者给出的结果是相似的,但不完全相等。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,48,Cox比例风险模型,为了纪念英国统计学家Cox的贡献,统计学家把它称为Cox比例风险模型半参数模型与参数模型相比,该模型不能给出各时点的风险率,但对生存时间分布无要求,可估计出各研究因素对风险率的影响,因而应用范围更广,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,49,Cox比例风险模型,Cox比例风险模型:
在k个影响因素同时影响生存过程的情况下,假定它们在随访期间的取值不随时间而变化,在时点t的风险函数:
RH(t)就是相对危险度RR或风险比riskratio,Cox模型假定其大小与时间t无关,即等比例风险假设,简称PH假设,比例风险模型(proportionalhazardmodel);
h(X,t)由两部分组成:
h0(t)不要求特定的形式,具有非参数方法的特点,而exp()部分的自变量效应具有参数模型的形式,所以Cox回归属于半参数模型。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,50,Cox比例风险模型,t表示生存时间;
具有自变量X的个体在t时刻的风险函数,表示这些个体在t时刻的瞬时危险率;
称为基线风险函数/基准风险率,表示所有自变量X=0时的个体在t时刻的基准风险情况(相当于发病密度或死亡密度);
参数i的含义:
总体偏回归系数,其估计值为bi,可以从样本中计算得出。
假设危险因素x为0/1变量:
非暴露组取值0,暴露组取值1,那么,上面得到的暴露组与非暴露组的危险率之比正是流行病学中的RR,i在0/1变量的含义是RR的自然对数;
如果x为连续性变量,假设其取值为k与k+1,那么,2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,51,Cox比例风险模型,模型参数的估计:
偏似然函数最大似然估计法模型的适用条件等比例风险假设是最为关键的适用条件,类似于线性回归模型中的线性相关假设K-M曲线观察不同曲线有无相交加入时间和自变量间的交互项,考察其有无统计学意义含时间依存变量的Cox模型(自变量对风险率的作用强度随时间变化)例:
在研究1945年广岛、长崎核爆后日本妇女的乳腺癌发生率时发现,1945年后暴露于原子弹辐射的日本妇女患乳腺癌的危险性逐年下降。
这样的资料是不满足前面所述的Cox比例风险模型的假设,此时就应改为时间依存协变量模型/非比例风险模型,把所怀疑的那个自变量定义成时间依存自变量(多个自变量时必须用编程来做)。
2023/5/8,张志杰,流行病学教研室,公共卫生学院,复旦大学,52,分析实例,为研究某种药物是否会
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Logistic 回归 模型 生存 分析 简介