11 Logistic回归分析精讲.docx
- 文档编号:202538
- 上传时间:2023-04-28
- 格式:DOCX
- 页数:28
- 大小:311.07KB
11 Logistic回归分析精讲.docx
《11 Logistic回归分析精讲.docx》由会员分享,可在线阅读,更多相关《11 Logistic回归分析精讲.docx(28页珍藏版)》请在冰点文库上搜索。
11Logistic回归分析精讲
11Logistic回归分析
在中医药科研中,经常遇到因变量是分类变量(包括二分类和多分类)的资料,如治愈与未治愈,生存与死亡,发病与未发病,疗效评价分显效、好转、无效等级等。
这类资料,由于因变量是分类变量不具有连续性和正态性,直接用一般多元线性回归分析是不妥的,需用Logistic回归分析。
Logistic回归分析是一种适用于因变量为分类变量的回归分析,近年来在许多研究领域得到了广泛的应用。
Logistic回归属于概率型非线性回归,它分为非条件Logistic回归和条件Logistic回归(又称配比Logistic回归),二者根本的差别在于构造Logistic模型时是前者未使用条件概率,后者使用了条件概率。
11.1二分类资料的Logistic回归分析
如果因变量
是二分类变量,其取值只有两种,如阳性(编码为1)和阴性(编码为0),这时要说明的问题是阳性率
与自变量X间的关系,可进行因变量为二分类资料的Logistic回归。
二分类Logistic回归对自变量没有特殊要求,自变量可以是分类变量和连续变量。
11.1.1一个两分类自变量的二分类Logistic回归
一个自变量的二分类Logistic回归要拟合的Logistic回归方程为:
表11-1复方血栓通胶囊疗效观察
组别
例数
有效
无效
治疗组
131
102
29
对照组
76
18
58
例11-1《实用中医药杂志》2006年1月第22卷1期,复方血栓通胶囊配合肌苷片治疗青少年近视,数据见表11-1。
试作Logistic回归。
图11-1例11-1数据文件
解本例分组为自变量,疗效为因变量。
以fz表示分组(值标签:
1=“治疗组”、0=“对照组”)、lx表示疗效(值标签:
1=“有效”、0=“无效”)、f表示频数变量建立数据文件,如图11-1。
1.操作步骤
(1)指定频数变量:
选择菜单Data→Weightcases,在弹出的Weightcases对话框中,将频数变量f送入Frequency框中;单击OK。
(2)进行二分类Logistic回归分析。
选择菜单Analyze→Regression→BinaryLogistic(二分类Logistic),弹出LogisticRegression对话框,如图11-2;将因变量lx送入Dependent(因变量)框内,将自变量fz送入Covariates(协变量)框内;单击Options(选项)按钮,在弹出的Options对话框中,选中CIforexp(B),单击Continue;单击OK。
图11-2LogisticRegression对话框
2.输出结果
图11-3因变量赋值
(1)图11-3是因变量赋值表。
这是一个特别要留意的表,表中因变量原码值(OriginalValue)是按升序排列后转换为内码值(InternalValue)0和1,BinaryLogistic过程默认以内码值1所对应的因变量取值的概率建立模型,本例以P(lx=1)即有效的概率建立模型。
如果本例用1表示有效,2表示无效,则无效2对应的内码值为1,将以P(lx=2)即无效的概率建立模型,尽管所有统计检验结果仍然相同,但是回归系数的符号全将反过来,所计算的Exp(B)就完全不同了。
搞清实际分析资料因变量的赋值情况,对分析结果的正确解释很重要。
(2)初步模型拟合(输出结果中Block0:
BeginningBlock部分,此处略去了输出图表)。
给出模型不含任何自变量,只有常数项的一些分析结果,包括ClassificationTable表,给出模型不含任何自变量时,对所有观察对象的疗效情况进行预测,正确预测的百分率为58.0%;VariablesintheEquation表,给出只有常数项的参数检验结果;VariablesnotintheEquation表,给出若将现有模型外的各个变量纳入模型,对整个模型的拟合优度改变是否有统计学意义。
(3)引入自变量后的模型分析结果(输出结果中Block1:
Method=Enter部分)。
SPSS提供了7种建立Logistic回归模型的方法,可通过LogisticRegression对话框(见图11-2)中Method下拉列表框来选择,默认Enter法,即强迫所有的自变量同时进入模型,本例为Enter法(全变量模型)。
结果如下:
模型系数总检验(见图11-4)。
给出了三个结果:
Step统计量为每一步与前一步相比的似然比检验结果;Block统计量是指若将block1与block0相比的似然比检验结果;Model统计量则是上一个模型与当前模型的似然比检验结果。
本例由于选择了默认的Enter法,三个统计量及其假设检验结果是一样的。
χ2=59.969,P<0.01(Sig.为0.000),表明自变量fz引入模型有统计学意义。
若是两个或两个以上自变量引入模型,模型系数总检验得到
,拒绝
,接受
(
,即除常数项外所有的总体回归系数全为0),表明至少有一个自变量的作用有统计学意义。
图11-4模型系数总检验图11-5模型的贡献
模型的贡献(见图11-5)。
给出-2倍的似然对数值为221.711,结合
中提及的似然比检验结果,可认为模型成立。
CoxandSnellR2和NagelkerkeR2分别为0.252和0.338,其含义与多元回归中的决定系数意义相同,表示回归模型对因变量变异贡献的百分比。
分类表(见输出结果中ClassificationTable,此处略)。
给出现在模型对因变量的分类预测情况。
模型中已经引入了一个自变量,由这个自变量获得的预测概率≥0.5,则这个观测被预测分类为1;<0.5则预测为0,由此得到正确预测的百分率为77.3%,比没有自变量只有常数项的58.0%提高了19.3%。
进入回归方程的变量分析结果(见图11-6)。
这是Logistic回归分析结果最重要的一部分。
包括最终引入模型的自变量及常数项的系数值(B)、标准误(SE)、Wald卡方值(Wald)、自由度(df)、P值(Sig.)、OR值(Exp(B))及其95%的可信区间。
图11-6例11-1参数估计及检验
本例变量fz的系数为b1=2.428,Wald卡方值为50.340,
,有统计学意义。
自变量fz的比数比为
=
,即治疗组有效例数与无效例数之比,为对照组有效例数与无效例数之比的11.333倍,可认为治疗组的疗效高于对照组。
常数项b0=-1.170。
本例Logistic回归方程为:
。
值得注意的是OR值在不同的设计中意义不同:
①病例-对照研究(回顾性研究),OR值为比数比,要注意病例与对照两组人数的比例是人为规定的,不代表自然人群中真实的病人与正常人的比值,因此,根据病例-对照研究资料建立的Logistic回归方程中,常数项意义不大,主要针对结果中自变量的回归系数及其相应的比数比OR值的意义作解释,不适宜直接用于所研究事件发生概率的预测和判别。
②队列研究(即前瞻性研究),当队列研究的事件发生的阳性率很低(接近于0)时,可把OR近似看作相对危险度(RR),另外可用建立的Logistic回归方程对所研究的事件发生概率进行预测和判别。
③疗效评价中的设计类似队列研究,但OR不能当作RR,还是作为比数比且结合具体问题加以解释为好。
11.1.2两个两分类自变量的二分类Logistic回归
要拟合的Logistic回归方程为:
SPSS实现两个两分类自变量的二分类资料Logistic回归分析与实现一个两分类自变量的二分类资料Logistic回归分析在步骤方法上是相同的。
不同之处在于在建立SPSS数据集时两个自变量各占一列,因变量一列,频数一列,共四列。
操作时,需将两个自变量都移到Covariates框内;结果给出常数项及两个自变量对应的参数估计及其检验统计量值,有两个比数比值。
11.1.3无序多分类自变量的二分类Logistic回归
自变量中一个或多个为无序多分类变量,其Logistic回归,在方法上同上述二分类资料的Logistic回归,只是要对自变量的不同水平构造哑变。
某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减1。
将哑变量引入模型,其结果无论有无统计学意义,都是相对事先确定该自变量某一类为对照而言的。
SPSS对字符型多分类无序自变量,以(Cat)标示在该自变量后的括号内,系统默认相互比较的方法为Indicator,且以最后的那个分类为对照。
11.1.4有序多分类自变量的二分类Logistic回归
有时,Logistic回归中自变量为有序多分类变量,即等级变量,如文化程度可分为文盲、小学、中学、大学及以上。
这种资料的Logistic回归可分两种情况处理,如果自变量的等级分组与logitP呈线性关系,即等级效应等比例增加或减少,则该自变量可以作为一个数值型自变量引入模型,否则,将等级变量当作无序多分类自变量,以哑变量的形式引入模型进行分析。
11.1.5引入数值型自变量的二分类Logistic回归
数值变量直接引入模型,得到相应的比数比OR是指自变量增加一个单位(如年龄增加1岁)比数自然对数值的变化量。
若将数值自变量分成几个组段,如自变量年龄按10岁间隔分组引入模型时,其OR值是指年龄每增加10岁比数自然对数值的变化量。
特殊情况下,数值变量(或分组后的变量)与logitP不呈线性关系,例如,研究年龄与冠心病的关系,从理论上讲,年轻时年龄增加10岁,与年老时年龄增加10岁,患病风险变化不同,即OR的意义不等同,这种情况应将数值变量分组转变为分类变量,用哑变量进行分析。
例11-2为了探索胃癌的有关危险因素和保护因素,对33例胃癌病人和35例对照者进行病例对照研究,考察的危险因素作为自变量,分别为x1(年龄)、x2(蛋白质摄入量,由低到高分别为0、1、2、3、4)、x3(新鲜蔬菜及水果食用情况,良好、一般、不足、严重不足分别为0、1、2、3)、x4(吃盐渍食物及嗜重盐饮食,由轻到重分别为0、1、2、3、4)、x5(饮食习惯,良好、一般、不良、严重不良分别为0、1、2、3)、x6(精神心理因素,乐观、较乐观、一般、不良分别为0、1、2、3)。
是否患胃癌为因变量y(未患胃癌者为y=0,患胃癌者为y=1),结果资料见表11-2。
试进行Logistic回归分析,且用逐步回归分析方法筛选上述因素。
表11-2胃癌危险因素成组设计的结果资料
序号
x1
x2
x3
x4
x5
x6
y
序号
x1
x2
x3
x4
x5
x6
y
1
60
2
1
0
0
0
0
36
62
2
1
3
1
0
1
2
40
2
2
1
1
0
0
37
56
1
3
2
2
2
1
3
54
1
1
1
2
2
0
38
61
4
2
3
2
2
1
4
71
1
2
0
2
0
0
39
54
2
2
2
1
1
1
5
58
0
0
0
0
0
0
40
68
1
2
3
3
1
1
6
49
2
2
2
1
0
0
41
62
0
1
1
2
0
1
7
56
0
1
3
1
0
0
42
53
2
3
2
2
1
1
8
41
3
1
0
1
0
0
43
69
1
2
3
1
2
1
9
54
2
2
2
2
0
0
44
61
0
1
4
2
0
1
10
40
3
2
2
1
0
0
45
62
2
0
2
2
2
1
11
59
3
1
0
1
0
0
46
53
1
2
1
1
1
1
12
60
1
2
1
1
0
0
47
50
0
2
3
2
3
1
13
54
1
1
0
2
0
0
48
73
1
2
2
2
1
1
14
63
2
1
2
1
0
0
49
56
0
2
3
2
3
1
15
53
0
2
0
2
0
0
50
54
2
1
4
2
1
1
16
70
1
1
3
0
0
0
51
69
1
2
2
1
1
1
17
43
0
2
2
1
0
0
52
74
0
1
2
2
0
1
18
40
1
1
1
0
0
0
53
54
4
0
3
2
3
1
19
54
1
2
0
1
0
0
54
55
1
3
2
1
2
1
20
50
0
3
0
0
0
0
55
79
2
1
1
3
1
1
21
64
1
1
0
0
0
0
56
64
1
2
2
1
0
1
22
49
1
1
0
2
0
0
57
40
1
1
3
2
3
1
23
60
1
2
0
1
0
0
58
61
2
1
2
2
2
1
24
76
1
1
0
2
0
0
59
50
1
2
3
2
2
1
25
53
1
2
1
2
0
0
60
56
1
2
4
3
2
1
26
56
2
0
0
1
0
0
61
54
2
1
2
1
1
1
27
43
1
2
0
1
0
0
62
68
1
2
3
3
3
1
28
66
3
1
2
1
0
0
63
55
2
1
2
2
1
1
29
52
3
2
1
0
0
0
64
66
2
2
1
2
2
1
30
48
2
0
0
0
0
0
65
51
1
1
4
2
2
1
31
53
3
1
0
0
0
0
66
62
1
3
2
2
1
1
32
66
2
2
1
1
0
0
67
61
3
2
4
3
2
1
33
51
1
1
1
1
0
0
68
57
3
1
1
1
3
1
34
52
2
1
0
0
0
0
35
56
2
0
3
0
0
0
解以xh、x1、x2、x3、x4、x5、x6、y为变量名,将表11-2中数据建立成8列68行的数据文件。
选择菜单Analyze→Regression→BinaryLogistic,在弹出的LogisticRegression对话框中,将因变量y送入Dependent框内,将自变量x1、x2、x3、x4、x5、x6送入Covariates框内;单击OK。
主要输出结果见图11-7。
可见,
和
自变量对应的P值均大于0.05,无统计学意义;x1、x4、x5和x6自变量对应的P值均小于0.05,有统计学意义。
说明影响胃癌发生的因素为年龄、吃盐渍食物及嗜重盐饮食、饮食习惯、精神心理因素,与蛋白质摄入量大小及新鲜蔬菜及水果食用多少无关。
图11-7例11-2参数估计及检验
偏回归系数有统计学意义,比数比
的自变量为x1、x4、x5和x6,相应的比数比(
)分别为:
1.133、5.933、7.878和4.614;按
为正值时
,其相应自变量xi为危险因素,可以得出年龄越大、吃盐渍食物及嗜重盐饮食越重和精神心理不良患胃癌的可能性越大,成为胃癌的危险因素。
注意,这里自变量x1(年龄)对应的比数比是以一岁为间隔的比数比,即由后一岁的Odds比上前一岁的Odds得到的。
如41岁的Odds比上40岁的Odds或42岁的Odds比上41岁的Odds或71岁的Odds比上70岁的Odds,以一岁为间隔得到的OR值均为
。
下面对本例作进一步的讨论:
1.求10岁为间隔的OR值。
如果希望得到年龄以10岁为间隔的OR值,只要计算
即可,或在本例数据文件中将x1进行变量转换(通过SPSS的Transform→ComputeVariable过程来实现),生成变量g,使
,然后选择菜单Analyze→Regression→BinaryLogistic,将因变量y送入Dependent框内,将自变量g、x2至x6送入Covariates框内,单击OK。
主要输出结果见表图11-8,得到年龄对应的比数比OR为3.477(与
不等,是由于
小数点保留位数不同所致),是以10岁为间隔的比数比,即50岁的Odds比上40岁的Odds或73岁的Odds比上63岁的Odds。
图11-810岁为间隔的OR值
2.年龄按等级分组的情况。
考虑年龄以一岁为间隔或以十岁为间隔比数比的实际意义不大,不妨将年龄按等级分组,得到的比数比便是以一个等级为间隔的比数比。
在本例数据文件中生成新变量gg,当40≤x1<50时,gg=1;当50≤x1<60时,gg=2;当60≤x1<70时,gg=3;当70≤x1<80时,gg=4。
选择菜单Analyze→Regression→BinaryLogistic,将因变量y送入Dependent框内,将自变量gg、x2至x6送入Covariates框内,单击OK。
输出结果,略。
3.构造哑变量引入模型。
在某些情况下,相同年龄间隔或按等级分组的OR值意义不完全一致,这时需将年龄分组,由数值变量变为无序多分类变量,构造相应的哑变量引入模型,得到对应的比数比是以对比区组为基准的比数比,SPSS默认的是基准组为最后一个组别,也可自己定制为第一个组别。
SPSS实现自变量为无序多分类变量的Logistic回归分析步骤如下:
激活SPSS,打开已把年龄分组的数据集,选择菜单Analyze→Regression→BinaryLogistic,将因变量y送入Dependent框内,将自变量gg、x2至x6送入Covariates框内;单击Categorical(多分类变量的比较)按钮,在弹出的DefineCategoricalVariables(定义多分类变量)对话框中,将变量gg送入到右边的Categorical框内,选中右下角的First(系统默认Last),单击Change按钮,随即Categorical框内的内容变为gg(Indicator(first))),单击Continue,返回主对话框,在Covariates框内gg变量后面跟着一个Cat标识,表示gg变量是以第一区组为基准形成哑变量引入模型的;单击OK。
输出结果,略。
4.Logistic逐步回归。
以上为默认方法为Enter法,即强迫所有的自变量同时进入模型,若对本例进行变量筛选,可采用逐步回归分析,SPSS操作步骤如下:
选择菜单Analyze→Regression→BinaryLogistic,将因变量y送入Dependent框内,将自变x1至x6送入Covariates框内,单击Method框右端的下拉箭头,选Forward:
Conditional,单击OK。
另外,需要说明的是:
SPSS默认引入(Entry)和剔除(Removal)变量的检验水准分别为0.05和0.10,需要变更时,可点击Options选项,在弹出的对话框里相应处进行设置。
输出结果增加了逐步回归分析的内容,最后汇总给出引入或未引入回归模型的自变量检验结果。
图11-9逐步回归结果
本例主要输出结果见图11-9。
逐步回归得到的Logistic回归方程为:
因素x1、x4、x5和x6对应的比数比分别为:
1.112、5.589、9.006和3.825。
11.2有序多分类资料的Logistic回归分析
如果因变量y是有序多分类资料也称为等级资料,如疗效评价:
显效、有效和无效;尿糖程度:
-、+、++、+++和++++等,则应进行有序多分类资料的Logistic回归分析。
如果因变量y取g个值,需拟合g-1个logit模型,例如对于一个取值为1、2、3的有序三分类因变量y,需拟合2个logit模型,即:
1.
2.
其中,
,i=1、2、3,第i个logit模型计算的是y取前i个值的累积概率(i=1、2),
,
。
注意,g-1个logit模型的回归系数相等,即自变量与因变量的关系相同,只是常数项改变,所以是g-1条平行直线,这就是为什么有序多分类资料的Logistic回归模型要求进行数据的平行性检验的原因。
SPSS通过选择Analyze→Regression→Ordinal(有序多分类)过程完成有序多分类因变量资料的Logistic回归分析。
例11-3研究性别和两种治疗方法对某病疗效的影响,疗效的评价分为三个有序等级,数据见表11-3。
试作Logistic回归分析。
表11-3性别和两种治疗方法对某病疗效的影响研究
疗效
性别
治疗方法
显效(C=1)
有效(C=2)
无效(C=3)
合计
女(A=1)
新药疗法(B=1)
16
5
6
21
传统疗法(B=0)
6
7
19
32
男(A=0)
新药疗法(B=1)
5
2
7
14
传统疗法(B=0)
1
0
10
11
解c是因变量,a、b是自变量。
用a、b、c和f变量分别表示性别、治疗方法、疗效和频数,建立12行4列的数据文件,如图11-10。
图11-10例11-3数据文件图11-11OrdinalRegression主对话框
1.指定频数变量操作同例11-1。
图11-12例11-3摘要
2.进行有序多分类Logistic回归分析选择菜单Analyze→Regression→Ordinal,弹出OrdinalRegression主对话框,如图11-11;将因变量c送入Dependent(因变量)框内,将自变量a、b送入Covariates(协变量)框内;单击Output(输出)按钮,在弹出的Output对话框中,选中左下角的Testofparallellines(平行性检验)选项,单击Continue,返回主对话框;单击OK。
主要输出结果的解释:
图11-12中c的数值是按升序排列的,本例显效、有效、无效分别用1、2、3表示,正好就是升序编码。
如果将显效、有效、无效分别用3、2、1表示,结果中摘要表自上而下仍为1、2、3,此时是按无效、有效、显效顺序计算2个logit模型,参数估计的结果与本例是不同的。
所以,尽量将y值按专业需要的顺序升序编码。
模型拟合检验(ModelFittingInformation):
给出-2倍的似然对数值为23.598,
=19.887,P<0.01,可认为模型有统计学意义。
模型拟合优度检验(Goodness-of-Fit):
给出Pearson和Deviance检验,两者对应的P值均大于0.05
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 Logistic回归分析精讲 Logistic 回归 分析