书签分享收藏举报版权申诉 / 28

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 物理 > 11 Logistic回归分析精讲.docx

11 Logistic回归分析精讲.docx

文档编号：202538
上传时间：2023-04-28
格式：DOCX
页数：28
大小：311.07KB

《11 Logistic回归分析精讲.docx》由会员分享，可在线阅读，更多相关《11 Logistic回归分析精讲.docx（28页珍藏版）》请在冰点文库上搜索。

11 Logistic回归分析精讲.docx

11Logistic回归分析精讲

11Logistic回归分析

在中医药科研中，经常遇到因变量是分类变量（包括二分类和多分类）的资料，如治愈与未治愈，生存与死亡，发病与未发病，疗效评价分显效、好转、无效等级等。

这类资料，由于因变量是分类变量不具有连续性和正态性，直接用一般多元线性回归分析是不妥的，需用Logistic回归分析。

Logistic回归分析是一种适用于因变量为分类变量的回归分析，近年来在许多研究领域得到了广泛的应用。

Logistic回归属于概率型非线性回归，它分为非条件Logistic回归和条件Logistic回归（又称配比Logistic回归），二者根本的差别在于构造Logistic模型时是前者未使用条件概率，后者使用了条件概率。

11.1二分类资料的Logistic回归分析

如果因变量

是二分类变量，其取值只有两种，如阳性（编码为1）和阴性（编码为0），这时要说明的问题是阳性率

与自变量X间的关系，可进行因变量为二分类资料的Logistic回归。

二分类Logistic回归对自变量没有特殊要求，自变量可以是分类变量和连续变量。

11.1.1一个两分类自变量的二分类Logistic回归

一个自变量的二分类Logistic回归要拟合的Logistic回归方程为：

表11-1复方血栓通胶囊疗效观察

组别

例数

有效

无效

治疗组

131

102

29

对照组

76

18

58

例11-1《实用中医药杂志》2006年1月第22卷1期，复方血栓通胶囊配合肌苷片治疗青少年近视，数据见表11-1。

试作Logistic回归。

图11-1例11-1数据文件

解本例分组为自变量，疗效为因变量。

以fz表示分组（值标签：

1=“治疗组”、0=“对照组”）、lx表示疗效（值标签：

1=“有效”、0=“无效”）、f表示频数变量建立数据文件，如图11-1。

1．操作步骤

（1）指定频数变量：

选择菜单Data→Weightcases，在弹出的Weightcases对话框中，将频数变量f送入Frequency框中；单击OK。

（2）进行二分类Logistic回归分析。

选择菜单Analyze→Regression→BinaryLogistic（二分类Logistic），弹出LogisticRegression对话框，如图11-2；将因变量lx送入Dependent（因变量）框内，将自变量fz送入Covariates（协变量）框内；单击Options（选项）按钮，在弹出的Options对话框中，选中CIforexp（B），单击Continue；单击OK。

图11-2LogisticRegression对话框

2．输出结果

图11-3因变量赋值

（1）图11-3是因变量赋值表。

这是一个特别要留意的表，表中因变量原码值（OriginalValue）是按升序排列后转换为内码值（InternalValue）0和1，BinaryLogistic过程默认以内码值1所对应的因变量取值的概率建立模型，本例以P（lx=1）即有效的概率建立模型。

如果本例用1表示有效，2表示无效，则无效2对应的内码值为1，将以P（lx=2）即无效的概率建立模型，尽管所有统计检验结果仍然相同，但是回归系数的符号全将反过来，所计算的Exp（B）就完全不同了。

搞清实际分析资料因变量的赋值情况，对分析结果的正确解释很重要。

（2）初步模型拟合（输出结果中Block0:

BeginningBlock部分，此处略去了输出图表）。

给出模型不含任何自变量，只有常数项的一些分析结果，包括ClassificationTable表，给出模型不含任何自变量时，对所有观察对象的疗效情况进行预测，正确预测的百分率为58.0%；VariablesintheEquation表，给出只有常数项的参数检验结果；VariablesnotintheEquation表，给出若将现有模型外的各个变量纳入模型，对整个模型的拟合优度改变是否有统计学意义。

（3）引入自变量后的模型分析结果（输出结果中Block1:

Method=Enter部分）。

SPSS提供了7种建立Logistic回归模型的方法，可通过LogisticRegression对话框（见图11-2）中Method下拉列表框来选择，默认Enter法，即强迫所有的自变量同时进入模型，本例为Enter法（全变量模型）。

结果如下：

模型系数总检验（见图11-4）。

给出了三个结果：

Step统计量为每一步与前一步相比的似然比检验结果；Block统计量是指若将block1与block0相比的似然比检验结果；Model统计量则是上一个模型与当前模型的似然比检验结果。

本例由于选择了默认的Enter法，三个统计量及其假设检验结果是一样的。

χ2=59.969，P＜0.01（Sig.为0.000），表明自变量fz引入模型有统计学意义。

若是两个或两个以上自变量引入模型，模型系数总检验得到

，拒绝

，接受

（

，即除常数项外所有的总体回归系数全为0），表明至少有一个自变量的作用有统计学意义。

图11-4模型系数总检验图11-5模型的贡献

模型的贡献（见图11-5）。

给出-2倍的似然对数值为221.711，结合

中提及的似然比检验结果，可认为模型成立。

CoxandSnellR2和NagelkerkeR2分别为0.252和0.338，其含义与多元回归中的决定系数意义相同，表示回归模型对因变量变异贡献的百分比。

分类表（见输出结果中ClassificationTable，此处略）。

给出现在模型对因变量的分类预测情况。

模型中已经引入了一个自变量，由这个自变量获得的预测概率≥0.5，则这个观测被预测分类为1；＜0.5则预测为0，由此得到正确预测的百分率为77.3%，比没有自变量只有常数项的58.0%提高了19.3%。

进入回归方程的变量分析结果（见图11-6）。

这是Logistic回归分析结果最重要的一部分。

包括最终引入模型的自变量及常数项的系数值（B）、标准误（SE）、Wald卡方值（Wald）、自由度（df）、P值（Sig.）、OR值（Exp（B））及其95%的可信区间。

图11-6例11-1参数估计及检验

本例变量fz的系数为b1=2.428，Wald卡方值为50.340，

，有统计学意义。

自变量fz的比数比为

=

，即治疗组有效例数与无效例数之比，为对照组有效例数与无效例数之比的11.333倍，可认为治疗组的疗效高于对照组。

常数项b0=－1.170。

本例Logistic回归方程为：

。

值得注意的是OR值在不同的设计中意义不同：

①病例-对照研究（回顾性研究），OR值为比数比，要注意病例与对照两组人数的比例是人为规定的，不代表自然人群中真实的病人与正常人的比值，因此，根据病例-对照研究资料建立的Logistic回归方程中，常数项意义不大，主要针对结果中自变量的回归系数及其相应的比数比OR值的意义作解释，不适宜直接用于所研究事件发生概率的预测和判别。

②队列研究（即前瞻性研究），当队列研究的事件发生的阳性率很低（接近于0）时，可把OR近似看作相对危险度（RR），另外可用建立的Logistic回归方程对所研究的事件发生概率进行预测和判别。

③疗效评价中的设计类似队列研究，但OR不能当作RR，还是作为比数比且结合具体问题加以解释为好。

11.1.2两个两分类自变量的二分类Logistic回归

要拟合的Logistic回归方程为：

SPSS实现两个两分类自变量的二分类资料Logistic回归分析与实现一个两分类自变量的二分类资料Logistic回归分析在步骤方法上是相同的。

不同之处在于在建立SPSS数据集时两个自变量各占一列，因变量一列，频数一列，共四列。

操作时，需将两个自变量都移到Covariates框内；结果给出常数项及两个自变量对应的参数估计及其检验统计量值，有两个比数比值。

11.1.3无序多分类自变量的二分类Logistic回归

自变量中一个或多个为无序多分类变量，其Logistic回归，在方法上同上述二分类资料的Logistic回归，只是要对自变量的不同水平构造哑变。

某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减1。

将哑变量引入模型，其结果无论有无统计学意义，都是相对事先确定该自变量某一类为对照而言的。

SPSS对字符型多分类无序自变量，以（Cat）标示在该自变量后的括号内，系统默认相互比较的方法为Indicator，且以最后的那个分类为对照。

11.1.4有序多分类自变量的二分类Logistic回归

有时，Logistic回归中自变量为有序多分类变量，即等级变量，如文化程度可分为文盲、小学、中学、大学及以上。

这种资料的Logistic回归可分两种情况处理，如果自变量的等级分组与logitP呈线性关系，即等级效应等比例增加或减少，则该自变量可以作为一个数值型自变量引入模型，否则，将等级变量当作无序多分类自变量，以哑变量的形式引入模型进行分析。

11.1.5引入数值型自变量的二分类Logistic回归

数值变量直接引入模型，得到相应的比数比OR是指自变量增加一个单位（如年龄增加1岁）比数自然对数值的变化量。

若将数值自变量分成几个组段，如自变量年龄按10岁间隔分组引入模型时，其OR值是指年龄每增加10岁比数自然对数值的变化量。

特殊情况下，数值变量（或分组后的变量）与logitP不呈线性关系，例如，研究年龄与冠心病的关系，从理论上讲，年轻时年龄增加10岁，与年老时年龄增加10岁，患病风险变化不同，即OR的意义不等同，这种情况应将数值变量分组转变为分类变量，用哑变量进行分析。

例11-2为了探索胃癌的有关危险因素和保护因素，对33例胃癌病人和35例对照者进行病例对照研究，考察的危险因素作为自变量，分别为x1（年龄）、x2（蛋白质摄入量，由低到高分别为0、1、2、3、4）、x3（新鲜蔬菜及水果食用情况，良好、一般、不足、严重不足分别为0、1、2、3）、x4（吃盐渍食物及嗜重盐饮食，由轻到重分别为0、1、2、3、4）、x5（饮食习惯，良好、一般、不良、严重不良分别为0、1、2、3）、x6（精神心理因素，乐观、较乐观、一般、不良分别为0、1、2、3）。

是否患胃癌为因变量y（未患胃癌者为y=0，患胃癌者为y=1），结果资料见表11-2。

试进行Logistic回归分析，且用逐步回归分析方法筛选上述因素。

表11-2胃癌危险因素成组设计的结果资料

序号

x1

x2

x3

x4

x5

x6

y

序号

x1

x2

x3

x4

x5

x6

y

1

60

2

1

0

36

62

2

1

3

1

0

1

2

40

2

1

0

37

56

1

3

2

1

3

54

1

2

0

38

61

4

2

3

2

1

4

71

1

2

0

2

0

39

54

2

1

5

58

0

40

68

1

2

3

1

6

49

2

1

0

41

62

0

1

2

0

1

7

56

0

1

3

1

0

42

53

2

3

2

1

8

41

3

1

0

1

0

43

69

1

2

3

1

2

1

9

54

2

0

44

61

0

1

4

2

0

1

10

40

3

2

1

0

45

62

2

0

2

1

11

59

3

1

0

1

0

46

53

1

2

1

12

60

1

2

1

0

47

50

0

2

3

2

3

1

13

54

1

0

2

0

48

73

1

2

1

14

63

2

1

2

1

0

49

56

0

2

3

2

3

1

15

53

0

2

0

2

0

50

54

2

1

4

2

1

16

70

1

3

0

51

69

1

2

1

17

43

0

2

1

0

52

74

0

1

2

0

1

18

40

1

0

53

54

4

0

3

2

3

1

19

54

1

2

0

1

0

54

55

1

3

2

1

2

1

20

50

0

3

0

55

79

2

1

3

1

21

64

1

0

56

64

1

2

1

0

1

22

49

1

0

2

0

57

40

1

3

2

3

1

23

60

1

2

0

1

0

58

61

2

1

2

1

24

76

1

0

2

0

59

50

1

2

3

2

1

25

53

1

2

1

2

0

60

56

1

2

4

3

2

1

26

56

2

0

1

0

61

54

2

1

2

1

27

43

1

2

0

1

0

62

68

1

2

3

1

28

66

3

1

2

1

0

63

55

2

1

2

1

29

52

3

2

1

0

64

66

2

1

2

1

30

48

2

0

65

51

1

4

2

1

31

53

3

1

0

66

62

1

3

2

1

32

66

2

1

0

67

61

3

2

4

3

2

1

33

51

1

0

68

57

3

1

3

1

34

52

2

1

0

35

56

2

0

3

0

解以xh、x1、x2、x3、x4、x5、x6、y为变量名，将表11-2中数据建立成8列68行的数据文件。

选择菜单Analyze→Regression→BinaryLogistic，在弹出的LogisticRegression对话框中，将因变量y送入Dependent框内，将自变量x1、x2、x3、x4、x5、x6送入Covariates框内；单击OK。

主要输出结果见图11-7。

可见，

和

自变量对应的P值均大于0.05，无统计学意义；x1、x4、x5和x6自变量对应的P值均小于0.05，有统计学意义。

说明影响胃癌发生的因素为年龄、吃盐渍食物及嗜重盐饮食、饮食习惯、精神心理因素，与蛋白质摄入量大小及新鲜蔬菜及水果食用多少无关。

图11-7例11-2参数估计及检验

偏回归系数有统计学意义，比数比

的自变量为x1、x4、x5和x6，相应的比数比（

）分别为：

1.133、5.933、7.878和4.614；按

为正值时

，其相应自变量xi为危险因素，可以得出年龄越大、吃盐渍食物及嗜重盐饮食越重和精神心理不良患胃癌的可能性越大，成为胃癌的危险因素。

注意，这里自变量x1（年龄）对应的比数比是以一岁为间隔的比数比，即由后一岁的Odds比上前一岁的Odds得到的。

如41岁的Odds比上40岁的Odds或42岁的Odds比上41岁的Odds或71岁的Odds比上70岁的Odds，以一岁为间隔得到的OR值均为

。

下面对本例作进一步的讨论：

1．求10岁为间隔的OR值。

如果希望得到年龄以10岁为间隔的OR值，只要计算

即可，或在本例数据文件中将x1进行变量转换（通过SPSS的Transform→ComputeVariable过程来实现），生成变量g，使

，然后选择菜单Analyze→Regression→BinaryLogistic，将因变量y送入Dependent框内，将自变量g、x2至x6送入Covariates框内，单击OK。

主要输出结果见表图11-8，得到年龄对应的比数比OR为3.477（与

不等，是由于

小数点保留位数不同所致），是以10岁为间隔的比数比，即50岁的Odds比上40岁的Odds或73岁的Odds比上63岁的Odds。

图11-810岁为间隔的OR值

2．年龄按等级分组的情况。

考虑年龄以一岁为间隔或以十岁为间隔比数比的实际意义不大，不妨将年龄按等级分组，得到的比数比便是以一个等级为间隔的比数比。

在本例数据文件中生成新变量gg，当40≤x1＜50时，gg=1；当50≤x1＜60时，gg=2；当60≤x1＜70时，gg=3；当70≤x1＜80时，gg=4。

选择菜单Analyze→Regression→BinaryLogistic，将因变量y送入Dependent框内，将自变量gg、x2至x6送入Covariates框内，单击OK。

输出结果，略。

3．构造哑变量引入模型。

在某些情况下，相同年龄间隔或按等级分组的OR值意义不完全一致，这时需将年龄分组，由数值变量变为无序多分类变量，构造相应的哑变量引入模型，得到对应的比数比是以对比区组为基准的比数比，SPSS默认的是基准组为最后一个组别，也可自己定制为第一个组别。

SPSS实现自变量为无序多分类变量的Logistic回归分析步骤如下：

激活SPSS，打开已把年龄分组的数据集，选择菜单Analyze→Regression→BinaryLogistic，将因变量y送入Dependent框内，将自变量gg、x2至x6送入Covariates框内；单击Categorical（多分类变量的比较）按钮，在弹出的DefineCategoricalVariables（定义多分类变量）对话框中，将变量gg送入到右边的Categorical框内，选中右下角的First（系统默认Last），单击Change按钮，随即Categorical框内的内容变为gg（Indicator（first））），单击Continue，返回主对话框，在Covariates框内gg变量后面跟着一个Cat标识，表示gg变量是以第一区组为基准形成哑变量引入模型的；单击OK。

输出结果，略。

4．Logistic逐步回归。

以上为默认方法为Enter法，即强迫所有的自变量同时进入模型，若对本例进行变量筛选，可采用逐步回归分析，SPSS操作步骤如下：

选择菜单Analyze→Regression→BinaryLogistic，将因变量y送入Dependent框内，将自变x1至x6送入Covariates框内，单击Method框右端的下拉箭头，选Forward:

Conditional，单击OK。

另外，需要说明的是：

SPSS默认引入（Entry）和剔除（Removal）变量的检验水准分别为0.05和0.10，需要变更时，可点击Options选项，在弹出的对话框里相应处进行设置。

输出结果增加了逐步回归分析的内容，最后汇总给出引入或未引入回归模型的自变量检验结果。

图11-9逐步回归结果

本例主要输出结果见图11-9。

逐步回归得到的Logistic回归方程为：

因素x1、x4、x5和x6对应的比数比分别为：

1.112、5.589、9.006和3.825。

11.2有序多分类资料的Logistic回归分析

如果因变量y是有序多分类资料也称为等级资料，如疗效评价：

显效、有效和无效；尿糖程度：

-、+、++、+++和++++等，则应进行有序多分类资料的Logistic回归分析。

如果因变量y取g个值，需拟合g－1个logit模型，例如对于一个取值为1、2、3的有序三分类因变量y，需拟合2个logit模型，即：

1．

2．

其中，

，i=1、2、3，第i个logit模型计算的是y取前i个值的累积概率（i=1、2），

，

。

注意，g－1个logit模型的回归系数相等，即自变量与因变量的关系相同，只是常数项改变，所以是g－1条平行直线，这就是为什么有序多分类资料的Logistic回归模型要求进行数据的平行性检验的原因。

SPSS通过选择Analyze→Regression→Ordinal（有序多分类）过程完成有序多分类因变量资料的Logistic回归分析。

例11-3研究性别和两种治疗方法对某病疗效的影响，疗效的评价分为三个有序等级，数据见表11-3。

试作Logistic回归分析。

表11-3性别和两种治疗方法对某病疗效的影响研究

疗效

性别

治疗方法

显效（C=1）

有效（C=2）

无效（C=3）

合计

女（A=1）

新药疗法（B=1）

16

5

6

21

传统疗法（B=0）

6

7

19

32

男（A=0）

新药疗法（B=1）

5

2

7

14

传统疗法（B=0）

1

0

10

11

解c是因变量，a、b是自变量。

用a、b、c和f变量分别表示性别、治疗方法、疗效和频数，建立12行4列的数据文件，如图11-10。

图11-10例11-3数据文件图11-11OrdinalRegression主对话框

1．指定频数变量操作同例11-1。

图11-12例11-3摘要

2．进行有序多分类Logistic回归分析选择菜单Analyze→Regression→Ordinal，弹出OrdinalRegression主对话框，如图11-11；将因变量c送入Dependent（因变量）框内，将自变量a、b送入Covariates（协变量）框内；单击Output（输出）按钮，在弹出的Output对话框中，选中左下角的Testofparallellines（平行性检验）选项，单击Continue，返回主对话框；单击OK。

主要输出结果的解释：

图11-12中c的数值是按升序排列的，本例显效、有效、无效分别用1、2、3表示，正好就是升序编码。

如果将显效、有效、无效分别用3、2、1表示，结果中摘要表自上而下仍为1、2、3，此时是按无效、有效、显效顺序计算2个logit模型，参数估计的结果与本例是不同的。

所以，尽量将y值按专业需要的顺序升序编码。

模型拟合检验（ModelFittingInformation）：

给出-2倍的似然对数值为23.598，

=19.887，P＜0.01，可认为模型有统计学意义。

模型拟合优度检验（Goodness-of-Fit）：

给出Pearson和Deviance检验，两者对应的P值均大于0.05