化验检查诊断问题.doc
- 文档编号:4710674
- 上传时间:2023-05-07
- 格式:DOC
- 页数:14
- 大小:323.50KB
化验检查诊断问题.doc
《化验检查诊断问题.doc》由会员分享,可在线阅读,更多相关《化验检查诊断问题.doc(14页珍藏版)》请在冰点文库上搜索。
2009高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员(打印并签名):
1.
2.
3.
指导教师或指导教师组负责人(打印并签名):
日期:
年月日
赛区评阅编号(由赛区组委会评阅前进行编号):
2009高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
摘要
本文就是针对健康人与肾炎病人体内Zn、Cu、Fe、Ca、Mg、K、Na七种元素含量的不同,通过建立七种元素含量的数学模型,来寻找一种方法来判断任意一个就诊人员是否为肾炎病人。
在问题一的求解中,我们采用了费歇尔判别模型。
利用表B.1中前20名肾炎患者和前20名健康人的数据对模型进行求解,提出了一种简单的判别方法,然后我们把剩余的10名肾炎患者和10名健康人的数据代入模型进行检验,发现该判别方法的正确率高达95%。
接着我们以此模型对表B.2中61到90号就诊人员进行判断,求得结果,其中15人为患者,15人健康,具体见正文表3。
在问题二的求解中,我们采用了主成分分析模型。
在对表B.1中的60组数据进行主成分分析后,我们选取Zn,Ca,Mg,K,Na五个指标为影响人们是否患肾炎的关键因素。
然后重复对问题一的求解,提出了新的判别方法,在对新的判别方法进行检验时,我们发现新的判别方法的正确率有所下降,达80%。
接着利用新模型对B.2中的就诊人员重新进行判断,其中16人患肾炎,14人健康,具体结果见正文表6。
最后,我们通过对两个模型对同一组未知数据的判断结果的比较,发现两种模型判断结果的一致率为83.33%。
基于以上两个问题的求解,我们发现两个模型各有优缺点。
一种需要测量的元素种类较多,但结果相对准确;另一种操作简便,但误差相对较大。
因此我们得出结论:
认为应结合实际情况,在不同情况下使用不同的模型。
关键字:
肾炎诊断费歇尔判别模型主成分分析诊断判别方法
一、问题重述
肾炎是一种困扰人们生活和健康的疾病,及时发现和治疗能够有效地避免和遏制肾炎恶化。
人们到医院就诊时,通常要化验一些指标来协助医生的诊断。
诊断就诊人员是否患肾炎时,通常要化验人体内各种元素含量。
表B.1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确定为健康人的结果。
表B.2是就诊人员的化验结果。
基于上面的数据我们要完成下面的问题:
1:
根据表B.1中的数据,提出一种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。
并按照提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。
2:
能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。
根据所得结果,重复1中的工作,然后将所得的结果与问题1的结果进行比较,作进一步的分析。
二、模型假设和变量符号说明
2.1模型假设
1)题中所给的内容和数据都是真实可信的;
2)除了表中列出的元素外,其他元素对是否会患肾炎的影响很小;
3)没该病的个体都是健康体;
4)假设病例没有其他疾病导致某种元素含量不正常;
5)检测是在同等条件下进行的,即同样的外界环境和生理条件。
2.2变量符号说明
:
某个病人的7种元素组合;
:
某个病人的费歇尔判别函数;
:
总体1的协方差矩阵;
:
总体2的协方差矩阵;
:
总体1的均值向量;
:
总体2的均值向量;
:
判别临界值;
:
某病人第i种元素的值;
:
第i种元素的判别系数;
:
第i个主成分。
三、问题分析及思路
对于该问题的第1问,实际上就是利用30名肾炎患者和30名健康者人体内的Zn,Cu,Fe,Ca,Mg,K,Na这7种微量元素的含量,给出一个简单的判别方法,判定其是肾炎患者还是健康人。
然后对未诊断的30名就诊人员进行判别,判定他(她)们是肾炎病人还是健康人。
在已知健康人和肾炎患者各自体内微量元素含量的基础上,我们可以采用某医院化验的30名肾炎患者和30名健康人体内的Zn,Cu,Fe,Ca,Mg,K,Na7种微量元素的含量作为基础数据,先从中选取20名肾炎患者和20名健康人的数据作为样本,进行采样分析,建立费歇尔(Fisher)判定模型,然后利用剩余的10名肾炎患者和10名健康人的数据对判定模型进行检验,并计算该判定模型的正确率。
再利用该判定模型对30名就诊人员进行判别,判定他(她)们是肾炎病人还是健康人。
对于问题的第2问,实际上就是根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。
因此,我们选择了主成分分析模型来求出影响人们是否患肾炎的关键或主要因素,进而减少化验的指标。
接着重复问题1的求解过程,给出新的判别方法,对30名就诊人员进行重新判别,将结果与问题1的结果进行对比分析。
四、模型建立与求解
4.1问题1的建模求解
费歇尔(Fisher)判别是按照各类(总体)中的方差尽可能小,不同类中的均值之间差距尽可能大的原则,即类间距离最大而类内离散性最小的原则求判别函数,并利用判别函数进行最小距离分类。
2个总体(总体1和总体2)的基本函数表达为:
式中:
和分别为总体1和总体2的协方差矩阵;和分别为总体1和总体2的均值向量。
判别规则:
其中:
在此题中总体1就是指肾炎病人,总体2指健康人,X就是每个样本中的7种元素的值构成的一个向量。
通过化简,原判别函数就可以转换为:
其中:
为样本中第i种元素的值,为第i种元素的判定系数。
现选取20名肾炎患者和20名健康人的数据作为样本,通过matlab编程求出判定函数的各个判定系数,然后确定判定函数。
结果如下:
确定判定临界值。
依据求出的判定函数表达式和判定临界值就得到了一种简单的判定方法,即:
根据每个就诊人员中各元素值,计算出判定函数的值,然后将计算出的判定函数的值与判定临界值进行比较,如果判定函数的值大于等于判定临界值,则判定其为患病,否则判定其为健康。
现利用剩下的10名肾炎患者和10名健康人的数据对该费歇尔判别模型进行检验,并计算该判定模型的准确率。
计算结果如表1、表2所示。
表110名肾炎患者对模型的检验
病例号
21
22
23
24
25
26
27
28
29
30
f(X)
1.598217
1.422755
-0.57788
0.230936
-0.77317
1.464474
0.143876
1.529581
0.609603
1.104563
与d的比较
大于
大于
大于
大于
大于
大于
大于
大于
大于
大于
是否患病
患病
患病
患病
患病
患病
患病
患病
患病
患病
患病
表210名健康人对模型的检验
病例号
51
52
53
54
55
56
57
58
59
60
f(X)
-4.39821
-1.80257
-1.62888
-2.17763
-5.43523
-4.37493
-5.10223
-2.8534
-2.26974
-0.71405
与d的比较
小于
小于
小于
小于
小于
小于
小于
小于
小于
大于
是否患病
健康
健康
健康
健康
健康
健康
健康
健康
健康
患病
从表1、表2可以看出在对剩余20人的判定中,仅有1个判定错误,所以该模型的判定正确率高达95%。
根据该判定模型,对30名就诊人员的化验结果进行判别,具体结果如表3所示。
表3对30组就诊人员进行预测
病例号
61
62
63
64
65
66
67
68
69
70
f(X)
0.411117
-0.62626
-1.1581
0.929443
-0.40762
-1.14984
-2.13477
-0.29227
0.018507
-2.65306
与d的比较
大于
大于
小于
大于
大于
小于
小于
大于
大于
小于
是否患病
患病
患病
健康
患病
患病
健康
健康
患病
患病
健康
病例号
71
72
73
74
75
76
77
78
79
80
f(X)
0.313133
0.9539
0.455611
-1.7666
-0.85532
0.274089
-1.53291
-1.51958
-0.10697
-3.13663
与d的比较
大于
大于
大于
小于
大于
大于
小于
小于
大于
小于
是否患病
患病
患病
患病
健康
患病
患病
健康
健康
患病
健康
病例号
1
2
3
4
5
6
7
8
9
10
f(X)
-4.14866
-2.92481
1.336701
-1.74666
0.675634
-2.3804
-0.75702
-4.1025
-7.368
-1.50392
与d的比较
小于
小于
大于
小于
大于
小于
大于
小于
小于
小于
是否患病
健康
健康
患病
健康
患病
健康
患病
健康
健康
健康
从表3可以看出在对30名就诊人员的化验结果进行的判定中,其中15名就诊人员为肾炎病人,15名就诊人员为健康人。
4.2问题2的建模求解
4.2.1主成分分模型介绍
主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。
在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。
这些综合指标就称为主成分。
要讨论的问题是:
(1)基于相关系数矩阵还是基于协方差矩阵做主成分分析。
当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。
(2)选择几个主成分。
主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。
关于保留几个主成分,应该权衡主成分个数和保留的信息。
(3)如何解释主成分所包含的经济意义。
假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。
这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。
主成分分析通常的做法是,寻求原指标的线性组合Fi。
满足如下的条件:
(1)每个主成分的系数平方和为1。
即:
(2)主成分之间相互独立,即无重叠的信息。
即:
(3)主成分的方差依次递减,重要性依次递减,即:
根据B.1中的数据,我们利用Matlab7.0中的princomp命令实现,具体程序见附录。
通过计算,我们求出了前三个主成分,即:
第一主成分贡献率为44.702%,第二主成分贡献率为28.192%,第三主成分贡献率为10.327%,前三个主成分累计贡献率达83.221%。
如果按80%以上的信息量选取新因子,则可以选取前三个新因子。
第一新因子包含的信息量最大为44.702%,它的主要代表变量为(Ca),(Mg),其权重系数分别为-0.50744、-0.53169,反映了这两个变量与是否患病密切相关,第二新因子包含的信息量次之为28.192%,它的主要代表变量为(K),(Na)其权重系数分别为—0.60908、-0.643,第三新因子包含的信息量为10.327%,代表变量为(Zn),权重系数为-0.71858。
这些代表变量反映了各自对该新因子作用的大小,它们是判别是否患病中最重要的影响因素。
因此我们选择Zn,Ca,Mg,K,Na五个指标为影响人们患肾炎的关键因素。
重复问题1的过程,依据前20名肾炎患者和前20名健康人的数据得到新的判定函数为:
判定临界值为d=-0.21104,用剩下的10名肾炎患者和10名健康人的数据对该费歇尔判别模型进行检验,并计算该判定模型的准确率。
计算结果如表4,表5所示。
表4选取新的指标后10名肾炎患者对模型的检验
病例号
21
22
23
24
25
26
27
28
29
30
f(X)
1.622856
1.366988
-0.36699
0.33135
-0.28631
1.044392
-0.21621
0.813985
1.257566
-0.37118
与d的比较
大于
大于
小于
大于
小于
大于
小于
大于
大于
小于
是否患病
患病
患病
健康
患病
健康
患病
健康
患病
患病
健康
表5选取新的指标后10名健康人对模型的检验
病例号
51
52
53
54
55
56
57
58
59
60
f(X)
-1.03331
-0.80554
-0.64242
-0.78181
-3.40137
-2.59551
-2.67073
-1.29735
-1.35379
-0.48463
与d的比较
小于
小于
小于
小于
小于
小于
小于
小于
小于
小于
是否患病
患病
健康
健康
健康
健康
健康
健康
健康
健康
健康
从表4、表5可以看出在对剩余20人的判定中,有4个判定错误,所以该模型的判定正确率达80%。
所以我们得出结论:
在减少了化验指标后,模型的正确率下降了。
根据该判定模型,对30名就诊人员的化验结果进行判别,具体结果表6所示。
表6选取新的指标后的预测结果
病例号
61
62
63
64
65
66
67
68
69
70
f(X)
1.010108
0.627376
0.477922
1.452376
0.161853
-0.01148
0.242043
0.994902
0.692971
-0.30443
与d的比较
大于
大于
大于
大于
大于
大于
大于
大于
大于
小于
是否患病
患病
患病
患病
患病
患病
患病
患病
患病
患病
健康
病例号
71
72
73
74
75
76
77
78
79
80
f(X)
1.864421
1.489547
0.795372
-0.76593
-0.95345
0.390303
-0.98806
-0.32014
-0.5215
-1.8363
与d的比较
大于
大于
大于
小于
小于
大于
小于
小于
小于
小于
是否患病
患病
患病
患病
健康
健康
患病
健康
健康
健康
健康
病例号
1
2
3
4
5
6
7
8
9
10
f(X)
-2.22245
-1.66468
1.406294
-0.77414
1.233737
-1.31817
0.650579
-1.34248
-2.73572
-1.06872
与d的比较
小于
小于
大于
小于
大于
小于
大于
小于
小于
小于
是否患病
健康
健康
患病
健康
患病
健康
患病
健康
健康
健康
从表6可以看出在对30名就诊人员的化验结果进行的判定中,其中16个就诊人员为肾炎病人,14个就诊人员为健康人。
4.3结果比较
对简化前后的结果进行对比发现,病例号为3、6、7、15、19共5位急诊人员的诊断结果不同,占总人数的83.33%
基于以上两个问题的求解,我们发现主成分分析前后的两个模型各有优缺点。
一种需要测量的元素种类较多,但结果相对准确;另一种操作简便,但误差相对较大。
因此我们最终得出结论,认为应结合实际情况,在不同情况下使用不同的模型。
医疗条件相对较差的医院,可以采用操作简便的模型,医疗条件相对较好的医院因采用准确率较高的模型。
在初步诊断的情况下,可以采用测量元素相对较少的模型可以省时省事,在复诊或对准确率较高的情况下,对7种元素进行测量,保证结果的准确率。
五、模型评价
5.1优点:
1.本文采用的费歇尔判别模型对总体的分布类型没有要求;
2.该模型简单,但对是否患病的判别正确率较高;
5.2缺点:
1.本文采用的费歇尔判别模型由于变量之间的相关性和多元线性函数变量之间可能存在多重共线性,从而将影响判别的准确性;
六、模型的应用与推广
这种判别在实际生活中很多,所以这些判别法在日常发挥着很多的作用,除了看病外,地质学中判断有矿无矿,工厂判断产品合格不合格,为新发现的物种分类都可以用这些方法进行分析。
在对某一事物的影响因素进行研究时,可以通过主成分分析,在多个影响因素中选取几个最重要的因素进行研究,以减少研究的难度,加快研究的效率,又不减少研究的准确率。
因此在研究或疾病诊断中有很好的推广前景。
七、参考文献
[1]钟冲,郭强,费歇尔判别法及其应用,西南交通大学学报,第43卷第1期:
第136页至第141页,2008年。
[2]范金城,梅长林,数据分析,北京:
科学出版社,2002年。
[3]研学论坛,如何用matlab中主成分分析的函数princomp,http:
//bbs.matwav.
com/viewthread.php?
tid=798666,2009年8月28日。
附录
程序:
clear;
x=Sheet1;
stdr=std(x);%求各变量标准差
[n,m]=size(x);
sddata=x./stdr(ones(n,1),:
);%标准化变换
[p,princ,egenvalue]=princomp(sddata)%调用主成分分析程序
p3=p(:
,1:
3)%输出前三个主成分系数
sc=princ(:
,1:
3)%输出前三个主成分得分
egenvalue%输出特征根
per=100*egenvalue/sum(egenvalue)%输出各个主成分贡献率
表B.1确诊病例的化验结果
病例号
Zn
Cu
Fe
Ca
Mg
K
Na
1
166
15.8
24.5
700
112
179
513
2
185
15.7
31.5
701
125
184
427
3
193
9.80
25.9
541
163
128
642
4
159
14.2
39.7
896
99.2
239
726
5
226
16.2
23.8
606
152
70.3
218
6
171
9.29
9.29
307
187
45.5
257
7
201
13.3
26.6
551
101
49.4
141
8
147
14.5
30.0
659
102
154
680
9
172
8.85
7.86
551
75.7
98.4
318
10
156
11.5
32.5
639
107
103
552
11
132
15.9
17.7
578
92.4
1314
1372
12
182
11.3
11.3
767
111
264
672
13
186
9.26
37.1
958
233
73.0
347
14
162
8.23
27.1
625
108
62.4
465
15
150
6.63
21.0
627
140
179
639
16
159
10.7
11.7
612
190
98.5
390
17
117
16.1
7.04
988
95.5
136
572
18
181
10.1
4.04
1437
184
101
542
19
146
20.7
23.8
1232
128
150
1092
20
42.3
10.3
9.70
629
93.7
439
888
21
28.2
12.4
53.1
370
44.1
454
852
22
154
13.8
53.3
621
105
160
723
23
179
12.2
17.9
1139
150
45.2
218
24
13.5
3.36
16.8
135
32.6
51.6
182
25
175
5.84
24.9
807
123
55.6
126
26
113
15.8
47.3
626
53.6
168
627
27
50.5
11.6
6.30
608
58.9
58.9
139
28
78.6
14.6
9.70
421
70.8
133
464
29
90.0
3.27
8.17
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 化验 检查 诊断 问题