乳腺癌数据的处理.doc
- 文档编号:2177944
- 上传时间:2023-05-02
- 格式:DOC
- 页数:21
- 大小:669.50KB
乳腺癌数据的处理.doc
《乳腺癌数据的处理.doc》由会员分享,可在线阅读,更多相关《乳腺癌数据的处理.doc(21页珍藏版)》请在冰点文库上搜索。
科技学院第十一组:
刘晶晶向雄峰余涛
乳腺癌的判别数学模型
摘要
本文解决的问题是利用9项指标,综合来判别乳腺肿瘤是良性还是恶性。
我们通过初步数据分析,得出各个指标与肿瘤良恶性存在一定的线性关系,于是我们建立了多元线性回归模型。
对于问题一,我们先将附录表一中1-60组数据运用MATLAB中回归分析命令regress作初步的回归分析。
根据所得的残差及其置信区间图,我们将其中6组离群点予以剔除。
然后将余下的54组数据运用Excel作回归分析,由回归统计表中可以得出回归方程中常量和各个系数,由此可以得到判别乳腺癌是良性还是恶性的多元线性回归方程:
同时依据得到的回归统计、方差分析、残差分析等数据作出检验,检验,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好,均一致认为所建立的多元线性回归模型的回归效果显著,于是我们认可所得的多元线性回归方程可以依据9项指标来判别乳腺肿瘤是良性还是恶性。
最后我们再将表一中61-78组数据回代入上述多元线性回归方程,经由计算分析得出所得的回归方程判别乳腺肿瘤是良性还是恶性的正确率高达100%,预测能力显著,明显可以看出所得到回归方程判别乳腺肿瘤是良性还是恶性方法是合理正确的。
至此我们得到了依据9项指标综合判别乳腺肿瘤是良性还是恶性的方法:
将待判别病例的9项指标的数据代入回归方程,计算出的估计值,并对其值作四舍五入取整,,肿瘤是良性;,肿瘤是恶性。
对于问题二,将附录表二中20组需要判别的病例的数据代入模型一中所得回归方程中计算出的估计值,依据问题一的判别方法判别得出20个病例中第1,4,5,7,10,11,15,19组共8个病例是恶性肿瘤,余下12个病例是良性肿瘤。
对于问题三,回归参数表中回归系数的统计量的线性系数显著性值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化的线性回归模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。
作逐步回归分析后,最终所得结果为:
乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,得到最优化的回归模型为:
关键词:
多元线性回归模型逐步回归显著性水平检验
21
1.问题重述
全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。
下面是某医院乳腺肿瘤患者的一组数据见附录一表一,其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。
问题一、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性”还是“恶性”的方法,并检验你提出的方法的正确性。
问题二、现有一组乳腺肿瘤患者的九个指标数据见附录一表二,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”。
问题三、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。
2.模型的假设与符号说明
2.1模型的假设
假设1:
题目所给数据是合理、正确的。
假设2:
假设表中给出化验数据科学可信。
确诊病例确诊情况(患病、健康)准确无误。
假设3:
假设各位被测患者无其他疾病,不会干扰被测数值。
假设4:
假设医生不会仅仅依靠化验结果对患病情况作出最终判断,化验仅仅作为医生诊断的一种辅助手段,所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。
假设5:
题目中给出的原始数据有两组无效,将其舍去认为对解题无影响。
2.2符号说明
乳腺肿瘤肿块的厚度指标;
细胞大小的均匀性指标;
细胞形状的均匀性指标;
边缘的粘连指标;
单层上皮细胞的大小指标;
裸核指标;
温和的染色质指标;
正常的核仁指标;
有丝分裂指标;
诊断结果;
诊断结果估计值;
回归常数;
回归系数;
回归常数估计值;
回归系数估计值;
随机误差项;
显著性水平;
总变差平方和;
残差平方和;
回归平方和;
被分析数据的组数;
第个指标作显著性水平检验;
偏回归平方和;
3.问题分析
此题研究的是医学上常用几个指标来综合判别乳腺肿瘤是良性还是恶性的数学模型。
针对问题一,题目要求我们提出判别方法,依据9项指标的数据,判别肿瘤病例是良性还是恶性。
我们根据所提供的已确诊的病例中分析得知,肿瘤病例是良性还是恶性与各项指标呈相应的线性关系,我们初步提出否能通过病例样本中肿瘤病例是良性或恶性与各项指标来建立回归模型,再验证模型正确性后由模型来判别病例。
因此,我们先选取其中一部分数据进行研究,待建立模型后,将剩余的数据代入模型检验。
针对问题二,题目要求我们利用问题一中提出的方法,对表二中的20个待判别的病例进行判别。
我们分别将各元素的含量输入到在问题一建立的模型中,求出对应的值,然后和0、1进行比较,判别出哪些患者的肿瘤是良性,哪些患者的肿瘤是恶性。
针对问题三,题目要求我们根据已知数据确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,并采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。
我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。
4.数据分析
在初步的数据分析下,肿瘤的良恶性与各指标间的关系还无法得到确定,这无疑给以后数学模型的建立和求解带来了不便。
对于题目给出的化验结果,在一般情况下,都希望能对它们进行数据的规范化处理。
以下9张图是肿瘤良性患者和肿瘤恶性患者各个指标的坐标图,以及存有相关数据的表格,通过这些图我们可以发现,各个指标对应数与乳腺肿瘤是良性还是恶性诊断具有一定的线性对应关系,我们设想,可以用构建线性回归模型的方法来解决此问题。
因此我们选择多元统计分析中利用excel中的回归工具建立回归模型,计算出该线性方程的常量和系数,从而完成模型的初步建立。
同时,我们也看到,在图中的一些点的规律性并不明显,因此我们猜测,可以在构建的方程中忽略一些因素的影响,这就为我们提出简化模型提供了思路。
回归参数表中回归系数的统计量的值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,以此为衡量的标准来筛选9项相关指标,保留其中的主因项,去除非主因素的干扰,重新构建模型,以达到简化模型和提高精度的目的。
5.问题一的解答
针对问题一我们建立了模型一。
5.1模型一的建立
考虑多元一次线性回归模型,我们从总体中选取1-60号病例作为研究样本,以各项指标为自变量;肿瘤的良恶性为因变量。
设多元线性回归模型的一般形式为:
(1)
其中:
因变量,为9个对有显著影响的自变量,是10个待估参数,是随机误差项。
5.2模型一的求解
对于组实际观察数据,由
(1)式得:
(2)
根据
(2)式多元线性回归模型可表示为:
(3)
令
模型的相应矩阵方程表示为:
(4)
由(4)式解得:
(5)
且
(6)
其中:
当时,表示肿瘤为良性;当时,表示肿瘤为恶性。
我们将样本数据代入(5)式,利用MATLAB(求解源程序见附录)软件,用matlab对数据进行初步运算,从残差及其置信区间图找出应6组离群点予以剔除,再用Excel中‘回归’命令对剩下的54组数据组进行分析,得到回归统计表,从而得出较为精确的结论,建立起模型。
残差及其置信区间图
回归统计
MultipleR
0.952533
RSquare
0.90732
AdjustedRSquare
0.888363
标准误差
0.168514
观测值
54
方差分析
df
SS
MS
F
SignificanceF
回归分析
9
12.23202
1.359113
47.86135
8.17E-20
残差
44
1.249463
0.028397
总计
53
13.48148
Coefficients
标准误差
tStat
P-value
Lower95%
Upper95%
下限95.0%
上限95.0%
Intercept
-0.32858
0.057305
-5.73377
8.3E-07
-0.44407
-0.21308
-0.44407
-0.21308
XVariable1
0.060725
0.011789
5.151136
5.84E-06
0.036966
0.084483
0.036966
0.084483
XVariable2
-0.08212
0.027772
-2.95689
0.004982
-0.13809
-0.02615
-0.13809
-0.02615
XVariable3
0.10584
0.028061
3.771817
0.00048
0.049287
0.162392
0.049287
0.162392
XVariable4
0.015509
0.012992
1.193681
0.238999
-0.01068
0.041693
-0.01068
0.041693
XVariable5
0.010307
0.017921
0.575154
0.568117
-0.02581
0.046424
-0.02581
0.046424
XVariable6
0.042092
0.009007
4.673476
2.81E-05
0.02394
0.060244
0.02394
0.060244
XVariable7
0.001685
0.019818
0.085004
0.932644
-0.03826
0.041626
-0.03826
0.041626
XVariable8
0.031964
0.011292
2.830663
0.006976
0.009206
0.054721
0.009206
0.054721
XVariable9
0.034681
0.020673
1.677629
0.10051
-0.00698
0.076345
-0.00698
0.076345
求得各参数的线性回归系数分别为:
则多元线性回归方程为:
(7)
5.3模型一的检验
5.3.1对回归方程进行显著性的检验
R检验法
(8)
则
(9)
R接近于1,说明线性回归拟合效果显著;
检验法
提出假设:
线性关系不显著
线性关系显著
计算检验统计量:
,(11)
代入数据得:
查分布表表知
因为非常接近1,同时远大于,故拒绝,认为在显著性水平下,与之间存在显著的线性相关关系。
5.3.2模型的准确性检验
将表一验证样本的值代入(7)式判别出18个样本的病例情况:
病历号
61
62
63
64
65
66
67
68
69
结果
恶性
良性
恶性
良性
恶性
恶性
良性
良性
恶性
病历号
70
71
72
73
74
75
76
77
78
结果
良性
恶性
恶性
良性
良性
良性
良性
良性
良性
根据题目中所给的已知信息,可以看出,我们运用所求的判别函数所检验的结果与实际情况几乎不存在的误差,也就是说运用一次线性模型判定的结果可信度很高。
6.问题二的解答
运用问题一中所求得的的最优判别函数,我们对附录一中表二中20组病例各项指标对应数据代入模型一中进行判别(用MATLAB求解源程序见附录二),我们将结果整理可制成以下表:
表:
对20组病例各项指标对应数据的判定结果
病例号
1
2
3
4
5
6
7
8
9
10
结果
恶性
良性
良性
恶性
恶性
良性
恶性
良性
良性
恶性
病历号
11
12
13
14
15
16
17
18
19
20
结果
恶性
良性
良性
良性
恶性
良性
良性
良性
恶性
良性
从上表结果中我们可以得知,运用模型一中的判别方法可以判定附录一中表二中20组病例中第1,4,5,7,10,11,15,19组共8个病例是恶性肿瘤,余下12个病例是良性肿瘤。
7.问题三的解答
我们应用剔除法对模型中的不显著元素逐个进行剔除,最终保留下来的元素就是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。
我们知道回归平方和描述了全体自变量对的总影响。
为了研究某个的作用,先把从个自变量中扣除下来,只考虑个自变量的影响,作这个自变量的回归平方和,记作,并记
其中,为在中的偏回归平方和,用它来衡量在对的线性回归中的作用大小。
由于的自由度为1,且,选统计量
算出的值,对给出的显著水平,查出。
代入数据得,其中最小为对置信水平,查表得:
。
所以考虑去掉。
同理,将保留下来的项,再代入数据,求得,其中最小为对置信水平,查表得:
。
所以我们考虑去掉。
同理,将保留下来的项,再代入数据,求得,其中最小为对置信水平,查表得:
。
所以我们考虑去掉。
由于保留下来的,对有显著的线性回归作用,因此,它们所对应的指标即为区分乳腺肿瘤是“良性”还是“恶性”的主要指标,它们分别是乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂。
我们将对应的样本数据代入上式,利用Excel软件,求得各参数项的线性回归系数分别为:
最终优化后的模型为:
8.模型的评价、改进及推广
8.1模型评价
优点:
我们选取部分样本进行研究,通过回归分析建立数学判别模型,并不断进行优化,最终得到拟合优度较高的模型,在判别病例的化验结果来确定就诊人员乳腺肿瘤的良恶性,其准确率达到100%,即该模型的误判率为0。
可见,该模型的可操作性很强,效率很高。
缺点:
由于所给数据太少以致在统计数据时不是很准确,又由于计算机模拟带有一定的随机性,以致得到模型的指标不是很让人满意。
8.2模型改进
对于第一问和第三问可以运用MATLAB软件中的回归分析命令和逐步回归命令进行解答更为方便简单。
8.3模型推广
该模型还可以推广到通过对若干指标的分析判别来与之相关的个体这类实际问题中去,因此我们可以把这个模型应用病虫害的预报,疾病的预测预报,以及红细胞检测,辅助诊断等领域。
参考文献
[1]姜启源,谢金星,叶俊,数学模型(第三版)北京:
高等教育出版社,2003.8
[2]盛骤,谢世千,潘承毅,概率论与数理统计(第三版)北京:
高等教育出版社,2001.12
[3]赵静但琦,数学建模与实验,北京:
高等教育出版社,2003.6
[4]白厚义,回归设计与多元统计分析,广西:
广西科学技术出版社,2003.1
[5]宋来忠,王志明,数学建模与实验,北京:
科学出版社,2005
[6]赵颖,应用数理统计,北京:
北京理工大学,2008.5
附录
附录一
表一:
80组已确诊乳腺肿瘤患者的数据
肿瘤肿块的厚度
细胞大小的均匀性
细胞形状的均匀性
边缘的粘连
单层上皮细胞大小
裸核
温和的染色质
正常的核仁
有丝分裂
良/恶性
5
1
1
1
2
1
3
1
1
0
5
4
4
5
7
10
3
2
1
0
3
1
1
1
2
2
3
1
1
0
6
8
8
1
3
4
3
7
1
0
4
1
1
3
2
1
3
1
1
0
8
10
10
8
7
10
9
7
1
1
1
1
1
1
2
10
3
1
1
0
2
1
2
1
2
1
3
1
1
0
2
1
1
1
2
1
1
1
5
0
4
2
1
1
2
1
2
1
1
0
1
1
1
1
1
1
3
1
1
0
2
1
1
1
2
1
2
1
1
0
5
3
3
3
2
3
4
4
1
1
1
1
1
1
2
3
3
1
1
0
8
7
5
10
7
9
5
5
4
1
7
4
6
4
6
1
4
3
1
1
4
1
1
1
2
1
2
1
1
0
4
1
1
1
2
1
3
1
1
0
10
7
7
6
4
10
4
1
2
1
6
1
1
1
2
1
3
1
1
0
7
3
2
10
5
10
5
4
4
1
10
5
5
3
6
7
7
10
1
1
5
1
1
1
2
1
3
1
1
0
3
1
1
1
2
1
2
1
1
0
8
4
5
1
2
?
7
3
1
1
1
1
1
1
2
1
3
1
1
0
5
2
3
4
2
7
3
6
1
1
3
2
1
1
1
1
2
1
1
0
5
1
1
1
2
1
2
1
1
0
2
1
1
1
2
1
2
1
1
0
1
1
3
1
2
1
1
1
1
0
3
1
1
1
1
1
2
1
1
0
10
7
7
3
8
5
7
4
3
1
2
1
1
2
2
1
3
1
1
0
3
1
2
1
2
1
2
1
1
0
2
1
1
1
2
1
2
1
1
0
10
10
10
8
6
1
8
9
1
1
6
2
1
1
1
1
7
1
1
0
5
4
4
9
2
10
5
6
1
1
2
5
3
3
6
7
7
5
1
1
6
6
6
9
6
?
7
8
1
0
10
4
3
1
3
3
6
5
2
1
6
10
10
2
8
10
7
3
3
1
5
6
5
6
10
1
3
1
1
1
10
10
10
4
8
1
8
10
1
1
1
1
1
1
2
1
2
1
2
0
3
7
7
4
4
9
4
8
1
1
1
1
1
1
2
1
2
1
1
0
4
1
1
3
2
1
3
1
1
0
7
8
7
2
4
8
3
8
2
1
9
5
8
1
2
3
2
1
5
1
5
3
3
4
2
4
3
4
1
1
10
3
6
2
3
5
4
10
2
1
5
5
5
8
10
8
7
3
7
1
10
5
5
6
8
8
7
1
1
1
10
6
6
3
4
5
3
6
1
1
8
10
10
1
3
6
3
9
1
1
8
2
4
1
5
1
5
4
4
1
5
2
3
1
6
10
5
1
1
1
9
5
5
2
2
2
5
1
1
1
5
3
5
5
3
3
4
10
1
1
1
1
1
1
2
2
2
1
1
0
9
10
10
1
10
8
3
3
1
1
6
3
4
1
5
2
3
9
1
1
1
1
1
1
2
1
2
1
1
0
10
4
2
1
3
2
4
3
10
1
4
1
1
1
2
1
3
1
1
0
5
3
4
1
8
10
4
9
1
1
8
3
8
3
4
9
8
9
8
1
1
1
1
1
2
1
3
2
1
0
5
1
3
1
2
1
2
1
1
0
6
10
2
8
10
2
7
8
10
1
1
3
3
2
2
1
7
2
1
0
9
4
5
10
6
10
4
8
1
1
10
6
4
1
3
4
3
2
3
1
1
1
2
1
2
2
4
2
1
0
1
1
4
1
2
1
2
1
1
0
5
3
1
2
2
1
2
1
1
0
3
1
1
1
2
3
3
1
1
0
2
1
1
1
3
1
2
1
1
0
2
2
2
1
1
1
7
1
1
0
表二:
20组乳腺肿瘤患者九个指标的数据
10
4
7
2
2
8
6
1
1
5
1
1
1
2
1
3
1
2
5
2
2
2
2
1
2
2
1
5
4
6
6
4
10
4
3
1
8
6
7
3
3
10
3
4
2
1
1
1
1
2
1
1
1
1
6
5
5
8
4
10
3
4
1
1
1
1
1
2
1
3
1
1
1
1
1
1
1
1
2
1
1
8
5
5
5
2
10
4
3
1
10
3
3
1
2
10
7
6
1
1
1
1
1
2
1
3
1
1
2
1
1
1
2
1
1
1
1
1
1
1
1
2
1
1
1
1
7
6
4
8
10
10
9
5
3
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
3
1
3
4
4
10
5
1
3
3
1
4
2
3
5
3
8
7
6
1
5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 乳腺癌 数据 处理