数学建模解多元线性回归问题.docx
- 文档编号:14700900
- 上传时间:2023-06-26
- 格式:DOCX
- 页数:12
- 大小:20.08KB
数学建模解多元线性回归问题.docx
《数学建模解多元线性回归问题.docx》由会员分享,可在线阅读,更多相关《数学建模解多元线性回归问题.docx(12页珍藏版)》请在冰点文库上搜索。
数学建模解多元线性回归问题
资料范本
本资料为word版本,可以直接编辑和打印,感谢您的下载
数学建模解多元线性回归问题
地点:
__________________
时间:
__________________
说明:
本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容
公司年销售额的分析
摘要
公司年销售额通常和很多因素有关,但它们之间并不是确定性关系,所以我们用回归分析来处理,并建立了多元线性回归模型。
本文用最小二乘的方法给出了变量间相关关系的回归方程,针对各因素对公司年销售额的影响我们与偏回归平方和联系起来,并将各因素的影响程度进行了排序。
还通过F检验和T检验分别验证了回归方程的显著性和方程系数的显著性。
最后我们采用了逐个剔除的方法找出了影响年销售额的主要因素,并且建立了新的回归方程,再次进行检验,新回归方程高度显著,最后得到了个人可支配收入、价格、投资和广告费密切相关的结论。
第一问:
我们首先对附表1的数据进行处理,利用MATLAB对残差向量进行分析,剔除其中的异常点。
然后建立起多元线性回归模型,采用最小二乘的方法来估计回归方程的参数。
我们引入偏回归平方和的概念来判定各因素对年销售额的影响程度,并对各因素的影响程度由深到浅进行了排序。
第二问:
通过对回归平方和和剩余平方和的分析,并且运用F检验法来判定线性回归方程的显著性。
由于回归方程显著并不意味着每个自变量,,,…对因变量的影响都是重要的。
所以我们对方程系数的显著性用T检验法进行了检验。
最后通过逐个剔除的方法找出了其中的主要因素,主要因素为:
个人可支配的收入、价格、投资、广告费这四个方面。
第三问:
通过逐个剔除的方法建立了新的回归方程,并对新的回归方程进行显著性检验,对方程系数进行显著性检验。
得到了公司的年销售额与个人可支配收入、价格、投资和广告费密切相关的结论。
关键词:
多元线性回归最小二乘法F检验T检验偏回归平方和
1问题重述
在经济流通领域中,某公司的年销售额()与个人可支配的收入();商人的回扣();价格();研究与发展费();投资();广告费();销售费用();总的工业广告预算()等有关。
附表1中是某公司的原始数据。
建立模型,分析各因素对年销售额的影响程度。
并对所做模型进行检验,找出影响销售额的主要因素。
最后分析主要因素与销售额的关系,并给出结论。
2问题分析
对于公司年销售额的分析,我们知道,和有关的变量有=8\*Arabic8个,研究与变量,,,…之间的定量关系的问题为多元回归问题。
又因为许多多元非线性回归问题都可以化为多元线性回归问题,所以对于本问题我们建立了多元线性回归的数学模型。
第一问:
首先对附表1的数据进行处理,对残差向量进行,剔除其中的异常点。
然后我们建立了多元线性回归的数学模型,并采用了最小二乘法来估计参数。
把模型写成矩阵的形式,化简整理得其正规方程组,通过对正规方程组的求解,最后得到回归方程。
对于各因素对年销售额的影响程度,由于利用偏回归平方和可以衡量每个变量在回归中所起的作用大小(即影响程度),我们对每个变量的偏回归平方和进行了计算,最后把影响程度由深到浅的各因素进行了排序。
第二问:
回归方程的显著性检验:
事先我们并不能断定随机变量与一般变量,,,…之间是否确有线性关系。
在求线性回归方程前线性回归模型只是一种假设,所以在求出线性回归方程之后,我们需要对其进行统计检验。
将总的平方和分解为回归平方和和剩余平方和,运用F检验法来判定线性回归方程的显著性。
回归系数的显著性检验:
由于回归方程显著并不意味着每个自变量,,,…对因变量的影响都是重要的。
而我们要找出响销售额的主要因素,即从回归方程中剔除那些次要的、可有可无的变量,这就需要我们对每个变量进行考察。
显然,如果某个变量对的作用不显著,那么在多元线性回归模型中,它前面的系数就可以取值为零。
因此,检验因子是否显著等价于检验假设。
最后再运用T检验法来辨别模型中哪些因子是显著的。
第三问:
由于回归系数之间存在相关性,当从原回归方程中剔除一个变量时,其他变量,特别是与它密切相关的一些变量的回归系数就会受到影响,剔除一个变量后,这个变量对的影响很大部分转加到另一个变量对的影响上。
所以,我们对回归系数进行一次检验后,只能剔除所有不显著因子中值最小的,然后重新建立新的回归方程,再对新的回归系数逐个进行检验,直到余下的回归系数都显著为止。
3符号说明
表一
4模型假设
1.影响销售额的各个因素相互之间关联性不大,即相互独立。
2.异常值认为是人为因素引起的,可将其剔除。
5模型的建立与求解
第一问:
5.1模型Ⅰ“多元线性回归的数学模型”
5.1.1模型的建立
1、处理数据
我们先通过MATLAB(程序见附录1)对原始数据进行检验,对残差向量进行分析,得到了残差向量分析图,剔除其中的异常点。
2、设随机变量
假如变量与另外8个变量,,,…的内在联系是线性的,它的第次试验数据是
=1,2,…,8
(1)
那么这一组数据可以假设有如下的结构式:
(2)
其中,,…,是9个待估计参数,,,,…是8个可以精确测量的一般变量,…是38个相互独立且服从同一正态分布的随机变量,这就是多元线性回归的数学模型。
令
,,
,,
那么多元线性回归的数学模型
(2)可以写成矩阵形式
(3)
其中是38维随机向量,它的分量是相互独立的。
3、参数的最小二乘估计
为了估计参数,我们采用最小二乘估计法。
设分别是参数,,…,的最小二乘估计,则回归方程为
(4)
由最小二乘法知道,应使得全部观察值与回归值的偏差平方和达到最小,即使
(5)
所以Q是的非负二次式,最小值一定存在。
根据微积分学中的极值原理,应是下列正规方程组的解:
(6)
显然,正规方程组的系数矩阵是对称矩阵,用来表示,则,且其右端常数项矩阵亦可采用矩阵和来表示:
。
所以可以得到回归方程的回归系数:
(7)
4、由于利用偏回归平方和可以衡量每个变量在回归中所起的作用大小(即影响程度),设是p个变量所引起的回归平方和,是p-1个变量所引起的回归平方和(即除去),则偏回归平方和为:
=-=-=(8)
就是去掉变量后,回归平方和所减少的量。
5.1.2模型的求解
1、数据筛选
通过MATLAB(程序见附录1)作图如下:
此时可见第八个点、第十四个点和第二十八个点是异常点,于是删除原始数据中第八行和第十四行和第二十八行数据。
2、回归方程的求解
由附表1和所得的公式(7),运用MATLAB进行编程(程序见附录2),可得正规矩阵的系数矩阵为:
回归系数为:
,,,,
,,,
回归方程为:
3、偏回归平方和的比较
运用MATLAB进行编程(程序见附录2),得到各因素的偏回归平方和:
根据的大小可判断各因素对年销售额的影响程度:
第二问:
5.2模型Ⅱ
5.2.1模型的建立
1、设随机变量
回归方程的显著性检验(F检验):
因为是第个试验点上的回归值,显然
总的偏差平方和为
(9)
它的自由度为,
又因为,其中回归平方和为
(10)
是由于引入变量,,,…后引起的,剩余平方和
(11)
它是由于实验误差和其他一些因素引起的。
如果变量y与变量,,,…之间无线性关系,则模型
(2)中的一次项系数应均为零。
所以要检验变量y与变量,,,…之间是否有线性关系,即要检验假设
(12)
是否成立,这一点可以通过比较和来实现。
可以证明:
在满足矩阵X满秩和假设成立的条件下,
(13)
和相互独立,从而
(14)
这样就用统计量F检验假设成立与否,若对于给定的一组数据,算得
(15)
在显著水平下,认为回归方程有显著意义。
2、方程系数的显著性检验(T检验):
某个自变量如果对作用不显著,则它的系数就应取值为0,因此检验每个自变量是否显著,就要检验假设:
在假设下,可应用检验:
(16)
其中为矩阵的对角线上第个元素。
对给定的检验水平α,从分布表中可查出与α对应的临界值,如果有,则拒绝假设,即认为与0有显著差异,这说明对有重要作用不应剔除;如果有则接受假设,即认为成立,这说明对不起作用,应予剔除。
采用,来检验回归系数是否显著。
5.2.2模型的求解
1、回归方程的显著性检验:
运用MATLAB进行编程(程序见附录2)
取,。
所以回归方程高度显著。
2、方程系数的显著性检验:
第一次检验对所得各项回归系数进行t检验
剔除第一次检验所有不显著因子中t值最小的因子
剔除第二次检验所有不显著因子中t值最小的因子
剔除第三次检验所有不显著因子中t值最小的因子
剔除第四次检验所有不显著因子中t值最小的因子
计算知:
,所以,,,显著,其余变量对贡献不大,应剔除。
5.3模型Ⅲ
由第二问得到,,,是影响销售额的主要因素,我们只考虑这四个因素与销售额的关系,再根据第一问的方法,运用MATLAB求解,重新建立回归方程:
然后再次检验新的回归方程的显著性,得
,
所以回归方程高度显著。
又因为
(由上问可知)
所以自变量,,,高度显著。
最后得出结论:
销售额的大小与个人可支配收入、价格、投资和广告费密切相关。
6模型的评价
6.1模型的优点
本文对于各种因素对于销售额的影响建立了多元线性回归模型,全面综合考虑了各个方面的因素,避免了单一因素分析的不准确性,得出了合理的数学模型。
并且通过各因素的显著性分析,找到了影响销售额的主要因素,较符合实际情况,模型可靠,并且模型相对简单,利于操作;该方法不仅适用于本题,也适用于其他方面的数据预测,有实际背景,可运用于实践,具有广泛适用性。
6.2模型的缺点
本文忽略了除了所给因素之外的因素对销售额的影响,与实际问题存在偏差。
同时是在假设各因素相互独立的情况下对销售额的影响进行分析,可能会导致误差
7模型的改进与推广
模型中得到最优回归方程的方法是从包含全部变量的回归方程中逐次剔除不显著因子,这种方法是在不显著因子不多时采用,当不显著因子较多时,则工作量将会相当大,因为每剔除一个变量就得重新计算回归系数。
鉴于以上问题,我们引入了逐步回归分析的方法,它的基本思想是将因子一个个引入,引入因子的条件是,该因子的偏回归平方和经检验时显著的。
同时,每引入一个新因子后,要对老因子逐个检验,将偏回归平方和变为不显著的因子剔除。
这种方法不需要计算偏相关系数,计算较简便,并且由于每步都作检验,因而保证了最后所得的方程中所有因子都是显著的。
若回归方程是拟合好的,就可以进一步利用它来进行预报和控制。
预报问题,用统计数学的语言来说就是一个区间估计问题。
在建立气象预报、地震预报、自动控制等数学模型时,都可以用到本文的模型。
8参考文献
[1]马新民,王逸迅.概率与数理统计[M].北京:
机械工业出版社,2010.
[2]刘卫国.MATLAB程序设计与应用[M].北京:
高等教育出版社,2009.
[3]茆诗松.回归分析及其试验设计[M].上海:
华东师范大学出版社,1986.
9附录
1、筛选数据程序
%data(14,:
)=[];
%data(28,:
)=[];
%data(8,:
)=[];
n=35;m=8;
alpha=0.05;
y=data(:
9);
x1=data(:
1);
x2=data(:
2);
x3=data(:
3);
x4=data(:
4);
x5=data(:
5);
x6=data(:
6);
x7=data(:
7);
x8=data(:
8);
X=[ones(n,1),x1,x2,x3,x4,x5,x6,x7,x8];
[b,bint,r,rint,s]=regress(y,X,alpha);
%b回归系数
%bint回归系数的区间估计
%r残差
%rint残差置信区间
%stats用于检验回归模型的统计量,有三个数值:
相关系数R2、F值、与F对应的概率p,相关系数R2越接近1,说明回归方程越显著;
%F>F1-α(k,n-k-1)时拒绝H0,F越大,说明回归方程越显著;与F对应的概率p时拒绝H0,回归模型成立。
%Y为n*1的矩阵;
%X为(ones(n,1),x1,…,xm)的矩阵;
%alpha显著性水平
s2=sum(r.^2)/(n-m-1);
b,bint,s,s2
rcoplot(r,rint);
%用这个图来来做参差及其置信区间的图,如果数据的置信区间不包含零点,则可认为这个数据是异常的,应把它剔除
2、求多元回归方程并且进行显著性检验
[m,n]=size(data);
Y=data(:
9);
X=zeros(38,9);
X(:
1)=1;
Z=zeros(38,1);
t=zeros(1,8);
Q=zeros(1,8);
fori=1:
m
forj=2:
9
X(i,j)=data(i,j-1);
end
end
A=X'*X;
C=inv(A);
b=C*X'*Y;%求多元线性回归方程的系数
fori=1:
m
Z(i)=b
(1)+b
(2)*data(i,1)+b(3)*data(i,2)+b(4)*data(i,3)+b(5)*data(i,4)+b(6)*data(i,5)+b(7)*data(i,6)+b(8)*data(i,7)+b(9)*data(i,8);
end
%将数据代入回归方程,求出理论值
fori=2:
9
Q(i-1)=(b(i).*b(i))/C(i,i);%求各因素所占比重
end
Q
ft=m-8-1;
St=0;Sf=0;
fori=1:
m
St=St+(Y(i)-Z(i)).*(Y(i)-Z(i));%求S剩
Sf=Sf+(Z(i)-mean(Y)).*(Z(i)-mean(Y));%求S总
end
p=sqrt(St/ft)
fori=2:
9
t(i-1)=abs(b(i)/(p*sqrt(C(i,i))));%t检验
end
b
t
St
Sf
Z
C
F=(Sf/8)/(St/ft);%F检验
flag=1;
a=min(t)
利用第一个多元回归方程求出来的理论值
利用最终的回归方程求出来的理论值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 多元 线性 回归 问题