数学实验报告利用MALTAB进行回归分析.docx
- 文档编号:14160853
- 上传时间:2023-06-21
- 格式:DOCX
- 页数:25
- 大小:203.61KB
数学实验报告利用MALTAB进行回归分析.docx
《数学实验报告利用MALTAB进行回归分析.docx》由会员分享,可在线阅读,更多相关《数学实验报告利用MALTAB进行回归分析.docx(25页珍藏版)》请在冰点文库上搜索。
数学实验报告利用MALTAB进行回归分析
实验十回归分析
一、影院收入
㈠问题描述
调查电视广告费用和报纸广告费用对每周收入的影响,得到数据,建立回归模型并进行检验,诊断异常点的存在并进行处理.
㈡简要分析
本题属于多元回归分析,题目要求建立模型并进行检验。
由于对于广告相关的知识不够了解,这里分别使用线性和多项式模型进行求解。
建立模型见下节。
㈢结果与分析
首先画出三维散点图像,通过旋转观察趋势。
可以大致看出,电影院收入与广告费的投入正相关。
分别画出y与x1,y与x2的散点图。
可以大概看出电视广告费用与电影院收入的正相关趋势,但是并不明显。
可以看出报纸广告费用与电影院收入有着更好的正相关趋势。
1、多元线性回归
y=β0+β1*x1+β*x2
y表示电影院收入,x1表示电视广告费,x2表示报纸广告费。
使用regress命令进行回归分析,得得到如下结果:
b=
8.321160927008884e+001
1.298462204894947e+000
2.337159771857618e+000
即y=83.211+1.298x1+2.337x2
bint=
7.880577047978311e+0018.761744806039458e+001
4.007003329151720e-0012.196224076874721e+000
1.485971104375634e+0003.188348439339602e+000
s=
9.088948325450431e-001
2.494081449865064e+001
2.505287241894694e-003
4.896902750703929e-001
验证模型的有效性:
(1)β1、β2的置信区间不含零点,说明有效;
(2)R2约为0.91,说明有效性较好;
(3)β1、β2置信区间较大,说明有效性还不够好
作出残差的置信区间图:
可以看出第一个点的置信区间不包含零点,认为这个数据异常,将其取出再次计算。
b=
8.148805113915761e+001
1.287657761022766e+000
2.976561219472206e+000
bint=
7.878780950561033e+0018.418829277270488e+001
7.963530683768555e-0011.778962453668677e+000
2.328093878103018e+0003.625028560841394e+000
s=
9.768476263597862e-001
8.438423131380992e+001
5.360324051760790e-004
1.256843140468749e-001
可以看出R2约为0.9768,较上次拟合有所提高,且β1、β2的置信区间有所减小,说明回归更加精确。
2、多项式回归
建立模型:
y=β0+β1*x1+β2*x2+β3*x12+β4*x1*x2+β5*x22
将之前剔除的离群点加入,进行回归分析得到:
beta=
8.541353344890301e+001
-3.082142133837331e+000
3.886856973036645e+000
9.339761147729149e-001
2.830411521743378e-001
-4.748877056161781e-001
剩余标准差s=0.141484073634674
剩余方差s2=.020*********
可以看出剩余方差比之前两次回归分析得到的结果都小,说明模型更加准确。
3、小结
从上面的实验可以看出,使用二次回归模型更好地符合原问题,其实这是一个自然的结果,毕竟后者包含了前者的任意可能结果。
不过此问题中线性规划已经取得了较好的结果,因此解决实际问题时不必使用二次回归模型。
此外,在进行线性回归时,进行检验并剔除离群点会使拟合的精确度有很好的提高。
㈣程序清单
1、线性模型
clear;clc;
y=[9690959295959494];
x1=[1.521.52.53.32.34.22.5];
x2=[5242.533.52.53];
plot3(x1,x2,y,'b*');
gridon;
X=[ones(length(x1),1),x1',x2'];
[b,bint,r,rint,s]=regress(y',X);
b
bint
s
rcoplot(r,rint);
2、二次回归
clear;clc;
y=[9690959295959494];
x1=[1.521.52.53.32.34.22.5];
x2=[5242.533.52.53];
X=[x1',x2'];
rstool(X,y');
rcoplot(r,rint);
二、供货
㈠问题描述
汽车销售商认为汽车销售量与汽油价格、贷款利率有关,给出两种类型汽车(普通型和豪华型)18个月的调查资料。
(1)对普通型和豪华型汽车分别建立如下模型:
给出
的估计值和置信区间,决定系数,F值和剩余方差
(2)用
表示汽车类型,建立统一模型:
给出
的估计值和置信区间,决定系数,F值和剩余方差等,以
代入统一模型,将结果与
(1)的两个模型的结果比较,解释两者的区别。
(3)对统一模型就每种类型汽车分别作
和
与残差的散点图,有什么现象,说明模型有何缺陷
(4)对统一模型增加二次项和交互项,考察结果有什么改进
㈡方法与模型
本题设计了多元线性回归以及残差分析、交互项等内容,具体方法和模型根据每一问的不同需要不断调整,具体内容见下一节。
㈢结果与分析
1、线性回归
首先画出y1与x1、x2,y2与x1、x2的三维图像。
y1与x1、x2的图像:
y2与x1、x2之间的关系:
通过旋转观察到y1,y2都与x1,x2呈负相关。
回归分析
b1=
9.018136585730871e+001
-2.765882870806992e+001
-3.228346793716312e+000
bint1=
4.619708337901787e+0011.341656483355995e+002
-5.455423361469730e+001-7.634238014425385e-001
-4.274746088507830e+000-2.181947498924794e+000
s1=
8.592850200702558e-001
4.579922943345883e+001
4.097816417303335e-007
2.079096140790696e+001
b2=
2.454705987370377e+001
-4.628453215108327e+000
-1.436031403352730e+000
bint2=
5.920074457824068e+0004.317404528958348e+001
-1.601843815341429e+0016.761531723197638e+000
-1.879172982685953e+000-9.928898240195071e-001
s2=
8.402466171357945e-001
3.944736265068755e+001
1.061391181722549e-006
3.728762291889717e+000
剔除离群点。
得到:
b1=
1.075600951891631e+002
-3.792826917377474e+001
-3.031449173959885e+000
bint1=
7.531595365638566e+0011.398042367219405e+002
-5.728422527544678e+001-1.857231307210270e+001
-3.786243040717162e+000-2.276655307202609e+000
s1=
9.333894507514000e-0018.407582233869817e+001(F值)
8.734903034213204e-0089.274571632833800e+000(剩余方差)
b2=
2.760195269937935e+001
-5.639268684072110e+000
-1.640688086715026e+000
bint2=
1.246313058112947e+0014.274077481762922e+001
-1.488643040689478e+0013.607893038750556e+000
-2.017510184513368e+000-1.263865988916683e+000
s2=
9.219330114047505e-0017.676182573405352e+001(F值)
6.324675894120446e-0082.028000209115517e+000(剩余方差)
发现豪华车再次出现了离群点,这里不再剔除。
2、统一模型
修改X与Y,再次进行线性回归,得到结果如下:
b=
6.457532397661750e+001
-1.614364096158921e+001
-2.332189098534525e+000
-1.442222222222222e+001
bint=
3.350074910681844e+0019.564989884641656e+001
-3.511933082065837e+0012.832048897479957e+000
-3.070461995174191e+000-1.593916201894859e+000
-1.765462575436173e+001-1.118981869008271e+001
s=
8.365956706337623e-0015.461108153031960e+001
1.097566482144430e-0122.266418048309717e+001
发现了一个离群点——这正是第一次回归时被剔除掉的那个。
剔除掉再次进行计算,得到:
b=
6.341072839681682e+001
-1.659325189834989e+001
-2.135885477561918e+000
-1.358235294117647e+001
bint=
3.524089285479072e+0019.158056393884291e+001
-3.379362808091857e+0016.071242842187772e-001
-2.839717864163267e+000-1.432053090960568e+000
-1.659600504370442e+001-1.056870083864853e+001
s=
8.435448032958891e-0015.391606166276522e+001
3.408162640994306e-0121.850878014942691e+001
发现出现了两个离群点,但是考虑到他们离0较近,这里不再进行剔除。
将得到的解化为
(1)所设模型,对比如下:
普通轿车
豪华轿车
分立模型
统一模型
分立模型
统一模型
β0
107.5600952
64.57532398
27.6019527
50.15310175
β1
-37.92826917
-16.14364096
-5.639268684
-16.14364096
β2
-3.031449174
-2.332189099
-1.640688087
-2.332189099
s2
9.274571633
18.50878015
2.028000209
18.50878015
R2
0.933389451
0.843544803
0.921933011
0.843544803
可以看出,统一模型相当于将分立模型进行了统一:
(1)统一模型的β值趋近于给分立模型的“平均”;
(2)统一模型的残差较大;
(3)统一模型的决定系数较小;
(4)统一模型的拒绝概率较小,到达了10的-12次方量级,说明模型更加有效;
总体上讲,将两者统一后进行回归分析的结果有其优点,但是仍有许多不理想的成分。
3、作残差图
普通轿车:
豪华轿车:
通过旋转,从图中可以看出,普通轿车的残差随着x1,x2的增加呈上升趋势,但豪华轿车的残差随x1,x2的增加呈下降趋势。
这是由于统一模型中x3的加入使得豪华轿车的y被直接抬高,导致了上述现象的出现。
4、二次项和交互项
(1)增加交互项,改用模型:
进行回归分析,得到:
b=
1.411004377798469e+002
-5.743679205516632e+001
-1.258749562223860e+001
-6.563430598360479e+001
5.385499412767738e+000
1.792315390363587e+000
2.303037549296149e+001
bint=
3.956253638526088e+0012.426383391744329e+002
-1.170970384200000e+0022.223454309667375e+000
-3.029675426655443e+0015.121763022077229e+000
-1.113383183433449e+002-1.993029362386467e+001
-4.795263719990420e+0001.556626254552590e+001
7.050032050169353e-0012.879627575710239e+000
-4.916605769707012e+0005.097735675562998e+001
s=
9.203481760174530e-0015.584742815672848e+001
1.276756478318930e-0141.219057432979783e+001
发现R2、F和s2都有所改善,模型有效的概率也有所提高,但是x1,x2的置信区间都包含0,这应当是由于引入交互项x1x3和x2x3导致的。
(2)增加平方项,改用模型:
这里不增加x32是因为它和x3一样。
进行回归分析得到:
b=
-1.409670663904353e+002
2.173993993877811e+002
-6.002174836053398e+000
-1.442222222222222e+001
-6.260180957996929e+001
2.624522441422313e-001
bint=
-7.414504337579853e+0024.595163009771146e+002
-4.561560206777966e+0028.909548194533589e+002
-9.462597484034534e+000-2.541752188072262e+000
-1.751423975213172e+001-1.133020469231273e+001
-2.499892034078656e+0021.247855842479270e+002
6.155502957082115e-0035.187489853273806e-001
s=
8.605579177461341e-0013.702861735151443e+001
5.850209205959800e-0122.062999126251862e+001
画出残差与各个变量之间的关系,发现分配比较均匀,但是置信区间仍存在包含0点现象,且R2、s2较上个模型有所增加,模型有效的概率略有降低。
3、综合
通过对比各个模型,最后得出如下两个综合模型:
模型一:
通过回归分析得到:
b=
6.632561316046274e+001
-7.521817398399753e+000
-7.055755884551737e+000
-2.829747956923546e+001
2.285037806461467e+000
2.705540937203730e-001
bint=
4.500538106854981e+0018.764584525237567e+001
-2.149970782515665e+0016.456073028357144e+000
-9.515642732306020e+000-4.595869036797455e+000
-3.378071979662776e+001-2.281423934184316e+001
1.455970842770991e+0003.114104770151943e+000
9.124210847449554e-0024.498660789662505e-001
s=
9.311296542416800e-0018.112022473439008e+001
1.110223024625157e-0161.018913808712425e+001
可以看到决定系数约为0.931,残差约为10.2,拒绝模型的概率达到了10的-16次方数量级,且各个参量的置信区间中仅x1包含零点,可以认为是较好的模型。
模型二:
回归分析得到:
b=
8.499402636764765e+001
-1.903700514488066e+001
-6.809394676502798e+000
-6.563430598360529e+001
2.303037549296181e+001
1.792315390363582e+000
2.705540937203732e-001
bint=
5.650498703443166e+0011.134830657008636e+002
-3.718757380970865e+001-8.864364800526623e-001
-9.183244425312040e+000-4.435544927693555e+000
-1.056531023108610e+002-2.561550965634957e+001
-1.440223331257528e+0004.750097431718115e+001
8.402562024954153e-0012.744374578231748e+000
9.856901480460173e-0024.425391726361446e-001
s=
9.389318009906731e-0017.431315226377969e+001
3.330669073875470e-0169.346382568379193e+000
这个模型与书后答案所给模型一致。
与之前一种相比,它有着更好的决定系数、更小的残差以及剩余方差,但是模型的有效性略低于前一种。
不过系数的置信区间中也出现了包含0的情况。
总体上讲第二个模型应当有一点略微的优势。
㈣程序清单
1、观察
clear;clc;
x1=[1.89,1.94,1.95,1.82,1.85,1.78,1.76,1.76,1.75,1.74,1.70,1.70,1.68,1.60,1.61,1.64,1.67,1.68];
x2=[6.1,6.2,6.3,8.2,9.8,10.3,10.5,8.7,7.4,6.9,5.2,4.9,4.3,3.7,3.6,3.1,1.8,2.3];
y1=[22.1,15.4,11.7,10.3,11.4,7.5,13,12.8,14.6,18.9,19.3,30.1,28.2,25.6,37.5,36.1,39.8,44.3];
y2=[7.2,5.4,7.6,2.5,2.4,1.7,4.3,3.7,3.9,7.0,6.8,10.1,9.4,7.9,14.1,14.5,14.9,15.6];
figure;
plot3(x1,x2,y1,'b*');
gridon;
figure;
plot3(x1,x2,y2,'b*');
gridon;
2、分立模型
X=[ones(length(x1),1),x1',x2'];
[b1,bint1,r1,rint1,s1]=regress(y1',X);
b1,bint1,s1
figure;
rcoplot(r1,rint1);
pause;
[b2,bint2,r2,rint2,s2]=regress(y2',X);
b2,bint2,s2
figure;
rcoplot(r2,rint2);
3、统一模型
x3=[zeros(1,length(x1)),ones(1,length(x2))];
y1=[22.1,15.4,11.7,10.3,11.4,7.5,13,12.8,14.6,18.9,19.3,30.1,28.2,25.6,37.5,36.1,39.8,44.3];
y2=[7.2,5.4,7.6,2.5,2.4,1.7,4.3,3.7,3.9,7.0,6.8,10.1,9.4,7.9,14.1,14.5,14.9,15.6];
X=[ones(length(x1)+length(x2),1),[x1,x1]',[x2,x2]',x3'];
Y=[y1,y2];
[b,bint,r,rint,s]=regress(Y',X);
b,bint,s
figure;
rcoplot(r,rint);
4、观察残差
X=[ones(length(x1)+length(x2),1),[x1,x1]',[x2,x2]',x3'];
Y=[y1,y2];
[b,bint,r,rint,s]=regress(Y',X);
plot3(x1,x2,r(1:
18,:
)','*');
gridon;
pause;
plot3(x1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 实验 报告 利用 MALTAB 进行 回归 分析