数据分析课程论文.doc
- 文档编号:588585
- 上传时间:2023-04-29
- 格式:DOC
- 页数:28
- 大小:476.17KB
数据分析课程论文.doc
《数据分析课程论文.doc》由会员分享,可在线阅读,更多相关《数据分析课程论文.doc(28页珍藏版)》请在冰点文库上搜索。
海南大学
数据分析课程论文
题目:
我国人均GDP的发展情况及其影响因素分析
学号:
姓名:
年级:
2010级
学院:
信息科学技术学院
系别:
数学系
专业:
数学与应用数学
指导教师:
完成日期:
2013年6月25日
摘要
人均国内生产总值(RealGDPpercapita),也称作“人均GDP",常作为发展经济学中衡量经济发展状况的指标,是重要的宏观经济指标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具。
将一个国家核算期内(通常是一年)实现的国内生产总值与这个国家的常住人口(目前使用户籍人口)相比进行计算,得到人均国内生产总值。
是衡量各国人民生活水平的一个标准,为了更加客观的衡量,经常与购买力平价结合。
本文依据1978–2008年我国人均消费和人均国内生产总值和2003年各地区人均国内生产总值和对外开放水平的相关数据,运用相关知识,对我国人均消费和人均国内生产总值关系、分布地区及对外水平和人均国内生产总值关系进行检验。
首先应用从《中国统计年鉴》收集的1987–2008年我国人均国内生产总值的数据,利用MATLAB软件求出其数字特征,根据求出的数据特征进行分析;再利用MATLAB软件绘制曲线图,根据图形分析其变化趋势。
其次应用所搜集的2003年各地区的统计数据,应用MATLAB软件进行数据拟合,直观的展现变量之间的关系。
关键词:
人均国内生产总值回归分析居民平均消费水平MATLAB
Abstrart
Thepercapitagrossdomesticproduct(RealGDPpercapita),alsoknownasthe"GDP"percapita,oftenindevelopmenteconomicsasameasureofeconomicperformanceindex,isoneoftheimportantmacroeconomicindicators,itisaneffectivetooltounderstandandgraspthesituationofmacroeconomyofacountryorregion'speople.Anationalaccountingperiod(usuallyayear)toachievetheGDPandthecountry'sresidentpopulation(currentlyusedhouseholdpopulation)comparedtocalculate,getthepercapitagdp.Isastandardtomeasurethestandardoflivingofthepeopleofvariouscountries,inordertomeasuremoreobjective,oftencombinedwiththepurchasingpowerparity.
BasedontherelevantdataofthepercapitaGDPin1978-2008China'spercapitaconsumptionandpercapitaGDPin2003andthevariousregionsandthelevelofopeningup,usingtherelatedknowledge,toexamineChina'spercapitaconsumptionanddistributionofpercapitaGDP,areaandlevelofforeigntradeandGDPpercapitarelationship.
Thefirstapplicationfromthe"ChinaStatisticalYearbook"collectionof1987-2008China'spercapitaGDPdata,calculatethenumericalcharacteristicsbyusingtheMATLABsoftware,accordingtotheanalysisofdatacharacteristicscalculated;thenweuseMATLABsoftwaretodrawcurves,basedonthegraphicanalysisofitschangingtrend.
Thestatisticaldatacollectedin2003followedbyapplicationarea,applicationofMATLABsoftwarefordatafitting,revealtherelationshipbetweenvariables.
Keywoords:
RealGDPpercapita;regressionanalysis;averageconsumptionlevelofresidents;MATLAB
目录
1绪论------------------------------------------------------------------------------------------1
1.1背景------------------------------------------------------------------------------------1
1.2意义------------------------------------------------------------------------------------1
2问题分析与数据收集---------------------------------------------------------------------2
2.1问题分析----------------------------------------------------------------------------2
2.2数据收集与处理--------------------------------------------------------------------2
3相关知识------------------------------------------------------------------------------------2
3.1数据的数字特征--------------------------------------------------------------------3
3.2一元线性回归分析------------------------------------------------------------------5
4符号说明------------------------------------------------------------------------------------8
5建立模型------------------------------------------------------------------------------------9
5.1模型一的分析与建立---------------------------------------------------------------9
5.2模型二的分析与建立--------------------------------------------------------------10
5.3模型三的分析与建立--------------------------------------------------------------13
6总结-----------------------------------------------------------------------------------------15
参考文献--------------------------------------------------------------------------------------16
附录--------------------------------------------------------------------------------------------17
II
1绪论
1.1背景
1996年以来,中国宏观经济运行呈现出需求不振,物价持续走低,经济增长乏力的发展态势,从原来的持续高速增长状态走向缓慢增长阶段.尽管中国人民银行已经连续8次降息,但处于上扬趋势的居民储蓄存款屡创新高,国内消费需求依然疲软.其结果是,最终消费率从1990年的62%降至1998年的58.7%,1999、2000年略有回升,2001年又降至59.8%,城镇居民的平均消费倾向从1991年的0.855下降至2001年的0.774。
由于消费是所有经济行为有效实现的最终环节,唯有消费需求的不断上升才有经济增长的持久拉动力.而居民的消费水平在很大程度上又受整体经济状况的影响.国内生产总值是用于衡量一国总收入的一种整体经济指标,经济扩张时期,居民收入稳定,GDP也高,居民用于消费的支出较多,消费水平较高;反之,经济收缩时,收入下降,GDP也低,用于消费的支出较少,消费水平随之下降.改革开放以来,我国的GDP不断增长的同时,人民的物质生活也在不断提高。
2008年,我国居民消费扣除价格变动影响后比1978年扩大了11倍,年平均增长8.8%。
我国居民消费增长较快,但与发达国家相比。
2003年我国居民消费相当于美国居民消费的8.8%,2008年提高15.4%,发达国家的差距在缩小。
统计数字显示,2000年至2008年,我国投资增长17.9%,净出口增长34.7%,分别比消费增速快7.2个和24个百分点。
1.2意义
人均GDP是一国经济的最大基本面,它是研究产业结构和产业演变趋势的主要解释变量,也是反映一国经济发展情况的重要指标,因而无论对经济政策的制定,还是投资分析均具有重要意义。
但是,究竟哪些因素会影响人均GDP的变化呢?
本文希望通过分析各个因素对人均GDP的影响来说明居民的人均消费水平的提高及引进外资情况和产业结构是影响人均GDP的重要因素,进而了解从哪些发面促进我国GDP的增长。
2问题分析与数据收集
2.1问题分析
根据相关资料,我们知道,改革开放以来,我国GDP保持了高速增长的势头。
1999我国GDP平均每年递增9.9%,其中有一半年份的年增长速度超过10%。
而在此期间,西方发达国家的GDP平均每年增长速度都在3%左右,亚太地区发展较快的国家或地区(如韩国、新加坡、泰国等)的经济增长速度一般都在5%~8%左右。
从这一时期与世界各国经济增长速度的比较中,可以清楚地看到:
改革开放以来我国经济增长速度在世界各国中名列前茅、独领风骚。
然而,我国GDP的高速增长并不是十分稳定的,经历了多次波动,且波幅亦显过大。
由于我国的特殊国情,我国GDP增长的每次波动伴随着国民经济“过热—过冷—过热”的频繁调整,影响了经济运行的质量。
那么,我国的人均GDP的发展情况如何?
又是哪些因素带动了改革开放以来我国GDP的快速增长?
又是哪些因素造成了我国GDP增长的多次波动?
我们可以选择某段时间的我国人均GDP的数据,对所收集的数据的数字特征及其随时间的变化曲线图进行分析其发展情况;我们都知道人均GDP的增长表明国家的经济水平提高,因此本文想验证人均GDP和居民的消费水平是否相关。
其次一个地区的经济发展也许跟该地区的对外开放情况及其的产业结构有关。
2.2数据收集与处理
根据上述的问题分析,本文从《中国统计年鉴》收集了1978–2008年我国人均国内生产总值和居民平均消费水平的数据(见附录里的表一),还收集了003年各地区统计数据(见附录里的表二)。
3相关知识
3.1数据的数字特征
设n个观测值为,其中n称为样本容量。
(1)均值
均值即是的平均数:
均值表示数据的集中位置。
(2)方差、标准差与变异系数
方差是描述数据取值分散性的一个度量,它是数据相对于均值的偏差平方的平均:
方差的开方称为标准差。
方差的量纲与数据的量纲不一致,它是数据量纲的平方,而标准差的量纲与数据量纲一致。
标准差为:
刻画数据相对分散性的度量是变异系数:
它是一个无量纲的量,用百分数表示。
(3)偏度与峰度
偏度和峰度是刻画数据的偏态、尾重程度的度量。
偏度的计算公式为:
其中,s是标准差,为样本k阶中心矩。
偏度是刻画数据对称性的指标。
关于均值对称的数据其偏度G1=0,右侧更分散的数据(即右尾长)偏度为正(G1>0),左侧更分散的数据(左尾长)偏度为负(G1<0)。
峰度的计算公式为:
当数据的总体分布为正态分布时,峰度G2近似为0;当分布较正态分布的尾部更分散时,峰度为正(G2>0).否则峰度为负(G2<0)。
当峰度为正时,两侧极端数据较多(粗尾);当峰度为负时,两侧极端数据较少(细尾)。
(4)中位数与极差
中位数的计算公式:
当n为奇数时:
当n为偶数时:
中位数是描述数据中心位置的数据特征,大体上比中位数大或小的数据个数为整个数据个数的一半,对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。
中位数的又一显著特点是不受异常值(特大或特小)的影响,具有稳健性。
极差的计算公式:
它是描述数据分散性的数据特征,数据越分散,极差越大。
(5)分位数
对0≤p<1,样本的p分位数是:
np不是整数时:
np是整数时:
其中[np]表示np的整数部分。
当p=1时,定义。
大体上样本的100p%的观测值不超过p分位数。
0.5分位数M0.5(第50百分位数)就是中位数。
在实际应用中,0.75分位数与0.25分位数比较重要,分别称为上、下四分位,记,上、下四分位之差称为四分位极差(或半极差),表示为:
它是度量样本分散性的重要数据特征,尤其对于具有异常值的数据,它作为分散性的度量具有稳健性,因此它在稳健型数据分析中具有重要作用。
(6)三均值和下、上截断点
当存在异常值时,缺乏稳健性,可用三均值作为数据集中位置的数字特征,其计算公式为:
。
有一种判断数据为异常值的简便方法。
称和为数据的下、上截断点。
大于上截断点的数据为特大值,小于下截断点的数据为特小值,两者皆为异常值。
3.2一元线性回归分析
(1)一元线性回归的数学模型
一元线性回归就是寻求两个变量间的线性统计回归分析,若其相关关系的统计规律性呈现线性关系则称一元线性回归分析。
其回归模型为:
其中y为因变量,X为自变量,a和b为待定参数(a为常数项,b为回归系数)。
通常采用最小二乘法来求参数a和b的估计。
即使得达到最小。
通过计算求得:
其中,。
(2)回归方程的显著性检验
给定以上模型和实测数据以后,总可以得到待定参数的拟合值,但由此确定的回归方程式不一定有意义。
因此,需要对得到的回归系数做显著性检验,即检验回归系数是否为0,如果为0,则说明因变量与自变量无关,回归方程无意义。
运用F检验法和相关系数检验法。
记
则有
这里SST——与的总离差平方和;
SSR——回归值与均值的总离差平方和,这是由回归所能解释的部分;
SSE——观测值与回归值的总离差亦即残差平方和,这里不能由回归加以解释的部分。
若方程有意义,即引起y波动的主要是由x变化而引起,其他一切因素是次要的。
即要求SSR进可能大,而SSE尽可能小。
1)F检验法——方差分析法
在:
b=0为真时,可证明
当不真时,有变大趋势,因而F也有变大趋势,故应单侧拒绝域。
对给定的显著性水平α,当时,认为b=0不真,我们称方程是显著的。
反之,方程不显著。
这种用F检验对回归方程做显著性检验的方法称为方差分析。
其检验过程可由一张“方差分析表”来进行。
通常,若,则为高度显著;若,则为显著;若,则为不显著。
方差分析表
方差来源
偏差平方和
自由度
方差
F值
Fα
显著性
回归
SSR
1
剩余
SSE=SST-SSR
n-2
总和
SST
n-1
2)r检验法——拟合程度的测定
变量y的各个观测值点聚在回归直线周围的紧密程度,称作回归直线对样本数据点的拟合程度,通常用可决定系数(亦称测定系数)r2来表示。
显然,变量y的的各个观测值点与回归直线越靠近,SR在ST中所占的比重越大,因而定义
它可以用来预定回归直线对各个观测点的拟合程度。
若全部观测值点yi都落在回归直线上,则剩余平方和SSE=0,r2=1;若x的变化无助于解释Y的偏差,则回归方程SSR=0,r2=0。
显然,r2越接近于1,用x的变化解释y的偏差的部分就越多,表明回归直线与各观测值点越接近,回归线的拟合程度越高。
可决定系数r2在[0,1]上取值。
回归直线对样本数据点拟合程度的另一测度是线性相关系数r。
在一元线性回归中,线性相关系数r实际上是可决系数r2的平方根,即,r的正负号与回归系数b的正负号相同,|r|越接近与1,表明回归直线对样本数据点的拟合程度越高。
3)估计标准误差
可决系数r2和线性相关系数r描述了回归直线对样本数据点的拟合程度,但没有表示出变量y的诸观测值yi与回归直线的绝对离差数额。
定义
为最小二乘法残差ei方差,
为变量y对x的最小二乘回归的估计标准误差,简称估计标准误差。
Sy值越小表明误差越小。
(3)利用回归方程进行预测
利用变量x与y的n对样本数据建立的回归方程,如果通过了上述的各种检验,即可用来预测。
所谓预测问题,就是在确定自变量的某一个x0值时求相应的因变量y的估计值,其中又可以分为点预测和区间预测。
点预测:
将自变量的预测值x0代入回归模型式所得到的因变量y的值,作为与x0相应的y0的预测值,就是点预测。
可以证明是无偏预测。
4符号说明
S2:
方差
S:
标准差
G1:
偏度
G2:
峰度
M:
中位数
MP:
分位数
:
三均值
R1:
四分位极差
Q3:
上四分位
Q1:
下四分位
a:
一元回归方程的常数项
b:
表示回归方程的系数
F:
表示F函数
y:
表示我国的人均GDP的值
:
表示人均GDP的平均数
x:
表示居民的平均消费水平
SST:
表示总的离差平方和
SSE:
表示残差平方和
SSR:
表示回归平方和
r2:
表示可决系数
Sy:
估计标准误差
Y:
各地区人均GDP
X1:
各地区引进外资情况(美元)
X2:
各地区第一产业所占比例(%)
5建立模型
5.1模型一的分析与建立
(1)运用数据的数字特征对我国人均GDP的发展情况进行分析
对1978年到2008年的人均国内生产总值的数据,运用MATLAB软件对其平均值、方差、标准差、分位数等数据特征进行计算(运行代码见附录
(1)和
(2)),将运行结果绘制成表格如下:
均值
方差
标准差
极差
变异系数
偏度
峰度
5703.4516
38867650.7226
6234.3926
23390
109.3091
1.409
4.4835
中位数
下四分位数
上四分位数
四分位极差
三均值
下截断点
上截断点
2998
884.25
8431
7546.75
3827.8125
-10435.875
19751.125
从计算的结果分析,由于偏度G1=1.409,数据分布的图形显著右偏;峰度为G2=4.4835,数据分布的右端有许多极端值。
又数据的标准差s=6234.3926,其数据超过均值=5703.4516,且均值5379.6667、中位数M=2998、三均值3827.8125三者的区别较大,说明数据的分散性相当大。
由于改革开放以来,特别是近20年来,我国人均生产总值增长很快,因此出现了上述数据分布特点,此批数据是一批有严重偏态且有较多异常值的数据。
从表一的数据看,20169与23708大于上截断点值19751.125,是异常值(特大值)。
由于改革开放的形式具体分析,这些特大值的出现是好事。
由此可见,实际问题中必须结合问题背景对数据进行具体分析。
(2)运用变化曲线图对我国的人均GDP的发展趋势进行分析
运用MATLAB软件对我国从1978年到2008年这些年来我国人均GDP随时间的变化曲线图
所画图形如下:
从图中可以看出我国国内人均GDP的增长一直处于上升趋势,且从1993年后增长的速度越来越快,这是个很好的趋势,也说明国家的经济越来越发达,人民的生活水平也会随之变好。
5.2模型二的分析与建立(我国的人均GDP与居民的人均消费水平之间的关系)
(1)初步估计并建立的模型
建模目的:
本文主要建立计量模型来说明人均GDP与居民人均消费水平之间的关系。
变量设定:
以我国居民人均消费额(元)作为被解释变量(y),以我国人均GDP(元)作为解释变量(x),简单地阐述了人均GDP对居民消费的影响。
应用MATLAB软件画出散点图,图形如下:
初步建模:
从上图可以看出X与Y存在明显的线性关系,所以根据建模的目的和要解决的问题,初步估计并建立的模型为:
y=ax+b。
利用最小二乘法进行数据拟合,求出各个各个参数,并用MATLAB软件进行数据拟合(代码见附录(5)),得到如下曲线图:
得出参数a=0.3598b=313.3846
所以得出回归方程为:
y=ax+b=0.3598x+313.3846
(2)一元线性回归的数学模型
根据相关数据及相关知识,本文运用MATLAB进行分析得以下方差分析表:
方差来源
偏差平方和
自由度
方差
F值
Fα
显著性
回归
1
4.1830
显著
剩余
29
7.5977
[]
总和
30
[]
[]
从运行结果可以看出,得到的回归方程是y=0.3598x+313.3846;从方差分析表可以看出,回归的效果是不显著的;从可决定系数r2=0.9835,非
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 课程 论文