蔬菜分类因子分2.docx
- 文档编号:13953020
- 上传时间:2023-06-19
- 格式:DOCX
- 页数:17
- 大小:340.89KB
蔬菜分类因子分2.docx
《蔬菜分类因子分2.docx》由会员分享,可在线阅读,更多相关《蔬菜分类因子分2.docx(17页珍藏版)》请在冰点文库上搜索。
蔬菜分类因子分2
武汉市农产品分类及价格指数变化趋势
——基于因子分析与ARIMA模型预测
摘要:
关键字:
因子分析 ARIMA 价格指数 农产品价格
一、问题的背景及重述
消费者物价指数(ConsumerPriceIndex),英文缩写为CPI,也称消费价格指数,是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标,是与人民生活密切相关的参考指标。
城市居民食品零售价格是消费者物价指数的重要组成部分,占到了CPI指数总权重的33.4%,因而食品零售价格的变动将在很大程度上影响CPI的变化,下图一是2005年~2009年的CPI、食品指数与非食品指数的变动情况,从图上可知,食品价格的变化会很强的影响到CPI的变化。
数据来源:
《2010年国家统计年鉴》
权威机构研究认为粮食生产、流通成本上涨一定会带动农产品价格总体上涨,特别是2011年异常的气候情况,导致生产成本大量增加,国际粮价对国内供需的影响,食品价格未来可能发生上涨。
刚公布3月份的CPI增幅达5.4%,创32个月来的新高,这使得年内的通货膨胀压力正在增强。
为了整体把握我国农产品价格的变动趋势,找出它和CPI之间的变动情况,我们将以武汉市为例,对计入CPI的四十二种农产品进行分类,找出每类的趋势特点,并对食品总体价格作出预测。
二、模型假设和符号说明
三、问题分析
1.农产品分类及每类特点
原始数据是由42个变量39个观测值构成的,要想对这42个变量分类,我们需先搞清楚每个变量的变化规律,为了压缩变量个数,找出内在的变化规律,我们打算对这些变量进行因子分析,在因子分析的基础上进行聚类,聚类后结合图形概括每类变量的特点。
2.农产品价格指数的变化趋势建模与预测
对于这个问题,我们需要建立一个宏观的模型,综合的预测武汉市农产品整体价格的走势,因而我们利用了第一问的因子得分,在此基础上求出综合得分,作为价格指数,观察价格指数的特点,我们利用ARIMA模型进行建模与预测。
四、模型的建立及求解
问题一:
农产品的分类及每类的特点
1.基本原理:
1.1因子分析
因子分析是从研究相关系数矩阵内部的依赖出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计方法。
因子分析的基本思想是根据相关性大小把变量分组,使得同组内的变量相关性较高,而不同组的变量相关性较低。
每组变量代表一个基本结构,这个基本结构成为公共因子。
对于所研究的问题就可试图用最少个数的不可测的公共因子的线型函数与特殊因子之和来描述原来观测的每一分量[2].因子分析的核心是用较少的相互独立的因子反映原有变量的绝大部分信息.可以将这一思想用数学模型来表示.设原有P个变量
且每个变量(或经标准化处理后)的均值为0,标注差均为1.现将每个原有变量用m(m<P)个因子
的线性组合表示为:
即:
其中F称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子.A称为因子载荷矩阵,aij(i=1,2,…,p;j=1,2,…,k)称为因子载荷,是第i个原有变量在第j个因子上的负荷.ε称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差.
1.2聚类分析
聚类分析是根据事物本身的特性研究个体分类的方法.聚类分析的依据是同一类中个体有较大的相似性,不同类的个体差异很大.在聚类分析中,基本的思想是认为研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系).于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚类为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统.最后再把整个分类系统画成一张谱系图,用它把所有的样品(或指标)间的亲疏关系表示出来.
2.过程
首先观察图形,我们可以看到一些特点,一些蔬菜价格总体上涨,一些蔬菜价格呈抛物线形上涨,另一些随机波动很明显,那么他们到底有何特点呢,我们对数据进行了因子分析。
因为食盐价格恒定不变,会造成协方差矩阵奇异,所以我们去掉了食盐价格,这并不会影响将来价格的预测。
去掉后共有41个变量,每个变量有39个观测值。
因子分析的模型为:
其中,
表示变量
进行因子分析后,并进行方差最大化旋转,得出的每个变量在因子上的载荷如下:
表一:
旋转后的因子载荷表
变量
主成分法
特殊方差
菜籽油1
大豆油2
花生油3
大豆调和油4
鲜猪肉5
鲜猪肉6
鲜牛肉7
鲜羊肉8
鲜羊肉9
活鸡10
鸡肉11
鸡蛋12
带鱼13
草鱼14
鲤鱼15
芹菜16
大白菜17
油菜18
黄瓜19
萝卜20
茄子21
西红柿22
土豆23
胡萝卜24
青椒25
尖椒26
圆白菜27
豆角28
蒜苔29
韭菜30
芦柑31
苹果32
香蕉33
西瓜34
豆腐35
绵白糖36
白砂糖37
红糖38
酱油39
醋40
鲜牛奶41
0.891
0.895
0.962
0.793
0.869
0.877
0.737
0.849
0.843
0.742
0.066
0.773
-0.131
0.560
0.667
0.415
-0.743
-0.273
0.269
-0.009
0.012
0.345
0.555
0.142
0.271
0.333
0.469
0.271
0.797
0.683
0.854
0.876
0.631
0.175
0.799
0.913
0.969
0.801
-0.091
-0.037
0.819
0.394
0.348
0.174
0.419
0.053
0.228
0.030
0.414
0.434
-0.079
0.768
0.041
0.831
0.407
0.658
0.207
-0.167
-0.211
0.851
-0.331
0.844
0.735
0.669
0.147
0.607
0.513
0.003
0.675
0.057
0.472
0.311
0.277
0.094
0.734
0.115
-0.188
-0.132
-0.367
0.155
0.277
0.354
-0.015
0.084
0.014
0.048
0.239
0.253
0.046
-0.221
-0.231
0.297
0.274
0.552
-0.082
-0.130
0.097
0.800
0.073
-0.117
-0.021
0.373
-0.334
0.138
-0.041
-0.410
-0.183
-0.263
0.464
0.039
0.384
0.187
0.018
0.071
-0.387
-0.278
0.557
0.296
-0.078
0.426
0.155
-0.877
-0.266
-0.161
-0.160
-0.082
-0.314
0.273
0.234
0.216
-0.133
-0.135
0.390
-0.389
0.182
-0.043
0.450
-0.148
0.079
0.435
0.880
0.208
0.744
-0.073
-0.252
-0.077
0.008
0.001
-0.216
0.475
-0.095
0.162
0.209
-0.148
0.044
-0.199
-0.489
-0.114
-0.115
-0.071
-0.088
-0.003
-0.049
-0.088
0.019
0.070
0.067
0.051
0.006
0.106
0.511
0.010
0.064
0.121
-0.193
0.004
0.161
-0.275
0.051
0.269
-0.123
0.002
0.280
0.046
0.173
0.034
0.095
0.482
0.540
0.647
-0.257
0.620
0.144
0.289
0.028
0.067
0.251
0.201
0.055
0.030
0.056
-0.025
0.874
0.141
0.110
0.024
0.040
0.033
0.092
0.110
0.049
0.146
0.041
0.025
0.188
0.142
0.063
0.258
0.226
0.088
0.066
0.210
0.093
0.081
0.196
0.141
0.257
0.228
0.558
0.233
0.092
0.273
0.076
0.167
0.149
0.151
0.144
0.341
0.074
0.022
0.029
0.029
0.034
0.180
0.130
0.113
累积解释比例
0.493
0.680
0.754
0.816
0.863
从因子的载荷来看,变量1~10以及121529303132333537383942都在因子一上有较大的载荷,而变量111319212223252834都在因子二上有较大载荷,变量1216在因子3上有较大载荷,变量1827在因子四上有较大载荷,变量262840在因子无上有较大载荷。
结合图一来看,我们不难发现如下规律,在第一个银子哦上句有较大载荷的变量均有长期的增长趋势,总体来说都是上涨的,且成指数型上涨,我们可称它为增长性因子,二在第二个因子上有较大载荷的变量增长趋势呈抛物线状,我们称第二个因子为探底性因子,而在第三个因子上载荷较大的变量具有较大的波动性,我们可称它为波动性因子。
接下来,对因子一和因子二做散点图,得出如下结果:
从图上来看,大概可分为三类:
用红色笔标出:
第三步:
我们可对变量进行分类。
这里主要采用聚类法。
1)复连法:
2)K步聚类法:
经过上述聚类分析,并结合时间序列图一,我们得出如下结论:
表分类结果及特点
类别
包含变量
特点
一
1、2、3、4、5、6、7、8、9、10、12、14、16、29、30、31、32、35、37、38
总体价格呈上升趋势,大多呈指数型增长或直线型增长,且波动不大;
二
11、13、15、19、21、22、23、24、25、26、28、34、39、40、41
价格随时间的变化成抛物线形变化,且波动较大;
三
17、18、20
价格呈尖峰状变化,即价格在开始是较低,中间突然上涨,后来又突然下降,回到原来的价格水平。
且波动较大。
第四步:
计算综合因子得分:
我们将得出的综合得分称为价格指数。
得出的价格指数时间序列如下表:
-0.448
1.233
1.431
-0.324
0.628
5.126
-0.571
1.302
1.512
-0.435
0.560
2.983
-0.668
1.482
1.209
-0.350
0.658
1.889
-0.835
1.544
0.934
-0.583
0.526
-2.698
-0.814
1.729
0.405
-0.691
0.611
-2.566
-0.722
1.923
0.338
-0.792
0.544
0.172
-0.838
1.612
-0.142
-0.689
-0.106
-7.015
-0.987
0.902
-0.864
-0.609
-0.493
-18.193
-1.066
0.633
-1.301
-0.121
-0.962
-22.851
-1.050
0.266
-1.511
0.237
-0.952
-25.066
-1.026
0.149
-1.629
0.553
-0.929
-24.978
-1.199
-0.101
-1.846
0.361
-0.887
-31.444
-1.215
-0.455
-1.796
0.480
-0.709
-33.688
-1.069
-0.756
-0.342
0.837
0.200
-25.929
-1.054
-0.525
-0.054
2.179
0.510
-18.986
-0.818
-0.706
0.547
2.102
1.097
-12.804
-0.723
-1.129
0.955
1.845
1.473
-12.792
-0.723
-1.129
0.955
1.845
1.473
-12.792
-0.320
-1.399
1.134
-0.076
-0.728
-15.349
-0.314
-1.413
0.646
-0.800
-0.731
-18.659
-0.364
-1.437
0.579
-0.964
-0.981
-20.953
-0.287
-1.225
0.837
-1.118
-0.973
-17.366
-0.203
-1.124
1.207
-0.943
-0.936
-13.256
0.134
-1.014
1.233
-1.017
-1.136
-6.104
0.396
-0.930
0.507
-0.975
-0.131
-0.275
0.584
-0.704
0.548
-0.710
-0.037
6.218
0.618
-0.502
-0.330
-0.766
-0.461
4.814
0.612
-0.522
-0.712
-1.210
-0.069
3.030
0.759
-0.545
-1.117
-1.091
1.183
7.363
1.012
-0.603
-1.212
-0.734
1.999
14.253
1.015
-0.495
-1.385
-0.860
2.194
14.673
1.025
-0.282
-1.545
-0.679
2.090
16.278
1.317
0.221
0.210
-0.118
0.183
29.039
1.645
0.437
0.637
0.839
0.145
40.948
1.740
0.664
0.507
0.970
-0.327
43.628
1.633
0.606
0.034
0.895
-0.818
38.430
1.643
0.721
-0.013
0.906
-0.829
39.381
1.614
0.874
-0.268
1.213
-1.121
39.383
1.565
0.698
-0.299
1.395
-1.761
36.155
2.农产品价格指数的变化趋势建模与预测
根据问题一得出的结论,先对价格指数做时间序列图:
接下来,我们对这个时间序列进行平稳性检验。
时间序列存在单位根过程
时间序列不存在单位根过程
序列
ADF值
5%显著性水平下的临界值
Y
-2.73
-2.942
-2.177
-2.945
-4.13
-2.945
从上表可知,只有二阶差分通过了平稳性检验,序列平稳。
我们来构造ARIMA模型。
先画出自相关及偏相关图
上图中,偏自相关函数一阶截尾,自相关函数拖尾,步可断定是ARIMA(1,2,0)
当然,模型定阶还需考虑很多因素,比如模型拟合优度,AIC系数等。
接下来,我们将尝试不同的模型,比较其AIC系数,决定模型阶数。
模型类型
AIC
ARIMA(1,2,2)
ARIMA(2,2,2)
ARIMA(1,2,1)
266.3123
268.2884
275.490
从上表来看,ARIMA(1,2,2)最好,我们选择ARIMA(1,2,2),下面,我们来估计参数:
根据SAS输出结果,我们可以得出如下模型
参数显著性检验:
各参数均在0.0001的显著性水平下通过了检验,均显著。
残差的白噪声检验:
滞后阶数
卡方值
自由度
P值
6
4.37
3
0.224
12
7.01
9
-0.079
18
8.99
15
0.8778
24
15.13
21
0.816
预测:
“*”表示观测值“”线表示拟合的曲线两边的线表示预测值的置信区间
从拟合结果来看,拟合曲线与样本点基本重合,结果较好,我们预测出下两个月的农产品价格指数将会稍有下降,这可能与宏观政策有关.。
五、政策与建议
六、模型的优缺点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蔬菜 分类 因子