1、距离判别的基本原理是:首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:式中为p元总体G的协差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体的距离可以用欧式距离度量,即:由此导出Fisher判别规则为:, 则本文及使用Fisher判别
2、建立线性判别函数进行距离判别。3,模型建立3.1 设置变量本文综合考虑了评价城市发展指数衡量因素,选取衡量一个城市经济发展水平的主要因素,城市化进程总是伴随着工业化发展,发达的服务业水平是衡量现代新兴城市的主要指标,此外,综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标:X1:城市第二产业产值(亿元)X2:城市第三产业产值(亿元)X3:城市固定资产投资总额(亿元)X4:城市社会消费品零售总额(亿元)X5:货物进出口总额(亿元)从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类:G1:发达城市G2:中度发达城市G3:欠发达城市3.2 数据收集
3、和整理本文所有数据来源于中国统计年鉴(2012),选取2011年度36个城市主要经济发展水平做模型建立及分析。其中前32个城市相关经济指标水平作为初始样本用于划分类别,建立类别总体G;最后四个城市(、)及其相关经济发展水平用作待判样品,利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1所示。表 1 我国部分城市相关经济发展水平(2011年)序号城市第二产业(亿元)第三产业(亿元)固定资产投资总额(亿元)社会消费品零售总额(亿元)1 北 京 3752.512363.25851.52016900.324623374.98842 天 津 5928.35219.27483.697333
4、95.066203.46423 家 庄 2031.91635.83026.97781662.9864850.11124 太 原 949.21097.11024.1444973.2937513.63065 呼和浩特 790.01277.81031.6781890.0478121.47366 阳 3026.92609.84577.0942426.8655637.2157 大 连 3204.22550.74580.05851924.7943630.58748 长 春 2092.71620.22356.61891515.85371040.93229 哈 尔 滨 1647.22147.83011.971
5、2070.4129307.054810 上 海 7927.911142.95064.26246814.826246.15111 南 京 2760.83220.43757.25172697.09973440.635812 宁 波 3349.52454.52385.50722018.86175891.209213 合 肥 2002.21426.23376.96521111.11881207.71914 福 州 1711.21700.12720.28271947.81022083.485615 厦 门 1297.11217.51128.0872800.27794210.000216 南 昌 1579
6、.3974.72022.3297928.3438473.022617 济 南 1829.02339.51934.33892114.2868624.12318 青 岛 3150.73158.53502.53822302.37034329.130219 州 2874.21974.03002.51987.1147959.735420 武 汉 3254.03309.54255.16213031.78851367.374821 长 沙 3151.72224.33510.24252201.6112449.360422 广 州 4577.07641.93412.252436970.2623 深 圳 5343
7、.36155.72136.38823520.873624845.98224 海 口 177.9487.7395.0408387.1804236.175625 重 庆 5543.03623.87579.44543487.8071753.071626 成 都 3143.83383.44944.01572861.28352274.379827 贵 阳 586.8733.71600.5898584.3292392.979628 拉 萨75.2137.2220.5031102.594878.445229 西 安 1697.21993.93352.121965.9774754.7430 兰 州 656.5
8、663.5950.5758639.7231112.765831 西 宁 411.3332.0528.0052271.287348.937832 乌木齐 759.1908.9427.6221695.0278541.790433 杭 州 3323.83458.53100.02182548.35993838.30834 南 宁 829.61076.31950.86281073.1541150.625235 昆 明 1161.21214.62275.52861271.7298721.322436 银 川 525.2414.4720.5627274.470572.64,数据结果及分析4.1 聚类分析4.
9、1.1 聚类分析过程采用统计软件SPSS可以快速便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:(1)K-均值聚类初始聚类中心初始聚类中心聚类79285928751114352191375064.17483.1220.06814.80003395.060026246.06203.078.0(2)样本聚类 聚类成员案例号距离 北 京3937.772 济 南1347.154 天 津4379.850 青 岛1710.043 家 庄1259.026 州1969.261 太 原1214. 武 汉2771.834 呼和浩特1414.697 长 沙2607.583 阳3452.674
10、广 州5518.235 大 连1842.873 深 圳4887.376 长 春837.811 海 口2474.750 哈 尔 滨1584.291 重 庆4072.601 上 海3214.673 成 都1942.910 南 京1681.205 贵 阳1402.620 宁 波3455.9792918.190 合 肥1536.881 西 安1652.625 福 州1682.563 兰 州1767.334 厦 门3577.169 西 宁2433.503 南 昌617.367 乌木齐1898.368(3)最终聚类中心最终聚类中心5675387914679887384013754350.84655.020
11、09.05745.33272995.78501263.807224822.03984.0782.0最终聚类中心间的距离21946.79726337.2725669.843(4)聚类差分析差分析误差FSig.均df34313207.7351231856.47927.855.000100446019.0131811059.40755.46324862358.6732205819.37611.27130454986.050887338.53134.322753836973.3831848036.992407.912F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测
12、到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.2 聚类结果分析从上述聚类分析过程可知,样本完全有效,32个个体被分成三大类:G1(发达城市):北京,上海,。G2(中度发达城市):天津,程度。G3(欠发达城市):,呼和浩特,乌木齐。从城市分类结果可知,北上深作为国际化城市发展代表,其经济发展水平远超其他沿海城市及陆城市;沿海开放城市以及陆主要枢纽城市的发展水平高于其他城市;中部地区级西部城市发展水平受限于地理、资源和资本等因素,经济发展表现不强劲。从最后的差分析中可知,分类检验水平显著,分类结果值得借鉴。4.2 判别分析4.2.1 判别结果及分析一般来
13、讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependent variable): 分组变量定性数据(个体、产品/品牌、特征,定类变量)。自变量 (independent variable):判别变量定量数据(属性的评价得分,数量型变量)。(1)判别图图 1 典则判别函数从图中很明显,看到三个组中心也就是经济发展水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。(2)典型判别式函数摘要特征值函数差的 %累积 %正则相关性37.790a98.0.987.765a2.0100.0.658a. 分析中使用了前 2 个典型判别式函数。Wilks 的 Lambda
14、函数检验卡1 到 2.015114.106.56715.336.004标准化的典型判别式函数系数-.974.940-1.198.773.752.2111.190-.6751.409-.314结构矩阵.863*.090.184.920*.076.857*.231.675*.308.567*判别变量和标准化典型判别式函数之间的汇聚组间相关性 按函数相关性的绝对大小排序的变量。*. 每个变量和任意判别式函数间最大的绝对相关性从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的98%,第二判别函数解释了2%;两个判别函数解释了100%;当然,两个判别函数直接具有显
15、著的差异和判别力。(3)分类统计量组的先验概率类别先验用于分析的案例未加权的已加权的.3333.0009.00020.000合计1.00032.000分类函数系数-.019-.001-.-.004-.003.011.002.001.030.006.003(常量)-231.519-12.269-2.727Fisher 的线性判别式函数Fisher线性判别函数,我们主要用来构建判别程,理论上说:如果我们知道某个城市在5经济指标的发展水平值,我们就可以估计出该城市应该是哪种类型的。4.2.2 判别检验判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我们为了得到判别函数,经常需要把样本
16、随机分成训练样本和检验样本等工作,如本文最后四个(序号33-36)个体就可作为检验样本,也成待判样本。由上表可知Fisher判别程:判别规则:判别结果: 杭 州1583.391 南 宁842.774 昆 明401.567 银 川2095.787直观上,作为沿海省会城市,虽然达不到北上深的经济发展地位,但其良好的地理位置以及投资开发环境,使得其经济发展水平非常迅速,归类到第二类经济发展城市是可以理解与接收的。其余三个城市虽然都是省会城市,但都属于西部城市,地理位置以及资源物产相对欠缺,得力于西部大开发政策影响,经济发展面距第三类城市相近。5,结论从本文所建立的模型对我国部分主要城市经济发展水平进
17、行了聚类分析与判别分析,并运用模型判断最后四个城市,验证模型的有效性。从相关结果及分析可以得到一些直观的结论。北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国外大量的投资建设,一批高科技产业带动的行业发展极大的推动了北京的经济发展;上海作为中国的经济金融中心,加之其边江浙地带发达的工业基础,都为上海的经济发展增加了强劲的力量;的发展是中国改革开放以来经济发展的典,开放的力量使得这个沿海城市一举成为中国发达城市的先驱。判别图里清晰的表明北上广的发展远远超过二三类型的城市发展水平。沿海主要城市以及陆枢纽城市的发展得益于丰富的资源以及便利交通带来的大量投资,
18、或者传统的工业基础,这些因素都使得这一类的城市发展迅速,势头强劲。其余中西部城市的发展各有其优劣,但总体上西部城市受西部大开发政策影响,变现出新兴的发展势头。判别图分析可见二三类型经济发展水平相差不大。由此,所建立模型直观上符合我国部分主要城市经济发展水平类型,最后的四个城市判别再次说明了模型的有效性。参考文献1海燕,梦,卫国,伟. 应用数理统计M. 北京:北京航空航天大学数学系, 2011.2建同,昌言. 以Excel和SPSS为工具的管理统计M. 北京:清华大学出版社,2002.3 统计局.2012年中国统计年鉴M. 中国统计出版社,20124 中国城市经济学会. 中国城市经济J.北京:中国社会科学院