欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    第二章原始数据的处理方法.docx

    • 资源ID:9481278       资源大小:129.10KB        全文页数:17页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第二章原始数据的处理方法.docx

    1、第二章原始数据的处理方法第二章 原始数据的处理方法原始数据的处理是数据分析中极为重要的容。在本节中,我 们将介绍原始数据的来源及其特点,着重阐述原始数据初始变换 的几种方法,并利用例子进行演示。第一节 原始数据的来源及其特点原始数据一般包括反映自然资源区域特征,如海况、气象、 水文、地形、地貌、动植物等;反映区域社会经济条件和生产力 水平,如人口及其人口密度、捕捞劳力、海域面积、渔船数量、 渔船功率以及渔业总产值、捕捞产值、养殖产值等。原始数据按 其性质大体可分为 ( 1)科学实验和观测数据; (2)社会经济统计 数据;(3)生产经验数据; (4)有关部门的决策和目标数据; (5) 定性资料的

    2、量化数据等。不同的数据有不同的来源。 但归纳起来, 主要的来源有: ( 1) 国家统计部门和行业部门的历年统计资料,这些多为社会经济指 标;(2)有关业务部门的历年观测数据及其科学实验报告,这些 多数为自然因素指标,如东海区渔业资源和环境观测数据; ( 3)选择有代表性的单位或年度, 进行实地典型调查所得的数据; ( 4) 区域规划部门通过收集、调查、观察和计算积累的数据; ( 5)调查访问有实践经验的劳动者、生产技术人员、科研人员以及管理 人员所得的数据; ( 6)国家有关部门制定的发展规划、建设方案 等决策数据; (7)其它方面的数据。我们将以上所获得的各种资 料和数据成为原始数据。这些数

    3、据来源不同,其类型也不同。从利用分析的角度来看,这些数据有以下几个主要特点:(1)不同的量纲。如渔业产值为元,渔业产量为公斤,水温 为摄氏度,作业时间为天,航程为海里, 捕捞努力量为吨、 千瓦、 艘、人数, CPUE 为吨 /天、吨 / 小时、吨 /千瓦等。( 2)数量级大小相差悬殊,有的数字仅是小数级,有的数字 大到亿万。如渔业产值以亿万元或万元计算,而劳动生产率只有 几十元到几百元;渔业资源量上千万吨或几万吨等。(3)大部分数据有一定的随机性,特别是统计或观测的时间 序列或偶测值,不论是自然指标还是经济数据,都有随机变化, 均有明显的摆动。(4)大量数据具有一定的灰色度,运用上述方法收集来

    4、的数 据绝大多数是区域各样点的平均值或统计值,在时间上或空间上 并不是一个确切的白色参数,而是一个有上限、下限的灰色数。 如某调查船进行的渔业资源和环境调查,其所得的数据只能是某 一点某一时刻的数据值,但由于条件和仪器设备的限制会使数值 产生误差,这一误差值的多少无法知道,因而产生了灰区。如某 年某区的降水量,是该区各次实际观测纪录的平均数,由于测量 方法不同和在时间计算上引起的误差等,是无法知道的。同样的 问题在一些经济统计数字中也存在。因此,严格地说,收集来的 数据绝大多数是灰色参数,都具有不同程度的灰色度。第二节 原始数据白化和初始变换的几种方法一、原始数据的取值和白化对于绝大多数灰色参

    5、数来说,需要进行白化或淡化处理,以 提高白色度,减少灰色度。也就是说通过信息的不断补充,使灰 色参数逐渐成为一个比较接近实际的数值。数据白化处理的方法 主要有:(1)直接采用距样点最近观测站的多年平均值。 例如海水温 度和盐度等,可采用多年来的观测平均值或近几天的平均值。(2)根据各个因素指标的等值线图, 利用插入法计算其数值。 如表层水温、盐度、海底地形等指标,各代表样点不完全有现成 的准确观测值,可在“等水温线图” 、“等盐度图” 、“地形等高线 图”上,利用插值法计算出其白化值。(3)结合实际情况和数据特征, 确定合理的数据。 如反映海 洋环境质量的指标有有机质、含氮量、含磷量等。在使用

    6、时,我 们不可能把所有的因子都输入模型,为了计算上的方便,可以归 结为一个综合指标。即用该区域最新资料,查出各样点的各项因 素指标,然后用“极差变换”的方法求出变换后的数据,相加即 可得到一个综合性数字。这样,可解决各因素间量纲不同和数量 级大小相差悬殊的问题。(4)对经济指标进行预测。 海洋经济的分类划区应当有相对 的稳定性,同时应用的综合指标又应反映海洋经济的动态特征, 所以,在使用相应的指标数据时,就需要先对指标数据进行发展 预测,然后根据预测值进行分类划区。预测的方法很多,常用的 是灰色系统 GM(1, 1)模型和指数递增率模型。(5)采用具有相同权数的相对数值。 根据统计学原理, 各

    7、个 个体应该是等权的, 但实际上各种统计对象个体不等积, 不等形, 也即存在着不等权问题。例如,各样点的海域面积、人口产量、 产值等指标,绝对值差别很大,无疑是不等权的。如果用特定围 海域比重、 人口密度、 单位平均产量、 人均产值等相对数来表示, 便可以解决各样点同项因素不等权的问题。二、常用的几种数据变换方法由于原始数据存在着上述特点,进行统计分析建立数学模型 有一定的困难和限制,因此需要根据所建数学模型的类别,对原 始数据进行变换。变换的目的主要是: ( 1)使指标数据尽可能呈 正态分布;(2)统一变量指标间的量纲;(3)使两变量指标的非 线性关系变换为线性关系;(4)用一组新的、指标数

    8、量较少的、 相互独立的变量,代替一组有相互联系的原始变量指标。不同的数学模型对指标变量的要求不同。大多数的多元统计 分析,要求变量总体上服从多元正态分布,且要求量纲一致。如 判别分析要求变量呈正态分布;回归分析则要求因变量呈正态分 布,要求各自变量与因变量之间有密切的相关关系。而聚类分析 则要求各变量量纲一致,变量间互相独立。因此,数据的变换一 定要根据数学模型的要求,有的放矢地进行。常用的变换方法主要有:(一)标准化变换计算公式为:Xij XjXij =Sj(i=1,2,N样点数;j=1 , 2,,P变量数)式中:Xj为变换后的数据;Xij为原始数据;NXiji 1Xj为第j变量的算术平均值

    9、,即 Xj = 丄j j NN (Xij Xj)2Sj为变量j的标准差,即鬥亠厂变换后的各变量数据平均值为 0,方差为1,呈标准正态分布,各变量间有了统一的量纲,而两个变量在变换前后的相关程度不 变。从几何意义上讲,标准化变换相当于座标原点移至重心(即 平均值)位置,标准化变换适用于量纲不同且数量级大小不一的 连续性数据。我们现在以新军的博士学位论文渔业资源可持续利用评价实证分析中有关数据进行说明。 1978- 1984年东海区渔业资源可持续利用系统的资源环境子系统如下:年份1978197919801981198219831984X12.642.722.732.722.642.632.54X2

    10、63.1959.1246.4851.0648.1838.641.03X343.641.156.958.562.264.567.7X469.78559.44651.04743.15636.68429.15224.835X52.6092.2441.5471.4791.4351.2991.258X61.1781.051.0380.9560.9350.8750.891其中:Xi为渔获物的营养级, 单位为级;X2为优质鱼类产量 占海洋捕捞产量的比重,单位为; X3为非选择性渔具捕捞产量 占海洋捕捞产量的比重,单位为; X4为单位机动渔船的平均捕捞产量,单位为吨/艘;X5为机动渔船每吨位的平均捕捞产量,

    11、单位为吨/船吨位;X6为机动和非机动渔船每千瓦的平均捕捞产量, 单位为吨/千瓦。在资源环境子系统中,各评价指标的单位不一样,因此需要进行初值化。现分别求出序列 Xi、X2、X3、X4、X5和X6的平均值及其标准差。X1(X1978X1979X1984)/7(2.642.72 .254)/72.66X2(X1978X1979 .X1984)/7(631959.12 .4103)/74967X3(X1978X1979 -.X1984)/ 7(43641.1 .67.7)/756.36X4(X1978 X1979 .人984)/7 (69.78 59.44 .2482)/744.87X5(X1978

    12、 X1979 .X1984) / 7(2.612.44 .1.26)/71.70X6(X1978 X1979 .X1984)/7(1.181.05 .0.89)/70.99N(Xj Xj)2-1 1S(2.6422.66).(2.5422.66)0.07V N 1*!71N _(Xj Xj)2N(Xj Xj)2i 1N 1N(Xj Xj)i 1N 1N - 2(Xj Xj)2i 11 N 1(2&7)2 心67)2 0.52I 7 1则数据变换为:(二)极差变换计算公式为:式中:Xj为变换后的数据;Xij为原始数据;Xjmax为第j变量原始数据的最大值;Xjmin为第j变量原始数据的最小值。极

    13、差变换后的数据有了统一的量纲,其最大值为 1最小值为0,所有数据变化在 01之间。变换前后两两变量之间的相关 程度不变,其几何意义相当于把座标原点移至最小值位置。极差 变换适用于量纲不同、数量大小不一的连续型的原始数据的变换。同样以上述例子进行分析。先求出各个指标的最大值和最小 值。它们分别为:则其数据变换为:其余数据转换类同。则可获得经过极差变换后的资源环境子系统各序列:年份1978197919801981198219831984X10.530.951.000.950.530.470.00X21.000.830.320.510.390.000.10X30.090.000.590.650.79

    14、0.881.00X41.000.770.580.410.260.100.00X51.000.730.210.160.130.030.00X60.990.570.530.250.1800.04(三)均值化变换式中:Xj为变换后的数据;Xij为原始数据;Xj为第j变量的平均值。变E换后的数据有了统一的量纲,数值均大于 0,且集中在1附近。其数学期望值为1 ,而变量与平均数之差的期望值为 0。此变换适用于比例变量,如长度、体积、质量等。我们仍然以上述数据作为例子进行分析,我们已求得各个序列的平均值,则相应的变换值为:其余数据类同。则可获得资源环境子系统经过均值化后的序列:年份197819791980

    15、1981198219831984X10.991.021.031.020.990.990.95X21.271.190.941.030.970.780.83X30.770.731.011.041.101.141.20X41.561.321.140.960.820.650.55X51.531.320.910.870.840.760.74X61.191.061.050.970.940.880.90(四)初值化变换式中:Xj为变换后的数据;Xij为原始数据;Xii为第i变量的初值(第一个数据)。初值化变换后的数据具有了统一的量纲,各数值均为初值的 倍数,便于分析因素之间序列的关联性,因此适用于处理社会经

    16、 济方面的统计数据。我们仍以上述数据作为例子进行分析,利用上述公式进行初 值化变换:2.6412.64其余计算类同。则可获得资源环境子系统经过初值化后的序列:年份i978i979i980i98ii982i983i984Xii.00i.03i.03i.03i.00i.000.96X2i.000.940.740.8i0.760.6i0.65X3i.000.94i.3ii.34i.43i.48i.55X4i.000.850.730.620.530.420.36X51.000.860.590.570.550.500.48X61.000.890.880.810.790.740.76(五)模块化变换计算公

    17、式为:jXij = Xikk 1式中:Xj为变换后的数据;Xik为第j个变量的第k个数据。这种变换就是将时间数据列,逐年作一次累加,组成新的数 据列,即生成数时间序列。这种变换可用于时间序列的预测。这 就是灰色系统理论建立数学模型、进行预测、动态分析等的建模 机理和方法。我们以上述数据作为例子进行分析,利用上述公式进行模块 化处理:iX11 X1k X11 2.64k 12X12X1kk 1X11X122.642.725.36X133X1kX11X12X132.642.72 2.73 8.09X17 Xik X11 X12 . X17 2.64 2.72 . 254 18.62k 1其余计算类

    18、同。则可获得资源环境子系统经过初值化后的序列:年份i978i979i980i98ii982i983i984Xi2.645.368.09i0.8ii3.45i6.08i8.62X263.i9i22.3ii68.792i9.85268.03306.63347.66X343.684.70i4i.60200.i0262.30326.80394.50X469.78i29.23i80.28223.43260.i2289.273i4.iiX52.6i4.856.407.889.3ii0.6iii.87X6i.i782.233.274.225.i66.036.92(六)滑动平均变换计算公式为:Xi为避免数字上

    19、的循环,也可采用下式计算:这种变换可以弱化时间数据的随机性,不同程度地消除了收 集统计数据时的误差,为作进一步数据处理提高了可靠性和准确 性。我们以上述数据作为例子进行分析,利用上述公式进行滑动 平均变换处理:Xn2XiiXi222.64 :2.722.6733X!2XiiXi2Xi32.642.722.732.7033X!3X12Xi3Xi42.722.732.722.7233X17Xi62 Xi72.63 22.542.5733其余计算类同。则可获得资源环境子系统经过滑动变换后的序列:年份i978i979i980i98ii982i983i984Xi2.672.702.722.702.662

    20、.602.57X26i.8356.2652.2248.5745.9542.6040.22X342.7747.2052.i759.206i.7364.8066.63X466.3460.095i.2243.6336.3330.2226.27X52.492.i3i.76i.49i.40i.33i.27X6i.i4i.09i.0i0.980.920.900.89(七)弱化算子和强化算子变换设X为原始数据序列,D为缓冲算子,当X分别为递增序列、 递减序列或波动序列时:(1)若缓冲序列XD比原始序列X的递增速度(或递减速度)减缓或波动减少,我们称缓冲算子 D为弱化算子;(2)若缓冲序列XD比原始序列X的递

    21、增速度(或递减 速度)加快或波动增大,则称缓冲算子 D为强化算子。1 弱化算子变换k=1 , 2,n;则当X为单调递增序列、 单调递减序列或波动序列时, D为一阶弱化算子,XD为经过一阶弱化后的缓冲序列。若令 XD2 =XDD= ( x (1) d2, x (2) d2,x ( n) d2),1x(n)d;其中 x (k) d2= x(k)d x(k 1)dn k 1k=1, 2,,n;则D2对于单调递增、单调递减或波动序列,称为二阶弱化 算子,XD2为经过二阶弱化后的缓冲序列。2强化算子变换设原始序列和其缓冲序列分别为 X= (x (1), x (2),,x(n) , XD= (x (1)

    22、d, x (2) d,x ( n) d),其中 x (k) d= x(1) x(2) x(k 1) kx(k);八 2k 1 k=1, 2,,n-1,且 x (n) d=x (n);则当X为单调递增序列、单调递减或波动序列时, D为一阶强化算子,XD为经过一阶强化后的缓冲序列。若令 XD 2=XDD= (x (1) d2, x (2) d2,x (n) d2),其中 x (n) d2 =x (n) d=x (n);k=1, 2,n-1;则D2对于单调递增序列、单调递减或波动序列, 称为二阶强化算 子,XD2为经过二阶强化后的缓冲序列。我们以某市某区的渔业产值数据( 1983-1986年)为例进

    23、行分析,X=( 10155,12588,23480, 35388),单位为百元,其增 长势头很猛,1983-1986年每年平均递增 51.6%,尤其是1984-1986 年,平均每年递增 67.7%。但是由于渔业资源的有限性以及受捕 捞能力和技术的限制,其渔业产值不可能无限地增长下去,今后 也不可能一直保持这么高的发展速度。如果用现有数值直接建模 预测,其预测结果人们根本无法接受。经过认真分析和探讨,我 们认为增长速度高主要是由于基数低,而基数低的原因则是过去 对渔业资源的利用不足。为此,在今后的渔业产值预测中,要采 取弱化序列增长趋势,引入二阶弱化算子。其具体计算过程为:x(1)d411(1

    24、01551258823480 35388) 20403x(2)d1(125882348035388)23819421x(3)d1(2348035388)29434431x(4)d13538835388441则一阶缓冲序列XD= (20403, 23819, 29434, 35388)。2x(1)d1(20403238192943435388) 27260411x(2)d21(238192943435388)295474212x(3)d1(29434 35388) 324114 3 12x(4)d135388 353884 4 1则得到二阶缓冲序列 XD 2= (27260, 29547, 32411, 35388 )。我们利用二阶缓冲序列 XD2建立GM ( 1 , 1 )模型预测得,1986-2000年该市区的渔业产值平均每年递增 9.4%,这一结果基本可以接受,与实际情况也较为吻合。


    注意事项

    本文(第二章原始数据的处理方法.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开