大数据地管理系统及基本统计分析报告实验报告材料.docx
- 文档编号:17299366
- 上传时间:2023-07-23
- 格式:DOCX
- 页数:17
- 大小:97.19KB
大数据地管理系统及基本统计分析报告实验报告材料.docx
《大数据地管理系统及基本统计分析报告实验报告材料.docx》由会员分享,可在线阅读,更多相关《大数据地管理系统及基本统计分析报告实验报告材料.docx(17页珍藏版)》请在冰点文库上搜索。
大数据地管理系统及基本统计分析报告实验报告材料
评分
实验报告
课程名称生物医学统计分析
实验名称数据的管理及基本统计分析
专业班级
姓名
学号
实验日期2015年11月19日
实验地点
2015—2016学年度第2学期
一、实验目的
对数据进行管理及基本统计分析,包括:
数据的格式化,数据的输入,数据管理器列宽定义,数据的增减、整理、运算与新变量的生成、文件的调用与保存,Descriptives过程,Frequenciies过程。
二、实验环境
1、硬件配置:
处理器:
Intel(R)Core(TM)i7-3770CPU@3.40GHz3.40GHz
安装内存(RAM):
4.00GB系统类型:
64位操作系统
2、软件环境:
IBMSPSSStatistics19.0软件
三、实验内容
(包括本实验要完成的实验问题及需要的相关知识简单概述)
(1)课本第二章《资料的描述性统计分析》的例2.1-2.7运行一遍,注意理解结果;
(2)然后将实验指导书的例1按照步骤进行数据管理的操作和基本统计分析。
(1)某地某年成年男子120人的红血球数(1012/L)记录如下:
5.1955.3604.0704.0655.1604.5904.5204.7204.4905.2605.0705.1004.3154.9904.3605.4505.1205.1904.5804.3804.6104.3605.1004.2155.0704.7214.6405.0005.5105.6004.4205.1804.2605.0605.2804.2504.8404.8005.8505.3055.0005.2905.3604.9505.4205.6105.6304.5204.8005.0005.2804.9205.1704.6405.5205.1404.2955.4704.8404.5404.7404.8805.1404.7005.5605.5204.4854.2904.7804.6204.8105.1104.6005.2004.7005.0505.2205.5905.3704.6504.7805.3155.1505.0705.0055.1204.9854.8155.0903.9804.5504.9604.7805.1905.1605.6405.0505.0404.3205.1904.8405.0005.7005.0305.1554.8604.7154.9204.8905.1805.8755.1055.1855.1304.0705.1005.2605.2205.1905.010
对该组数据进行数据管理的操作和基本统计分析。
四、实验结果与分析
(包括实验原理、数据的准备、运行过程分析、源程序(代码)、图形图象界面等)
注:
本项可以增加页数
(一)数据格式化:
用户可根据具体资料的属性对数据进行格式化。
主要有以下3种数据类型:
Numeric:
数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(Decimal Places),默认为2位。
Date:
日期型。
如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。
String:
字符型,用户可定义字符长度(Characters)以便输入字符。
(二)数据的输入:
定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。
数据管理窗口的主要部分就是电子表格,横方向为电子表格的行,其行头以1、2、3、„„表示,即第1、2、3、„„行;纵方向为电子表格的列,其列头以var00001,var00002,var00003„„表示变量名。
行列交叉处称为单元格,即保存数据的空格。
鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。
单元格被激活后,用户即可向其中输入新数据或修改已有的数据。
(三)数据管理器列宽定义:
点击Column Format...钮,用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用户还可指定数值或文字在数据管理器单元格中的位置:
Left表示靠左、Center表示居中、Right表示靠右(此为默认方式)。
(四)数据的增删:
增加一个新的变量列:
Data菜单的Insert Variable命令项。
增加一个新的列:
Data菜单的Insert Case命令项,增加一个新的行。
增加一个新的观察值:
Edit菜单的Cut命令项。
删除一个行:
Delete键或选Edit菜单的Clear命令项。
删除一个变量列:
Delete键或选Edit菜单的Clear命令项。
删除一个观察值:
Edit菜单的Cut命令项,Edit菜单的Paste命令项。
(五)数据的整理:
数据的排序:
选Data菜单的Sort Cases...命令项,弹出Sort Cases...对话框,在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击钮使之进入Sort by框,然后在Sort Order框中确定是按升序(Ascending,从小到大)或降序(Descending,从大到小),点击OK钮即可。
数据的行列互换:
选Data菜单的Transpose...命令项,弹出Transpose...对话框,在变量名列框中选1个或多个需要转换的变量,点击钮使之进入Variable(s)框,再点击OK钮即可。
产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名。
若要将数据再转换回原来的排列方式,方法与上述过程相同。
数据的分组汇总:
选Data菜单的Aggregate...命令项,弹出Aggregate Data对话框在变量名列框中选一个变量,点击钮使之进入Break Variable(s)框,选一个变量进入Aggregate Variable(s)框,因欲作平均值汇总,故点击Function...钮弹出Aggregate Data:
Aggregate Function对话框,选Mean of values项点击Continue钮返回;再点击OK钮即可。
数据的分割:
选Data菜单的Split File...命令项,弹出Split File对话框,选Repeat analysis for each group表示此后都按指定的分组方式作相同项目的分析,用户可从变量名列框中选1个或多个变量点击钮使之进入Groups Based on框来作分组的依据。
若在数据分割之后要取消这种分组,可选Analyze all cases项,则系统恢复如初。
(六)数据的运算与新变量的生成:
选Transform菜单的Compute...命令项,既可对选定的变量进行运算操作,又可通过运算操作让系统生成新的变量。
在弹出的Compute Variable对话框中,先Target Variable指定一个变量(可以是数据管理器中已有的变量,也可是用户欲生成的新变量),然后点击Type&Label...钮确定是数值型变量,还是字符型变量,或加上变量标签。
在Numeric Expression框中键入运算公式,系统提供计算器和82种函数(在Functions框内)让用户使用;若点击If...钮会弹出Compute Variable:
If Cases对话框,用户可指定符合条件的变量参与运算。
(七)数据文件的调用与保存:
选File菜单的Open命令项,再选Data...项,弹出Open Data File对话框,用户确定盘符、路径、文件名后点击OK钮,即可调入数据文件。
数据文件的保存:
File菜单的Save As... 命令项,弹出Newdata:
Save Data As对话框, 用户确定盘符、路径、文件名以及文件格式后点击OK钮,即可保存数据文件。
(八)Descriptives过程:
调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。
依次打开Analyze-descriptive statistics-descriptives,弹出Descriptives对话框。
现在对话框左侧的变量列表中选取变量,点击钮使之进入Variable(s)框。
点击Options...钮,弹出Descriptives:
Options对话框。
框中各指标的意义请参阅上面内容。
选好项目后点击 Continue钮返回Descriptives对话框,再点击OK钮即可。
(九)Frequencies过程:
调用此过程可进行频数分布表的分析。
频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。
依次选择Analyze-Descriptive statistics-Frequencies,弹出Frequencies对话框。
同时可点击Format...钮弹出Frequencies:
Format对话框,在Order by栏中有四个选项:
Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。
在Page Formal栏中可定义结果输出的格式。
点击statistics...钮,弹出对话框,可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。
如计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。
点击Charts...钮,弹出Frequencies:
Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram)。
例2.1结果:
表1描述性统计
N
最小值
最大值
平均值
标准偏差
方差
偏度
峰度
统计量
统计量
统计量
统计量
标准错误
统计量
统计量
统计量
标准错误
统计量
标准错误
蛋长
6
52.22
56.72
54.0933
.70533
1.72769
2.985
.560
.845
-.885
1.741
蛋宽
6
46.12
48.42
47.3900
.40407
.98977
.980
-.490
.845
-2.011
1.741
蛋重
6
50.01
53.23
51.6300
.66238
1.62250
2.633
.007
.845
-3.219
1.741
有效N(成列)
6
分析:
从:
从表中可以看出有6个统计量,最小值,最大值,,平均值:
=4.95917,平均值的标准差:
,方差:
标准差=
偏度是描述发布形态对称性的统计量,偏度等于0是正态分布,大于0是右偏分布,表明较低的值占多数,小于0是左偏分布,表明较高的值占多数。
峰度是描述资料分布形态扁平程度的统计量,峰度等于0表示数据分布的扁平程度适中,即正态分布,大于0是尖峰分布,小于0是扁平分布。
例2.2结果:
表2描述统计量
N
全距
极小值
极大值
均值
标准差
体重
126
28.0
37.0
65.0
51.762
5.1779
有效的N(列表状态)
126
分析:
从表中可以看出126头母羊体重的均值
=51.762,标准差s=5.1779,全距R=28.0,最大体重=65.0,最小体重=37.0.
IF(体重>=36.0&体重39.0)次数=1.
EXECUTE.
IF(体重>=39.0&体重42.0)次数=2.
EXECUTE.
IF(体重>=42.0&体重45.0)次数=3.
EXECUTE.
IF(体重>=45.0&体重48.0)次数=4.
EXECUTE.
IF(体重>=48.0&体重51.0)次数=5.
EXECUTE.
IF(体重>=51.0&体重54.0)次数=6.
EXECUTE.
IF(体重>=54.0&体重57.0)次数=7.
EXECUTE.
IF(体重>=57.0&体重60.0)次数=8.
EXECUTE.
IF(体重>=60.0&体重63.0)次数=9.
EXECUTE.
IF(体重>=63.0)次数=10.
EXECUTE.
表3频数分布表
频数
百分比
有效百分比
累积百分比
有效
36.0~
1
.8
.8
.8
39.0~
1
.8
.8
1.6
42.0~
6
4.8
4.8
6.3
45.0~
18
14.3
14.3
20.6
48.0~
26
20.6
20.6
41.3
51.0~
27
21.4
21.4
62.7
54.0~
26
20.6
20.6
83.3
57.0~
12
9.5
9.5
92.9
60.0~
7
5.6
5.6
98.4
63.0~
2
1.6
1.6
100.0
合计
126
100.0
100.0
分析:
从表中可以看出,我们对数据进行了分组,分成10组,组距=全距/组数=28.0/10
3.0
第一组下限=最小值-1/2组距=37-1/2*3=35.5
36,分组的组限依次为36.0,39.0,42.0,45.0,48.0,51.0,54.0,57.0,60.0,63.0.所以第一组就是36.0-39.0.以此类推。
频数是有效数在各组中取到的次数,如36.0的频数是1,则表示取到1位在36.0-39.0范围内的数。
百分比则是频数在总数中的比例,如1的百分比是1/126
0.8,有效百分比就是有效的频数百分比,累积百分比就是有效百分比的累积。
例2.3结果:
图1水稻杂种二代米粒性状分离条形图
分析:
条形图一般用于归类资料,主要适用于彼此独立的资料互相比较。
“图表中的数据为”选项说明:
1.格案组摘要:
观察值分类描述模式,即对变量中的观察值进行分组后绘图;2.各个变量的摘要:
变量描述模式,即每个变量生成一个条形图;3.个案值:
观察值描述模式,即对应分类轴变量中每一观察值生成一个条形图。
本题选个案组摘要。
“条的表征”选项说明:
1.个案数:
以每组观察单元的例数制图;2.个案数的%:
:
以每组观察单元的例数百分比制图;3.累计个数:
:
以每组观察单元的累积例数制图;4.累积%:
:
以每组观察单元的累积百分比制图;5.其它统计量:
已经过统计加工数据的制图。
本题选其它统计量。
从表中可以看出每种米粒性状的平均数次数。
注意:
米粒性状要定义为字符串。
变量为:
次数,是纵坐标。
类别轴为米粒性状,是横坐标。
例2.4结果:
图2几种动物食品的营养成分
分析:
从图中可以看出牛奶中的水分最多,再是糖类,无机盐最少;牛肉中水分最多,再是蛋白质,脂肪,没有糖类,其它两个以此类推。
注意:
品名要定义为字符串。
例2.5结果:
图3牛肉的不同营养成分构成比
分析:
饼图用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。
从图中可以看出其它占的比例最大,再是蛋白质,最少是脂肪。
图表中的数据为个案组摘要。
例2.6结果:
图4长白猪体重的变化
分析:
线图适用于连续性计量资料,表示事物或现象因时间、条件的变化而变迁的趋势。
因为只有体重一个变量,所以选择简单以及个案值摘要。
从图中可以看出长白猪的体重随着月龄的增长而增长。
例2.7结果:
图53个品种猪体重的变化
分析:
图表中的数据为个案值,从图中可以看出3种猪的体重都随着月龄的增长而增长。
其中长白猪的变化最快最显著。
例1结果:
表4描述统计量
N
全距
极小值
极大值
均值
标准差
方差
偏度
峰度
统计量
统计量
统计量
统计量
统计量
标准误
统计量
统计量
统计量
标准误
统计量
标准误
红血球数
120
1.895
3.980
5.875
4.95917
.036866
.403841
.163
-.259
.221
-.243
.438
有效的N(列表状态)
120
分析:
从表中可以看出有120个统计量其中极小值是3.980,极大值是5.875,全距=极大值-极小值=5.875-3.980=1.895,均值:
=4.95917,均值的标准差:
是0.036866,方差:
=0.163,标准差=
=0.403841,偏度是描述发布形态对称性的统计量,偏度=-0.259小于0是左偏分布,表明较高的值占多数。
峰度=-0.243小于0是扁平分布。
表5统计量
次数
N
有效
120
缺失
0
表6120人的红血球数的次数分布表
频率
百分比
有效百分比
累积百分比
有效
3.0~
1
.8
.8
.8
4.0~
53
44.2
44.2
45.0
5.0~
66
55.0
55.0
100.0
合计
120
100.0
100.0
图6红血球数次数分布图
分析:
列出了120人的基本统计指标,从表中可以120人的红血球数的极差是1.895,均值是4.95909,标准差是0.403835,方差是0.163,数据波动不大,偏度、峰度均小于0,表明较大数值占多数(左偏),数据成扁平分布。
该类数据较多、单一变量,故对数据分3组进行进一步分析。
从表2.6可知120个数据均有效;从表27可知3.0~,4.0~,5.0~各组中体重符合对应范围的数据个数依次是1,53,66;从表中可以看出红血球数在5.0~数量最多。
表7案例处理摘要
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
红血球数
120
100.0%
0
.0%
120
100.0%
表8描述分析
统计量
标准误
红血球数
均值
4.95909
.036865
均值的95%置信区间
下限
4.88610
上限
5.03209
5%修整均值
4.96422
中值
5.02000
方差
.163
标准差
.403835
极小值
3.980
极大值
5.875
范围
1.895
四分位距
.490
偏度
-.258
.221
峰度
-.243
.438
表9M-估计器
Huber的M-估计器a
Tukey的双权重b
Hampel的M-估计器c
Andrews波d
红血球数
4.98686
5.00709
4.97938
5.00776
a.加权常量为1.339。
b.加权常量为4.685。
c.加权常量为1.700、3.400和8.500
d.加权常量为1.340*pi。
表10百分位数
百分位数
5
10
25
50
75
90
95
加权平均(定义1)
红血球数
4.25050
4.36000
4.70000
5.02000
5.19000
5.50600
5.60950
Tukey的枢纽
红血球数
4.70000
5.02000
5.19000
表11极值
案例号
值
红血球数
最高
1
111
5.875
2
39
5.850
3
103
5.700
4
96
5.640
5
47
5.630
最低
1
90
3.980
2
4
4.065
3
115
4.070
4
3
4.070
5
24
4.215
红血球数Stem-and-LeafPlot
FrequencyStem&Leaf
1.0039.8
3.0040.677
.0041.
5.0042.15699
5.0043.12668
3.0044.289
6.0045.224589
6.0046.012445
9.0047.001224888
10.0048.0011444689
6.0049.225689
15.0050.000001345567779
23.0051.00001223445566788899999
8.0052.02266889
5.0053.01667
3.0054.257
5.0055.12269
4.0056.0134
1.0057.0
2.0058.57
Stemwidth:
.100
Eachleaf:
1case(s)
图7箱形图
分析:
对例1中的数据进行分析,首先因其数据样本的数据较多,而且对其的特性和分布都不是太了解,所以我们就对此样本数均进行一个探索性的分析,分析结果如上所示。
(1)首先我做了一个基本的描述性统计分析,得到以上表6的全距、最大值、最小值、均值、标准差等最基本的统计数据,表7是对样本数据进行的一个基本的处理摘要,得到我们有120个样本数据且120样本数据全为有效值;
(2)分析得到的表8中,得到了95%的置信区间,5%的修整均值以及中值、四分位距、偏度、峰度等,其偏度小于0,呈左偏状态,峰度小于0呈扁平状态;
(3)表9是分别采用4个M-估计器对样本数据进行均值估计得到的4个均值;
(4)表10是分别取了7个段落的百分位数(百分位数是将样本数据从小到大排列并均匀分成100等份,百分位数是所取百分比的一个节点数);
(5)表11是极值的取值数,他分别取了5个最大值和5个最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 管理 系统 基本 统计分析 报告 实验 材料