书签分享收藏举报版权申诉 / 17

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 大数据地管理系统及基本统计分析报告实验报告材料.docx

大数据地管理系统及基本统计分析报告实验报告材料.docx

文档编号：17299366
上传时间：2023-07-23
格式：DOCX
页数：17
大小：97.19KB

《大数据地管理系统及基本统计分析报告实验报告材料.docx》由会员分享，可在线阅读，更多相关《大数据地管理系统及基本统计分析报告实验报告材料.docx（17页珍藏版）》请在冰点文库上搜索。

大数据地管理系统及基本统计分析报告实验报告材料.docx

大数据地管理系统及基本统计分析报告实验报告材料

评分

实验报告

课程名称生物医学统计分析

实验名称数据的管理及基本统计分析

专业班级

姓名

学号

实验日期2015年11月19日

实验地点

2015—2016学年度第2学期

一、实验目的

对数据进行管理及基本统计分析，包括：

数据的格式化，数据的输入，数据管理器列宽定义，数据的增减、整理、运算与新变量的生成、文件的调用与保存，Descriptives过程，Frequenciies过程。

二、实验环境

1、硬件配置：

处理器：

Intel（R）Core（TM）i7-3770CPU@3.40GHz3.40GHz

安装内存（RAM）：

4.00GB系统类型：

64位操作系统

2、软件环境：

IBMSPSSStatistics19.0软件

三、实验内容

（包括本实验要完成的实验问题及需要的相关知识简单概述）

（1）课本第二章《资料的描述性统计分析》的例2.1-2.7运行一遍，注意理解结果；

（2）然后将实验指导书的例1按照步骤进行数据管理的操作和基本统计分析。

（1）某地某年成年男子120人的红血球数（1012/L）记录如下:

5.1955.3604.0704.0655.1604.5904.5204.7204.4905.2605.0705.1004.3154.9904.3605.4505.1205.1904.5804.3804.6104.3605.1004.2155.0704.7214.6405.0005.5105.6004.4205.1804.2605.0605.2804.2504.8404.8005.8505.3055.0005.2905.3604.9505.4205.6105.6304.5204.8005.0005.2804.9205.1704.6405.5205.1404.2955.4704.8404.5404.7404.8805.1404.7005.5605.5204.4854.2904.7804.6204.8105.1104.6005.2004.7005.0505.2205.5905.3704.6504.7805.3155.1505.0705.0055.1204.9854.8155.0903.9804.5504.9604.7805.1905.1605.6405.0505.0404.3205.1904.8405.0005.7005.0305.1554.8604.7154.9204.8905.1805.8755.1055.1855.1304.0705.1005.2605.2205.1905.010

对该组数据进行数据管理的操作和基本统计分析。

四、实验结果与分析

（包括实验原理、数据的准备、运行过程分析、源程序（代码）、图形图象界面等）

注：

本项可以增加页数

（一）数据格式化：

用户可根据具体资料的属性对数据进行格式化。

主要有以下3种数据类型：

Numeric：

数值型，同时定义数值的宽度（Width），即整数部分+小数点+小数部分的位数，默认为8位；定义小数位数（Decimal Places），默认为2位。

Date：

日期型。

如选择mm/dd/yy形式，则1995年6月25日显示为06/25/95。

String：

字符型，用户可定义字符长度（Characters）以便输入字符。

（二）数据的输入：

定义好变量并格式化数据之后，即可向数据管理窗口键入原始数据。

数据管理窗口的主要部分就是电子表格，横方向为电子表格的行，其行头以1、2、3、„„表示，即第1、2、3、„„行；纵方向为电子表格的列，其列头以var00001,var00002,var00003„„表示变量名。

行列交叉处称为单元格，即保存数据的空格。

鼠标一旦移入电子表格内即呈十字形，这时按鼠标左键可激活单元格，被激活的单元格以加粗的边框显示；用户也可以按方向键上下左右移动来激活单元格。

单元格被激活后，用户即可向其中输入新数据或修改已有的数据。

（三）数据管理器列宽定义：

点击Column Format...钮，用户可定义数据管理器纵列的宽度，以便显示较长的数值或文字；同时用户还可指定数值或文字在数据管理器单元格中的位置：

Left表示靠左、Center表示居中、Right表示靠右（此为默认方式）。

（四）数据的增删：

增加一个新的变量列：

Data菜单的Insert Variable命令项。

增加一个新的列：

Data菜单的Insert Case命令项，增加一个新的行。

增加一个新的观察值：

Edit菜单的Cut命令项。

删除一个行：

Delete键或选Edit菜单的Clear命令项。

删除一个变量列：

Delete键或选Edit菜单的Clear命令项。

删除一个观察值：

Edit菜单的Cut命令项，Edit菜单的Paste命令项。

（五）数据的整理：

数据的排序：

选Data菜单的Sort Cases...命令项，弹出Sort Cases...对话框，在变量名列框中选1个需要按其数值大小排序的变量（用户也可选多个变量，系统将按变量选择的先后逐级依次排序），点击钮使之进入Sort by框，然后在Sort Order框中确定是按升序（Ascending，从小到大）或降序（Descending，从大到小），点击OK钮即可。

数据的行列互换：

选Data菜单的Transpose...命令项，弹出Transpose...对话框，在变量名列框中选1个或多个需要转换的变量，点击钮使之进入Variable（s）框，再点击OK钮即可。

产生的新数据会在第1列出现一个case_lbl新变量，用于放置原来数值的变量名。

若要将数据再转换回原来的排列方式，方法与上述过程相同。

数据的分组汇总：

选Data菜单的Aggregate...命令项，弹出Aggregate Data对话框在变量名列框中选一个变量，点击钮使之进入Break Variable（s）框，选一个变量进入Aggregate Variable（s）框，因欲作平均值汇总，故点击Function...钮弹出Aggregate Data:

Aggregate Function对话框，选Mean of values项点击Continue钮返回；再点击OK钮即可。

数据的分割：

选Data菜单的Split File...命令项，弹出Split File对话框，选Repeat analysis for each group表示此后都按指定的分组方式作相同项目的分析，用户可从变量名列框中选1个或多个变量点击钮使之进入Groups Based on框来作分组的依据。

若在数据分割之后要取消这种分组，可选Analyze all cases项，则系统恢复如初。

（六）数据的运算与新变量的生成：

选Transform菜单的Compute...命令项，既可对选定的变量进行运算操作，又可通过运算操作让系统生成新的变量。

在弹出的Compute Variable对话框中，先Target Variable指定一个变量（可以是数据管理器中已有的变量，也可是用户欲生成的新变量），然后点击Type&Label...钮确定是数值型变量，还是字符型变量，或加上变量标签。

在Numeric Expression框中键入运算公式，系统提供计算器和82种函数（在Functions框内）让用户使用；若点击If...钮会弹出Compute Variable:

If Cases对话框，用户可指定符合条件的变量参与运算。

（七）数据文件的调用与保存：

选File菜单的Open命令项，再选Data...项，弹出Open Data File对话框，用户确定盘符、路径、文件名后点击OK钮，即可调入数据文件。

数据文件的保存：

File菜单的Save As... 命令项，弹出Newdata:

Save Data As对话框, 用户确定盘符、路径、文件名以及文件格式后点击OK钮，即可保存数据文件。

（八）Descriptives过程：

调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标。

依次打开Analyze-descriptive statistics-descriptives，弹出Descriptives对话框。

现在对话框左侧的变量列表中选取变量,点击钮使之进入Variable（s）框。

点击Options...钮，弹出Descriptives:

Options对话框。

框中各指标的意义请参阅上面内容。

选好项目后点击 Continue钮返回Descriptives对话框，再点击OK钮即可。

（九）Frequencies过程：

调用此过程可进行频数分布表的分析。

频数分布表是描述性统计中最常用的方法之一，此外还可对数据的分布趋势进行初步分析。

依次选择Analyze－Descriptive statistics－Frequencies，弹出Frequencies对话框。

同时可点击Format...钮弹出Frequencies：

Format对话框，在Order by栏中有四个选项：

Ascending values为根据数值大小按升序从小到大作频数分布；Descending values为根据数值大小按降序从大到小作频数分布；Ascending counts为根据频数多少按升序从少到多作频数分布；Descending counts为根据频数多少按降序从多到少作频数分布。

在Page Formal栏中可定义结果输出的格式。

点击statistics...钮，弹出对话框，可点击相应项目，要求系统在作频数表分析的基础上，附带作各种统计指标的描述，特别是可进行任何水平的百分位数计算。

如计算四分位数（Quartiles）、均数（Mean）、中位数（Median）、众数（Mode）、总和（Sum）、标准差（Std.deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E.mean）、偏度系数（Skewness）和峰度系数（Kurtosis），选好后点击Continue钮返回Frequencies对话框。

点击Charts...钮，弹出Frequencies:

Charts对话框，用户可选两种图形，一是直条图（Bar chart），适用于非连续性的变量；另一是直方图（Histogram）。

例2.1结果：

表1描述性统计

N

最小值

最大值

平均值

标准偏差

方差

偏度

峰度

统计量

标准错误

统计量

标准错误

统计量

标准错误

蛋长

6

52.22

56.72

54.0933

.70533

1.72769

2.985

.560

.845

-.885

1.741

蛋宽

6

46.12

48.42

47.3900

.40407

.98977

.980

-.490

.845

-2.011

1.741

蛋重

6

50.01

53.23

51.6300

.66238

1.62250

2.633

.007

.845

-3.219

1.741

有效N（成列）

6

分析：

从：

从表中可以看出有6个统计量，最小值，最大值，，平均值:

=4.95917，平均值的标准差:

，方差:

标准差=

偏度是描述发布形态对称性的统计量，偏度等于0是正态分布，大于0是右偏分布，表明较低的值占多数，小于0是左偏分布，表明较高的值占多数。

峰度是描述资料分布形态扁平程度的统计量，峰度等于0表示数据分布的扁平程度适中，即正态分布，大于0是尖峰分布，小于0是扁平分布。

例2.2结果：

表2描述统计量

N

全距

极小值

极大值

均值

标准差

体重

126

28.0

37.0

65.0

51.762

5.1779

有效的N（列表状态）

126

分析：

从表中可以看出126头母羊体重的均值

=51.762，标准差s=5.1779，全距R=28.0，最大体重=65.0，最小体重=37.0.

IF（体重>=36.0&体重39.0）次数=1.

EXECUTE.

IF（体重>=39.0&体重42.0）次数=2.

EXECUTE.

IF（体重>=42.0&体重45.0）次数=3.

EXECUTE.

IF（体重>=45.0&体重48.0）次数=4.

EXECUTE.

IF（体重>=48.0&体重51.0）次数=5.

EXECUTE.

IF（体重>=51.0&体重54.0）次数=6.

EXECUTE.

IF（体重>=54.0&体重57.0）次数=7.

EXECUTE.

IF（体重>=57.0&体重60.0）次数=8.

EXECUTE.

IF（体重>=60.0&体重63.0）次数=9.

EXECUTE.

IF（体重>=63.0）次数=10.

EXECUTE.

表3频数分布表

频数

百分比

有效百分比

累积百分比

有效

36.0~

1

.8

39.0~

1

.8

1.6

42.0~

6

4.8

6.3

45.0~

18

14.3

20.6

48.0~

26

20.6

41.3

51.0~

27

21.4

62.7

54.0~

26

20.6

83.3

57.0~

12

9.5

92.9

60.0~

7

5.6

98.4

63.0~

2

1.6

100.0

合计

126

100.0

分析：

从表中可以看出，我们对数据进行了分组，分成10组，组距=全距/组数=28.0/10

3.0

第一组下限=最小值-1/2组距=37-1/2*3=35.5

36，分组的组限依次为36.0,39.0,42.0,45.0,48.0,51.0,54.0,57.0,60.0,63.0.所以第一组就是36.0-39.0.以此类推。

频数是有效数在各组中取到的次数，如36.0的频数是1，则表示取到1位在36.0-39.0范围内的数。

百分比则是频数在总数中的比例，如1的百分比是1/126

0.8，有效百分比就是有效的频数百分比，累积百分比就是有效百分比的累积。

例2.3结果：

图1水稻杂种二代米粒性状分离条形图

分析：

条形图一般用于归类资料，主要适用于彼此独立的资料互相比较。

“图表中的数据为”选项说明：

1.格案组摘要：

观察值分类描述模式，即对变量中的观察值进行分组后绘图；2.各个变量的摘要：

变量描述模式，即每个变量生成一个条形图；3.个案值：

观察值描述模式，即对应分类轴变量中每一观察值生成一个条形图。

本题选个案组摘要。

“条的表征”选项说明：

1.个案数：

以每组观察单元的例数制图；2.个案数的%：

：

以每组观察单元的例数百分比制图；3.累计个数：

：

以每组观察单元的累积例数制图；4.累积%：

：

以每组观察单元的累积百分比制图；5.其它统计量：

已经过统计加工数据的制图。

本题选其它统计量。

从表中可以看出每种米粒性状的平均数次数。

注意：

米粒性状要定义为字符串。

变量为：

次数，是纵坐标。

类别轴为米粒性状，是横坐标。

例2.4结果：

图2几种动物食品的营养成分

分析：

从图中可以看出牛奶中的水分最多，再是糖类，无机盐最少；牛肉中水分最多，再是蛋白质，脂肪，没有糖类，其它两个以此类推。

注意：

品名要定义为字符串。

例2.5结果：

图3牛肉的不同营养成分构成比

分析：

饼图用于表示计数资料、质量性状资料或半定量（等级）资料的构成比。

从图中可以看出其它占的比例最大，再是蛋白质，最少是脂肪。

图表中的数据为个案组摘要。

例2.6结果：

图4长白猪体重的变化

分析：

线图适用于连续性计量资料，表示事物或现象因时间、条件的变化而变迁的趋势。

因为只有体重一个变量，所以选择简单以及个案值摘要。

从图中可以看出长白猪的体重随着月龄的增长而增长。

例2.7结果：

图53个品种猪体重的变化

分析：

图表中的数据为个案值，从图中可以看出3种猪的体重都随着月龄的增长而增长。

其中长白猪的变化最快最显著。

例1结果：

表4描述统计量

N

全距

极小值

极大值

均值

标准差

方差

偏度

峰度

统计量

标准误

统计量

标准误

统计量

标准误

红血球数

120

1.895

3.980

5.875

4.95917

.036866

.403841

.163

-.259

.221

-.243

.438

有效的N（列表状态）

120

分析：

从表中可以看出有120个统计量其中极小值是3.980，极大值是5.875，全距=极大值-极小值=5.875-3.980=1.895，均值:

=4.95917，均值的标准差:

是0.036866，方差:

=0.163,标准差=

=0.403841,偏度是描述发布形态对称性的统计量，偏度=-0.259小于0是左偏分布，表明较高的值占多数。

峰度=-0.243小于0是扁平分布。

表5统计量

次数

N

有效

120

缺失

0

表6120人的红血球数的次数分布表

频率

百分比

有效百分比

累积百分比

有效

3.0~

1

.8

4.0~

53

44.2

45.0

5.0~

66

55.0

100.0

合计

120

100.0

图6红血球数次数分布图

分析：

列出了120人的基本统计指标，从表中可以120人的红血球数的极差是1.895，均值是4.95909，标准差是0.403835，方差是0.163，数据波动不大，偏度、峰度均小于0，表明较大数值占多数（左偏），数据成扁平分布。

该类数据较多、单一变量，故对数据分3组进行进一步分析。

从表2.6可知120个数据均有效；从表27可知3.0~,4.0~,5.0~各组中体重符合对应范围的数据个数依次是1,53,66；从表中可以看出红血球数在5.0~数量最多。

表7案例处理摘要

案例

有效

缺失

合计

N

百分比

N

百分比

N

百分比

红血球数

120

100.0%

0

.0%

120

100.0%

表8描述分析

统计量

标准误

红血球数

均值

4.95909

.036865

均值的95%置信区间

下限

4.88610

上限

5.03209

5%修整均值

4.96422

中值

5.02000

方差

.163

标准差

.403835

极小值

3.980

极大值

5.875

范围

1.895

四分位距

.490

偏度

-.258

.221

峰度

-.243

.438

表9M-估计器

Huber的M-估计器a

Tukey的双权重b

Hampel的M-估计器c

Andrews波d

红血球数

4.98686

5.00709

4.97938

5.00776

a.加权常量为1.339。

b.加权常量为4.685。

c.加权常量为1.700、3.400和8.500

d.加权常量为1.340*pi。

表10百分位数

百分位数

5

10

25

50

75

90

95

加权平均（定义1）

红血球数

4.25050

4.36000

4.70000

5.02000

5.19000

5.50600

5.60950

Tukey的枢纽

红血球数

4.70000

5.02000

5.19000

表11极值

案例号

值

红血球数

最高

1

111

5.875

2

39

5.850

3

103

5.700

4

96

5.640

5

47

5.630

最低

1

90

3.980

2

4

4.065

3

115

4.070

4

3

4.070

5

24

4.215

红血球数Stem-and-LeafPlot

FrequencyStem&Leaf

1.0039.8

3.0040.677

.0041.

5.0042.15699

5.0043.12668

3.0044.289

6.0045.224589

6.0046.012445

9.0047.001224888

10.0048.0011444689

6.0049.225689

15.0050.000001345567779

23.0051.00001223445566788899999

8.0052.02266889

5.0053.01667

3.0054.257

5.0055.12269

4.0056.0134

1.0057.0

2.0058.57

Stemwidth:

.100

Eachleaf:

1case（s）

图7箱形图

分析：

对例1中的数据进行分析，首先因其数据样本的数据较多，而且对其的特性和分布都不是太了解，所以我们就对此样本数均进行一个探索性的分析，分析结果如上所示。

（1）首先我做了一个基本的描述性统计分析，得到以上表6的全距、最大值、最小值、均值、标准差等最基本的统计数据，表7是对样本数据进行的一个基本的处理摘要，得到我们有120个样本数据且120样本数据全为有效值；

（2）分析得到的表8中，得到了95%的置信区间，5%的修整均值以及中值、四分位距、偏度、峰度等，其偏度小于0，呈左偏状态，峰度小于0呈扁平状态；

（3）表9是分别采用4个M-估计器对样本数据进行均值估计得到的4个均值；

（4）表10是分别取了7个段落的百分位数（百分位数是将样本数据从小到大排列并均匀分成100等份，百分位数是所取百分比的一个节点数）；

（5）表11是极值的取值数，他分别取了5个最大值和5个最

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据管理系统基本统计分析报告实验材料

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：大数据地管理系统及基本统计分析报告实验报告材料.docx
链接地址：https://www.bingdoc.com/p-17299366.html

大数据地管理系统及基本统计分析报告实验报告材料.docx

热门标签