数据挖掘实验研.docx
- 文档编号:16871190
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:10
- 大小:22.06KB
数据挖掘实验研.docx
《数据挖掘实验研.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验研.docx(10页珍藏版)》请在冰点文库上搜索。
数据挖掘实验研
甘肃政法学院
本科生实验报告
(四)
姓名:
贾燚
学院:
计算机科学学院
专业:
信息管理与信息系统
班级:
10级信管班
实验课程名称:
数据仓库与数据挖掘
实验日期:
2012年11月9日
指导教师及职称:
朱正平
实验成绩:
开课时间:
2011-2012学年二学期
甘肃政法学院实验管理中心印制
实验题目
统计分析工具SPSS及其使用
小组合作
○是⊙否
姓名
贾燚
班级
10信管
学号
201081020108
一、实验目的
1.熟悉统计分析工具SPSS的功能;
2.了解熟悉SPSS分析处理过程;
3.了解熟悉SPSS的简单使用。
二.实验环境
SQLServer2000+windowsXP
三、实验内容与步骤
1、统计分析工具
数据挖掘中你的统计工具分析工具是一种处于知识发现和信息处理工具之间的数据挖掘工具。
它既可以完成信息的分析处理,又能够进一步进行商业活动的统计分析,这比单纯的信息处理功能增强了许多。
2、统计类数据挖掘工具的功能
(1)可是化功能
数据可视化功能将有助于查找大量数据之间的关系,如可以识别时间序列数据中的模式,也可以进行曲线匹配,已发现数据中的“商业规则”或“商业模式”,还可通过自动成组化离散值,或者通过改变图的始点和尺寸来操作数据。
(2)探索功能
数据挖掘工具的探索功能有助于选择适用于数据的恰当统计功能和模型。
这些功能包括多维表,面向分析的求助信息;细剖,排序和数据子集;分割文件并且做示例;指明极值和冗余。
(3)统计和操作功能
统计和操作功能应该提供丰富的数据统计和操作功能,如线性、非线性回归分析;时间序列分析;快速傅里叶变化和预测;多变量分析;ANOVA;CHAID;非参数化测试和多响应分析。
(4)数据管理功能
利用数据的管理功能可为用户提供查找细节信息、浏览数据的子集、删除冗余、比较子集、数据存储格式的转换等数据操作。
(5)显示功能
这项功能可以记录分析的步骤,将记录传送给商业分析员,然后显示整个分析任务过程。
记录功能应该包括分析步骤、数据集选择过程、所选图标和图形的调色板或演示功能,以及其他信息间的通信。
(6)挖掘结果描述功能
数据挖掘结果描述功能提供较为简单的商业图表、图形和表格形式,将组数据挖掘结果表示出来,以方便复杂的数据分析和通信。
这种功能应该能够很快的从图表类型中转化成数据,并按照需要将数据显示成不同的图表,能够将各种图表、图形和表的类型以合适的形式显示给商业用户,以便很容易地选择合适的表示方法。
(7)开发工具
用户利用这些开发工具可以很容易插入桌面应用程序和构件,以便进行统计分析,制作图表、图形和报表。
(8)可接受的响应时间
统计分析类数据挖掘工具的操作可能要花上几分钟甚至几个小时,这对商业对策来说都是可以接受的。
当然也存在例外,例如在遇到紧急市场分析处理时,几天之后的响应时无法接受的,因为当数据不能反应当前状况时,有可能无法进行相关分析。
3、统计分析工具的用途
(1)趋势分析
发生时序变化的数据通常可能会出现长期的趋势变化、循环变化、季节变化以及随机变化的倾向。
趋势变化的数据序列可以反映一般的变化方向,他的时序图时一种较长时间间隔上的数据变化。
这种变化反映一种趋势,确定这种趋势的方法可以采用加权平均或最小二乘法。
(2)时序分析
时序分析是指在书序数据中应用所谓的相似搜索,找出与给定查询序列最接近的数据序列。
时序的相似搜索需要经过数据变换,将是时序数据从时间域转换到频率域,转化的方法有傅里叶变换(DET)和离散小波变换(DWT)。
一旦数据完成变换,就可以提交系统,由系统根据索引检索出与查询序列保持最小距离的数据时序,然后通过计算时间序列和未满足查询的序列间的实际距离进行必要的后处理。
(3)周期分析
周期分析是针对周期模式的挖掘,即在时序数据库中找出重复出现的模式。
周期模式挖掘可以看成以一组分片序列为连接时间的序列模式挖掘。
周期模式的挖掘问题可以分为挖掘全周期模式、挖掘部分周期模式和挖掘周期关联规则3种。
●挖掘全周期模式是指在周期中的每一时间点都影响时序上的循环行为。
●挖掘部分周期模式是一种比较松散的全周期模式,它主要描述部分时间点的时序周期。
●挖掘周期关联规则是指周期性出现的事件的关联规则,即在某个周期中,某个事件发生后,将会导致另一事件的发生。
4、统计分析工具应用
5、统计分析类工具应用中的问题
(1)在现实世界中的数据仓库极易受噪声、空缺数据和不一致性数据的影响。
因为数据仓库太大,存在不完整的、含噪声的和不一致的数据是大型的、显示数据库或数据仓库的共同特点。
不完整数据的出现可能有多种原因。
(2)数据含噪声可能有很多种原因:
如收集数据的设备可能出故障,人为地或计算机的错误可能在数据输入时出现,数据传输中的错误也可能出现。
这些或许是由于技术的限制,不正确的数据可能由命名或所用的数据代码不一致而造成的。
重复元组也会造成数据噪声,对此也需要清理。
(3)数据清理例程通过填写空缺的值、平滑噪声数据,识别、删除孤立点,并且解决不一致来“清理”数据。
脏数据能使挖掘过程陷入混乱,导致不可靠的输出。
尽管大部分挖掘例程都有一些过程,处理不完整或噪声数据,但他们并非总数强壮的。
相反,他们更致力于避免数据过分适合所建的模型。
6、空缺值处理
(1)如果一个数据库中许多元组的一些属性值没有记录值,可以采取以下的方法为该属性填上空缺的值。
(2)忽略元组:
如果挖掘任务涉及分类或描述,但是缺少类标号是可以忽略元组。
(3)人工填写空缺值:
一般来讲,该方法很费时,但数据集很大、缺少很多值时,该方法可能行不通。
(4)使用一个全局变量填充空缺值:
该方法是将空缺的属性值用同一个常数替换。
(5)使用一属性的平均值填充空缺值:
使用与给定元组属同一类的所有样本平均值。
(6)使用最有可能的值填充空缺值:
可以用回归、基于推导的使用贝叶斯形式化方法的工具或判定树归纳确定最可能的值,将其填充到空缺值中。
7、噪声数据处理
(1)噪声是一个测量变量中的随即错误或偏差。
给定一个数值属性的噪声,可以将其平滑掉或删除掉。
(2)分箱:
分箱方法用来平滑噪声。
该方法主要通过考察“领域”(即周围的值),平滑存储数据的值。
存储值被分布到一些“桶或箱中。
由于分箱方法参考相邻的值,因此它进行局部平滑。
分箱也可以作为一个离散化技术使用。
(3)聚类:
数据中的孤立点噪声可用聚类检测出来。
聚类将类似的值组织成群或“类聚”。
直观地看,落在聚类集合之外的值被视为孤立点。
孤立点值作为噪声位理将其删除或用“类聚”中心值代替。
(4)计算机和人工检查结合:
可以通过计算机和人工检查相结合的方法来识别孤立点。
(5)回归:
可以通过让数据适合一个函数(如回归函数)来平滑噪声数据。
线性回归涉及适合两个变量的“最佳”直线,使得一个变量能够预测另一个。
多元线性回归是线性回归的扩展,它涉及两个以上的变量,适合多线面数据。
使用回归找出适合数据的数学方程式能够帮助消除噪声。
8、不一致数据处理
对于有些事物,所记录的数据可能存在不一致性。
数据不一致可以使用其他材料人工加以更正,例如数据输入时的错误可以使用纸上的记录加以更正。
9、统计分析遵循的基本原则
统计分析的科学依据在于事物发张的规律性。
具体来说,应该遵循以下三个基本原则。
(1)与定性分析相结合原则
统计分析是一种定量分析,但不是抽象的量,而是具有一定质的量。
首先,必须对现象的性质有足够的认识,在管理理论指导下对现象进行详细的分析,找到事物的内在联系和主要的数量关系。
这样,才能用恰当的数学模型进行分析。
对分析的结果也应根据有关专业理论进行分析和修正。
(2)连贯和类推原则
这是进行模型外推分析所要遵循的两条重要原则。
连贯指的是过去和现在的状况将会以某种规律延续到将来。
他有两方面的含义:
一是时间的连贯性,即分析对象在较长时间所呈现的主要数量特征保持相对稳定,一时间序列为代表的趋势外推分析正是利用时间连贯性的假定;二是结构的连贯性,即分析对象系统的结构基本上不随时间而变,各变量间相互影响的关系基本稳定,因果关系分析则以这一假定为前提。
类推原则是指客观事物的结构和变化都有一定模式。
同一性质、同一类型的事物,其结构变化应该有同一模式。
这种模式可由数学模型模拟,将过去的情况类推到未来。
类推原则是建立统计模型的理论基础。
(3)统计资料的可靠性和分析公式的适应性原则
必须保证统计资料准确、可靠和合理,才能利用观测数据找到真正的统计规律,从而建立可靠的分析模型。
对于同一目的、同一批数据的分析问题来说,可以有不同的分析模型和不同的分析方法,这时要根据事物的特点及其统计规律,确定是分析误差达到最小的分析模型和分析方法,即建立最合适的分析公式。
10、统计分析的步骤
(1)确定分析目标
对未来状况的分析是行动成功的关键。
对社会经济现象的未来前景作出尽可能正确的估计,尽量减少行动决策中的风险,这正是分析所要研究的问题。
每次分析之前,先要明白分析的对象是什么,解决什么问题,达到什么要求,分析的时间范围等。
这些问题解决了,才能明确分析的具体任务。
(2)收集、审核及分析统计资料
确定目标后,根据分析目的,广泛收集所需资料,对资料认真审核,保证数据真实准确,且对资料进行分析、归纳和选择,剔除非正常因素的数据,找出事物发展的统计规律。
确保指标口径一致可比、数据资料正确是保证分析结果准确的基础。
事实上,统计数据不可靠往往会造成分析结果的偏差,甚至对分析方法的误解,这是十分重要的一环。
(3)确定分析模型、选择分析方法
统计模型用于分析时,称为分析模型,分析模型有很多种,必须根据分析的要求及事物本身的特点,选择恰当的模型。
还要选择正确的估计模型参数值的方法,即分析方法。
一个分析模型可有不同的估计方法;同样,一个分析方法也适用于不同的模型。
应根据分析的目的、占有资料的数量和可靠程度、分析精度要求、分析费用等项要求来选择恰当的分析模型和分析方法。
(4)进行分析和误差分析
进行分析是指根据选定的模型,用选定的分析方法计算出参数后,就有了据以分析的分析公式。
根据分析公式对数据进行分析。
统计分析是对未来情况的估计值,由于在分析模型的理论解释和假定中,考虑因素不完整,加之客观现象的变化,所以在分析误差是不可避免的,所求出的分析值与实际值有一定的差异。
所以,在分析模型建立并且获得分析结果后,一般要经过误差分析,如果误差太大,要从各方面分析误差产生的原因,再进行模型或参数的修正,建立起可靠地分析公式,以提高分析水平。
11、统计类数据挖掘的性能问题
统计方法的优点是精确、易理解,并且已经被广泛应用。
统计分析是一种有利的技术,用它可以了解客户、市场、产品和其他关键商业参数,但也存在一些问题:
(1)它是劳动力密集的,需要相当一部分统计分析员和商业分析员的分析劳动。
(2)成功的可能性很大程度上依赖于商业分析员解决问题的能力,不能自行查找隐藏在数据背后的知识。
(3)许多情况下,商业分析人员并不知道需要查找什么(或无法选择离散的变量分析),此时,统计分析工具将无法工作。
(4)在进行市场细分时,很难集成和分析非数字化数据,只适合数字化数据处理。
(5)一般来说,统计类数据挖掘工具的应用成本与其可接受的响应时间不好统一。
12、SPSS的主要功能
SPSS可以完成基本统计操作、回归分析、相关分析、因子分析、参数分析等数据挖掘工作。
(1)基本统计分析
利用SPSS的基本统计分析功能可以进行分析数据的均数、方差、标准差、标准误差、最大(小)值、范围、偏差和峰值,并能进行正态分析、独立性检验、分析单变量、数据特性和多变量数据间的关系。
(2)回归分析
SPSS软件包包含了几乎所有的回归分析功能。
(3)相关分析
在SPSS的相关分析中包括相关分析、偏差相关分析、距离分析等数据分析功能。
相关分析主要通过数据变量之间的密切程度,根据样本资料推断总体是否相关。
(4)分类分析
SPSS中的分类分析主要有快速样本聚类、层次聚类和判别分类。
(5)因子分析
SPSS中的因子分析主要用于研究若干个变量中每个变量对某些响应的作用。
对这些因素的研究可以是单因素也可以是多因素。
因子分析的目的是用少数几个变量归纳在同一个类别中,每个类别就成为一个因子,这样就能应用少数几个因子反映数据中的大部分信息。
13、SPSS分析处理过程
用SPSS对数据进行统计处理的大致过程为:
(1)首先将数据录入成SPSS的数据文件。
SPSS也可以读入其他格式的数据文件。
(2)对数据文件进行必要的编辑。
(3)利用SPSS的统计功能对编辑好的数据文件进行统计处理。
(4)调整SPSS输出的统计结果。
(5)最后将结果输出、存盘、打印等。
14、SPSS的窗口和对话框
14.1窗口
(1)在SPSS版中,共有七种窗口,分别是:
数据编辑器、输出浏览器、活动表格编辑器、图形编辑器、输出文本编辑器、语句编辑器及脚本编辑器。
(2)数据编辑器用于显示数据文件的内容。
在数据编辑器中,可以创建新的数据文件,也可以编辑旧的数据文件。
启动SPSS时,自动打开数据编辑器。
在数据编辑器中,只能同时打开一个数据文件。
(3)所有统计结果、表格和统计图都在输出浏览器中显示。
在输出浏览器中,可以编辑和存储统计结果。
第一次执行产生输出的过程时,输出浏览器将自动打开。
(4)在活动表格编辑器中,可以编辑所有以活动表格显示的输出结果的方方面面:
编辑文字、表格行列对调、修改显示颜色、生成多维表格、有选择性地隐藏和显示部分结果等。
(5)活动表格编辑器用于设置输出浏览器中的表格格式。
(6)在图形编辑器中,可编辑高分辨率的统计图:
更改颜色、选择字体类型和大小、坐标轴互换等,甚至可以更改统计图的类型。
(7)对于不以活动表格输出的文本,可输出文本编辑器。
在输出文本编辑器中,可以更改文本的字体类型、更改大小等。
在语句编辑器中,可以采用SPSS语言编写语句文件,通过运行语句文件,同样可以达到统计分析的目的。
(8)在SPSS中,用户可以根据自己工作的需要设置工具栏。
具体设置可以分为以下几个方面:
显示或隐藏工具栏。
可以横向或纵向显示工具栏,可以把工具栏紧贴在窗口的上、下、左或右边,也可以将工具栏设置为浮动形式。
这时工具栏为单独的浮动块,可以在窗口内或窗口外自由移动。
设置工具栏中的按钮。
用户可以根据自己工作的需要设置最常用的按钮。
在SPSS的所有窗口中,状态栏显示在窗口的最下面。
状态栏显示目前已经处理的观测量数目,对于需要迭代的统计过程,状态栏将显示目前的迭代步数。
过滤状态。
当选择观测量的一个随机样本或观测的一个子集来分析时,状态栏将显示目前处于过滤状态,用户可以根据状态栏的信息查看当前过程是否对所有的数据进行分析。
加权状态。
当数据文件中有加权变量时,在状态栏中可以看到相关的显示信息。
文件拆分状态。
按照某些变量的值将数据文件分成若干组时,状态栏将显示文件处于拆分状态。
当数据文件处于拆分状态时,统计过程将对每组进行单独统计。
14.2对话框
(1)在SPSS中,选择菜单中的大部分选项都将弹出相应的对话框。
通过对话框中的按钮和下拉式菜单可以选择命令、语句、变量或参数,或者打开下一级对话框,完成设置后提交对话框中的内容给SPSS,经SPSS处理后,才能得到相应的结果。
(2)在SPSS中主要有两类对话框:
统计对话框和统计分析对话框。
(3)在SPSS中,通过菜单项或图表打开的统计分析对话框的基本结构都差不多。
一级对话框都包含源变量框、目标对话框、复选框和按钮。
四、实验过程与分析
在应用统计类数据挖掘工具时,按照确定挖掘对象、收集统计数据、选择合适的统计分析模型、分析处理、分析结果等步骤进行。
统计类数据挖掘技术可以用于趋势分析、时序分析、周期分析等领域。
在使用统计分析类数据挖掘工具时要注意防止数据噪声的影响,并且尊循统计分析技术类应用的一些基本原则。
五、实验总结
在老师和同学的帮助下,通过这次实验,我掌握了运用SPSS和SAS软件,学会了利用统计分析软件将许多数据库中的数据转换成SPSS文件。
可使SPSS的数据源直接来自各种数据库。
为以后用spss分析数据打下了坚实的基础。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验