挖掘方法.docx
- 文档编号:3172331
- 上传时间:2023-05-05
- 格式:DOCX
- 页数:7
- 大小:108.29KB
挖掘方法.docx
《挖掘方法.docx》由会员分享,可在线阅读,更多相关《挖掘方法.docx(7页珍藏版)》请在冰点文库上搜索。
挖掘方法
数据分析-挖掘方法
1.相关分析
相关分析(CorrelationAnalysis)就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。
它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。
为了确定相关变量之间的关系,首先收集一些数据,这些数据应该是成对的。
然后在直角坐标系上描述这些点,这一组点集称为“散点图”。
根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。
反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。
相关分析按相关程度可以分为完全相关、不完全相关和不相关;按相关的方向分为正相关和负相关;按相关形式分为线性相关和非线性相关;按影响因素多少分为单相关和复相关。
两个变量之间的相关程度通过相关系数r来表示。
相关系数r的值在-1和1之间,但可以是此范围内的任何值。
正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。
r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
皮尔森简单相关系数(Pearsoncorrelationcoefficient)主要适用于度量定距型变量间的线性相关关系,不适用与度量非线性相关关系。
其计算公式为:
斯皮尔曼等级相关系数(SpearmanRankCorrelation)主要适用于度量定序变量间的线性相关关系。
通过对两变量数据的秩进行计算秩的方差,进入得到Spearman等级相关系数。
其计算公式为:
肯德尔一致性相关系数(Thekandallcoefficientofconcordace)同样适用于度量定序变量之间的线性相关关系。
通过对两变量秩计算一致对数目U和非一致对数目V,进而得到肯德尔的一致相关系数,其计算公式为:
2.回归分析
回归分析(RegressionAnalysis)是一种统计学上分析数据的方法,已成功应用在金融经济学、医学等领域,它用于分析事物之间的统计关系,侧重考虑变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系。
所谓回归分析法,是在掌握大量观察数据的基础上,建立因变量与自变量之间的回归关系函数表达式,即回归方程式。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
线性回归分析(LinearRegression)是研究一个因变量和一个或多个自变量之间是否存在某种线性关系的统计学方法。
如果参与回归分析的自变量只有一个,就是线性回归分析,也称直线回归分析,得到的结果称为直线回归方程。
如果参与回归分析的变量有多个,则是多元线性回归。
一般线性回归的数学模型为:
非线性回归分析(NonlinearRegression)是指在因变量与一系列自变量之间建立非线性模型。
“线性”和“非线性”并不是说因变量和自变量之间是直线或曲线关系,而是说因变量是否能用自变量的线性组合来表示。
如果经过变量转换,两个变量可以用线性表达其关系,那么可以用线性回归分析;如果经过变量转换后,两个变量关系仍然不能用线性形式表示,可以用非线性回归分析。
一般非线性回归模型可以表示为:
3.聚类分析
聚类分析(ClusterAnalysis)又称群分析,是分类学的一种基本方法,将数据划分成有意义或有用的组(簇)。
如果目标是划分成有意义的组,则簇应当捕获数据的自然结构。
然而,在某种意义下,聚类分析只是解决其他问题的起点。
无论是旨在理解还是实用,聚类分析都在广泛的领域扮演着重要角色。
这些领域包括:
心理学和其他社会科学、生物学、统计学、模式识别、信息检索、机器学习和数据挖掘。
聚类分析的基本思想是依照事物的数值特征来观察各样品间的亲疏关系。
而样品之间的亲疏关系则由样品之间的距离来衡量,一旦样品之间的距离定义之后,就把距离近的样品归为一类。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
无论何种方法,其聚类原则都是近似的聚为一类,即距离最近或最相似的聚为一类。
不同类型变量之间不相似测度是不同的。
定距型变量不相似测度主要有以下三种方法:
●
欧几里得距离(Euclideandistance)是个案x和个案y的m个变量值之差的平方和的平方根,即:
如果同时考虑多个个案的距离,我们可以利用变量值的距离矩阵表示两两之间的距离大小。
●
夹角余弦距离(Cosine)个案x和个案y的夹角余弦的定义是:
●
闵可夫斯基距离(Minkowskidistance)个案x和个案y的闵可夫斯基距离的数学定义为:
其中,p为任意实数。
定序型变量的不相似测度有以下两种方法:
●
卡方不相似测度(Chi-Squaremeasure)个案x和个案y的卡方测度数学定义为:
●
Phi方不相似测度(Phi-Squaremeasure)个案x和个案y的Phi方测,数学定义为:
4.判别分析
判别分析(DiscriminantAnalysis)是类别明确的一种分类技术,它根据观测到的某些指标对所研究的对象进行分类,得到所谓的判别函数,然后再使用判别函数对未知分类的样品进行分类。
在气候分类、农业区划、土地类型划分中有着广泛的应用。
在市场调研中,一般根据事先确定的因变量找出相应处理的区别特性。
在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;自变量通常为可度量数据。
通过判别分析,可以建立能够最大限度的区分因变量类别的函数,考查自变量的组间差异是否显著,判断那些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。
根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
距离判别和典型判别对数据分布无严格要求,而Bayes判别则要求数据服从多元正态分布。
判别分析的目的是得到体现分类的函数关系式,即判别函数。
基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。
判别函数的一般形式是:
5.关联分析
关联分析(Associationanalysis)用于发现隐藏在大型数据集中的有意义的联系。
所发现的联系。
若两个或多个变量的取值之间存在某种规律性,就称为关联。
关联可分为简单关联、时序关联、因果关联。
关联分析的目的是找出数据库中隐藏的关联网。
有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
所发现的联系可以用关联规则(associationrule)或频繁项集的形式表示。
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。
关联分析广泛应用于购物篮数据、生物信息学、医疗诊断、网页挖掘和科学数据分析等。
关联规则是形如X→Y的蕴涵表达式,其中X和Y是不相交的项集,即X∩Y=∅。
关联规则的强度可以用它的支持度(support)和置信度(confidence)度量。
支持度确定规则可以用于给定数据集的频繁程度,而置信度确定Y在包含X的事务中出现的频繁程度。
按照不同的情况,关联规则可以分为不同的类别。
基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
频繁项集的产生,常用的算法有三种:
●Apriori算法:
使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
其核心是基于两阶段频集思想的递推算法。
该关联规则在分类上属于单维、单层、布尔关联规则。
在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:
首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。
然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。
然后使用第一步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。
一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。
为了生成所有频集,使用了递推的方法。
●基于划分的算法
这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。
这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。
而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。
该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。
产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。
通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。
●FP-树频集算法
采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。
当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。
实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
6.面板数据分析
面板数据(Paneldata)又可称为平行数据(Longitudinaldata)、时空数据,时间序列截面数据(timeseriesandcrosssectiondata)。
面板数据是同时在时间和截面空间上取得的二维数据。
面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看是一个时间序列。
面板数据广泛用于财税政策评估、宏观经济学、应用计量经济学和政治经济学。
面板数据分析运用面板数据建立模型,模型可分为固定效应模型和随机效应模型。
固定效应模型(thefixedeffectsmodel)是面板数据分析常用的模型之一,其通过估计所得结果推论仅限于样本本身。
在固定效应模型中,截距随着不同的个体、不同的时间而改变。
固定效应模型可以对横截面和时间序列两个维度的效应分别进行单独的估计,可以得出对因变量更精确的解释。
随机效应模型(randomeffectsmodel)与固定效应模型最大的不同在于,前者欲把所得出的结果推论到总体样本中去。
随机效应模型分为单向随机效应模型和双向随机效应模型。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 挖掘 方法