Clementine数据挖掘快速上手.pdf
- 文档编号:3432359
- 上传时间:2023-05-05
- 格式:PDF
- 页数:27
- 大小:1.13MB
Clementine数据挖掘快速上手.pdf
《Clementine数据挖掘快速上手.pdf》由会员分享,可在线阅读,更多相关《Clementine数据挖掘快速上手.pdf(27页珍藏版)》请在冰点文库上搜索。
dClementineClementineClementineClementine数据挖掘快速上手数据挖掘快速上手数据挖掘快速上手数据挖掘快速上手Version1.0Version1.0Version1.0Version1.0PreparedPreparedPreparedPreparedbybybyby高处不胜寒高处不胜寒高处不胜寒高处不胜寒QQQQQQQQ群:
群:
群:
群:
140944151409441514094415140944152009-10-152009-10-152009-10-152009-10-15一一、ClCleemmeentntiinnee数据挖掘的基本思想数据挖掘的基本思想数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分析方法。
随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。
它结合了人工智能(AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。
除了这些Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工作也变得很清晰。
(如图一所示)CRICRICRICRISSSSP-DMP-DMP-DMP-DMpppprrrrocessocessocessocessmomomomoddddeeeellll如图可知,CRISP-DMModel包含了六个步骤,并用箭头指示了步骤间的执行顺序。
这些顺序并不严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。
通过对这些步骤的执行,我们也涵盖了数据挖掘的关键部分。
商业理解商业理解(BBBBuuuussssiiiinnnneeeessssssssununununderderderderssssttttaaaandndndndiiiinnnngggg):
商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。
数据理解数据理解(DDDDaaaattttaaaaundundundundererererstandingstandingstandingstanding):
数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。
数据准备数据准备(DDDDaaaatttteeeepppprrrreeeeppppaaaarrrratatatationionionion):
在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。
选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。
建模建模(MoMoMoModdddeeeelinlinlinlingggg):
建模过程也是数据挖掘中一个比较重要的过程。
我们需要根据分析目的选出适合的模型工具,通过样本建立模型并对模型进行评估。
模型评估模型评估(EEEEvvvvaluataluataluataluatiiiionononon):
并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。
结果部署结果部署(DeploymentDeploymentDeploymentDeployment):
这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。
d二二、ClCleemmeentntiinnee的基本操作方法的基本操作方法1.1.操作界面的介绍操作界面的介绍ClClClClemeemeemeemennnnttttiiiinnnneeee操作界面1111.1111数据流程区Clementine在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结果显示都是由流程图的形式显示在数据流程区内。
数据的流向通过箭头表示,每一个结点都定义了对数据的不同操作,将各种操作组合在一起便形成了一条通向目标的路径。
数据流程区是整个操作界面中最大的部分,整个建模过程以及对模型的操作都将在这个区域内执行。
我们可以通过文件(File)新建流(newstream)新建一个空白的数据流,也可以打开已有的数据流。
所有在一个运行期内打开的数据流都将保存在管理器的Stream栏下。
1111.2222选项面板选项面板横跨于Clementine操作界面的下部,它被分为收藏夹(Favorites)、数据源(Sources)、记录选项(RecordOps)、字段选项(FieldsOps)、图形(Graphs)、建模(Modeling)、输出(Output)、导出八个栏,其中每个栏目包含了具有相关功能的结点。
结点是数据流的基本组成部分,每一个结点拥有不同的数据处理功能。
设置不同的栏是为了将不同功能的结点分组,下面我们介绍各个栏的作用。
数据源数据源(Sources)(Sources):
该栏包含了能读入数据到Clementine的结点。
例如Var.File结点读取自由格式的文本文件到Clementine,SPSSFile读取spss文件到Clementine。
记录选项记录选项(Record(RecordOps)Ops):
该栏包含的结点能对数据记录进行操作。
例如筛选出满足条件的记录(select)、将来自不同数据源的数据合并在一起(merge)、向数据文件中添加记录(append)等。
字段选项字段选项(Field(FieldOps)Ops):
该栏包含了能对字段进行操作的结点。
例如过滤字段(filter)能让被过滤的字段不作为模型的输入、导出(derive)结点能根据用户定义生成新的字段,同时我们还可以定义字段的数据格式。
图形图形(GrapGrapGrapGraphhhhssss):
该栏包含了众多的图形结点,这些结点用于在建模前或建模后将数据由图形形式输出。
建模建模(ModelingModelingModelingModeling):
该栏包含了各种已封装好的模型,例如神经网络(NeuralNet)、决策树(C5.0)等。
这些模型能完成预测(NeuralNet,Regression,Logistic)、分类(C5.0,C&RTree,Kohonen,K-means,Twostep)、关联分析(Apriori,GRI,Sequece)等功能。
输出输出(OOOOuuuutptptptputututut):
该栏提供了许多能输出数据、模型结果的结点,用户不仅可以直接在Clementine中查看输出结果,也可以输出到其他应用程序中查看,例如SPSS和Excel。
收藏夹收藏夹(FaFaFaFavvvvoriteoriteoriteoritessss):
该栏放置了用户经常使用的结点,方便用户操作。
用户可以自定义其Favorites栏,操作方法为:
选中菜单栏的工具(Tools),在下拉菜单中选择收藏夹(Favorites),在弹出的PaletteManager中选中要放入Favorites栏中的结点。
1111.3333管理器管理器中共包含了流(Streams)、输出(Outputs)、模型(Models)三个栏。
其中流(Streams)中放置了运行期内打开的所有数据流,可以通过右键单击数据流名对数据流进行保存、设置属性等操作。
输出(Outputs)中包含了运行数据流时所有的输出结果,可以通过双击结果名查看输出的结果。
模型(Models)中包含了模型的运行结果,我们可以右键单击该模型从弹出的浏览(Browse)中查看模型结果,也可以将模型结果加入数据流中。
1111.4444项目窗口的介绍项目窗口含有两个选项栏,一个是CRISP-DM,一个是类(Classes)。
CRISP-DM的设置是基于CRISP-DMModel的思想,它方便用户存放在挖掘各个阶段形成的文件。
由右键单击阶段名,可以选择生成该阶段要拥有的文件,也可以打开已存在的文件将其放入该阶段。
这样做的好处是使用户对数据挖掘过程一目了然,也有利于对它进行修改。
类(Classes)窗口具有同CRISP-DM窗口相似的作用,它的分类不是基于挖掘的各个过程,而是基于存储的文件类型。
例如数据流文件、结点文件、图表文件等。
22、数数据据流流基本操基本操作作的的介介绍绍2222.1111生成数据流的基本过程数据流是由一系列的结点组成,当数据通过每个结点时,结点对它进行定义好的操作。
我们在建立数据流是通常遵循以下四步:
、向数据流程区增添新的结点;、将这些结点连接到数据流中;、设定数据结点或数据流的功能;、运行数据流。
2222.2222向数据流程区添/删结点当向数据流程区添加新的结点时,我们有下面三种方法遵循:
、双击结点面板中待添加的结点;、左键按住待添加结点,将其拖到数据流程区内;、选中结点面板中待添加的结点,将鼠标放入数据流程区,在鼠标变为十字形时单击数据流程区。
通过上面三种方法我们都将发现选中的结点出现在了数据流程区内。
当我们不再需要数据流程区内的某个结点时,可以通过以下两种方法来删除:
左键单击待删除的结点,用删除(delete);右键单击待删除的结点,在出现的菜单中选择删除(delete)。
2222.3333将结点连接到数据流中上面我们介绍了将结点添加到数据流程区的方法,然而要使结点真正发挥作用,我们需要把结点连接到数据流中。
以下有三种可将结点连接到数据流中的方法:
、双击结点左键选中数据流中要连接新结点的结点(起始结点),双击结点面板中要连接入数据流的结点(目标结点),这样便将数据流中的结点与新结点相连接了;图六双击目标结点以加入数据流、通过鼠标滑轮连接在工作区内选择两个待连接的结点,用左键选中连接的起始结点,按住鼠标滑轮将其拖曳到目标结点放开,连接便自动生成。
(如果鼠标没有滑轮也选用alt键代替)由滑轮连接两结点、手动连接右键单击待连接的起始结点,从弹出的菜单栏中选择连接(Connect)。
选中连接(Connect)后鼠标和起始结点都出现了连接的标记,用鼠标单击数据流程区内要连接的目标结点,连接便生成。
图八选择菜单栏中的连接连接ccccononononnnnnecececectttt图九点击要连入的结点注意:
、第一种连接方法是将选项面板中的结点与数据流相连接,后两种方法是将已在数据流程区中的结点加入到数据流中、数据读取结点(如SPSSFile)不能有前向结点,即在连接时它只能作为起始结点而不能作为目标结点。
2222.4444绕过数据流中的结点当我们暂时不需要数据流中的某个结点时我们可以绕过该结点。
在绕过它时,如果该结点既有输入结点又有输出结点那么它的输入节点和输出结点便直接相连;如果该结点没有输出结点,那么绕过该结点时与这个结点相连的所有连接便被取消。
方法:
用鼠标滑轮双击需要绕过的结点或者选择按住alt键,通过用鼠标左键双击该结点来完成。
2222.5555将结点加入已存在的连中当我们需要在两个已连接的结点中再加入一个结点时,我们可以采用这种方法将原来的连接变成两个新的连接。
方法:
用鼠标滑轮单击欲插入新结点的两结点间的连线,按住它并把他拖到新结点时放手,新的连接便生成。
(在鼠标没有滑轮时亦可用alt键代替)2222.6666删除连接当某个连接不再需要时,我们可以通过以下三种方法将它删除:
、选择待删除的连接,单击右键,从弹出菜单中选择DeleteConnection;、选择待删除连接的结点,按F3键,删除了所有连接到该结点上的连接;、选择待删除连接的结点,从主菜单中选择断开连接(EditNodeDisconnect)。
2222.7777数据流的执行数据流结构构建好后要通过执行数据流数据才能从读入开始流向各个数据结点。
执行数据流的方法有以下三种:
、选择菜单栏中的按钮,数据流区域内的所有数据流将被执行;、先选择要输出的数据流,再选择菜单栏中的按钮,被选的数据流将被执行;、选择要执行的数据流中的输出结点,单击鼠标右键,在弹出的菜单栏中选择Execute选项,执行被选中的数据流。
三、模型建立三、模型建立在这部分我们将介绍五种分析方法的建立过程,它们分别是因子分析、关联分析、聚类分析、决策树分析和神经网络。
为了方便大家练习,我们将采用Clementine自带的示例,这些示例在demos文件夹中均可找到,它们的数据文件也在demos文件夹中。
在模型建立过程中我们将介绍各个结点的作用。
1111、因子分析(ffffacacacacttttoooorrrr.ssssttttr)r)r)r)研究从变量群中提取共性因子的统计技术。
最早由英国心理学家C.E.斯皮尔曼提出。
他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。
因子分析可在许多变量中找出隐藏的具有代表性的因子。
将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量(latentvariable,latentfactor)。
比如,如果要测量学生的学习积极性(motivation),课堂中的积极参与,作业完成情况,以及课外阅读时间可以用来反应积极性。
而学习成绩可以用期中,期末成绩来反应。
在这里,学习积极性与学习成绩是无法直接用一个测度(比如一个问题)测准,它们必须用一组测度方法来测量,然后把测量结果结合起来,才能更准确地来把握。
换句话说,这些变量无法直接测量。
可以直接测量的可能只是它所反映的一个表征(manifest),或者是它的一部分。
在这里,表征与部分是两个不同的概念。
表征是由这个隐性变量直接决定的。
隐性变量是因,而表征是果,比如学习积极性是课堂参与程度(表征测度)的一个主要决定因素。
那么如何从显性的变量中得到因子呢?
因子分析的方法有两类。
一类是探索性因子分析,另一类是验证性因子分析。
探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。
主成分分析是其中的典型方法。
验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。
示例factor.str是对孩童的玩具使用情况的描述,它一共有76个字段。
过多的字段不仅增添了分析的复杂性,而且字段之间还可能存在一定的相关性,于是我们无需使用全部字段来描述样本信息。
下面我们将介绍用Clementine进行因子分析的步骤:
SSSStttteeeepppp一:
读入数据数据源(Source)栏中的结点提供了读入数据的功能,由于玩具的信息存储为toy_train.sav,所以我们需要使用SPSS文件(SPSSFile)结点来读入数据。
双击SPSS文件(SPSSFile)结点使之添加到数据流程区内,双击添加到数据流程区里的SPSS文件(SPSSFile)结点,由此来设置该结点的属性。
在属性设置时,单击导入文件(Importfile)栏右侧的按钮,选择要加载到数据流中进行分析的文件,这里选择toy_train.sav。
单击注解(Annotations)页,在名称(name)栏中选择定制(custom)选项并在其右侧的文本框中输入自定义的结点名称。
这里我们按照原示例输入toy_train。
SSSSttttepepepep二:
设置字段属性进行因子分析时我们需要了解字段间的相关性,但并不是所有字段都需要进行相关性分析,比如“序号”字段,所以需要我们将要进行因子分析的字段挑选出来。
字段选项(FieldOps)栏中的类型(Type)结点具有设置各字段数据类型、选择字段在机器学习中的的输入/输出属性等功能,我们利用该结点选择要进行因子分析的字段。
首先,将类型(Type)结点加入到数据流中,双击该结点对其进行属性设置:
由上图可看出数据文件中所有的字段名显示在了字段(Field)栏中,类型(Type)表示了每个字段的数据类型。
我们不需要为每个字段设定数据类型,只需从Values栏中的下拉菜单中选择项,然后选择读取值(ReadValue)键,软件将自动读入数据和数据类型;缺失(Missing)栏是在数据有缺失时选择是否用空(Blank)填充该字段;检查(Check)栏选择是否判断该字段数据的合理性;而方向(Direction)栏在机器学习模型的建立中具有相当重要的作用,通过对它的设置我们可将字段设为输入/输出/输入且输出/非输入亦非输出四种类型。
在这里我们将前19个字段的方向(Direction)设置为无(none),这表明在因子分析我们不将这前19个字段列入考虑,从第20个字段起我们将以后字段的方向(direction)设置为输入(In),对这些字段进行因子分析。
SSSSttttepepepep三:
对数据行因子分析因子分析模型在建模(Modeling)栏中用主成分/因子分析(PCA/Factor)表示。
在分析过程中模型需要有大于或等于两个的字段输入,上一步的Type结点中我们已经设置好了将作为模型输入的字段,这里我们将主成分/因子分析(PCA/Factor)结点连接在类型(Type)结点之后不修改它的属性,默认采用主成分分析方法。
在建立好这条数据流后我们便可以将它执行。
右键单击主成分/因子分析(PCA/Factor)结点,在弹出的菜单栏中选择执行(Execute)命令。
执行结束后,模型结果放在管理器的模型(Models)栏中,其标记为名称为主成分/因子分析(PCA/Factor)的黄色结点。
右键单击该结果结点,从弹出的菜单中选择浏览(Browse)选项查看输出结果。
由结果可知参与因子分析的字段被归结为了五个因子变量,其各个样本在这五个因子变量里的得分也在结果中显示。
SSSSttttepepepep四:
显示经过因子分析后的数据表模型的结果结点也可以加入到数据流中对数据进行操作。
我们在数据流程区内选中类型(Type)结点,然后双击管理器模型(Models)栏中的PCA/Factor结点,该结点便加入到数据流中。
为了显示经过因子分析后的数据我们可以采用表格(Table)结点,该结点将数据由数据表的形式输出。
4.4.4.4.1111为因子变量命名在将PCA/Factor(结果)结点连接到表格(Table)结点之前,用户可以设置不需要显示的字段,也可以更改因子变量名,为了达到这个目的我们可以添加字段选项(FieldOps)栏中的字段(filter)结点。
在对过滤(filter)结点进行属性设置时,过滤(filter)项显示了字段的过滤与否,如果需要将某个字段过滤,只需用鼠标单击Filter栏中的箭头,当箭头出现红“”时该字段便被过滤。
第一个字段(Field)栏结点表明数据在读入过滤(filter)结点时的字段名,第二个字段(Field)栏表示数据经过过滤(filter)结点后的字段名。
由于因子分析生成的因子变量都由系统自动命名,用户可以通过修改这些因子变量的第二个字段(Field)的值来重新设定其字段名。
4.4.4.4.2222数据输出显示,在对数据进行输出时我们选择了输出(Output)栏中的表格(Table)结点和图形(Graph)栏中的柱状图(Histogram)结点。
这两个结点一个通过数据表的形式输出,一个通过柱装图的形式输出。
对柱装图我们设置其显示storeplay字段的数据(store_play为第五个因子变量的新名)。
通过“执行”按钮分别执行两条数据流,将经过因子分析后的数据显示。
PPPP.SSSS.:
在这个因子分析的案例中我们用到了SPSSSPSS文件文件(SSSSPPPPSSSSSSSSFiFiFiFilelelele)、类型类型(TTTTyyyyppppeeee)、过滤过滤(FiFiFiFilllltttteeeerrrr)、表格表格(TTTTaaaabbbblelelele)、柱状图柱状图(HistogramHistogramHistogramHistogram)、PPPPCCCCA/A/A/A/FFFFaaaactctctctoooorrrr结点。
2222.关联分析、决策树分析(babababaskskskskrrrrululululeeee.strstrstrstr)关联分析是指如果两个或多个事物之间存在一定的联系,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系在数据挖掘的基本任务中关联(ass()ciation)和顺序序贯模型(seqtlencing)关联分析是指搜索事务数据库(trarisactionaldatabases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。
示例baskrule.str是针对某商场的购物资料对数据进行分析。
为了找出商品在出售时是否存在某种联系,我们将使用关联分析方法;为了得到购买某种商品的顾客特征,我们将采用决策树方法对顾客分类。
SSSSttttepepepep一:
读入数据该模型的数据文件存储为BASKETS1n,我们选择Source栏的Var.File(自由格式文本文件)结点作为数据读入结点,双击该结点进行属性设置。
SSSSttttepepepep二:
关联分析从数据源读入数据后我们需要根据要进行的分析对字段进行设置。
关联分析是分析多个量之间的关系,所以需要将进行分析的字段既设置为模型的输入又设置为模型的输出,对字段的设置可以通过Type结点进行。
2.2.2.2.1111为数据设置字段格式在数据流程区内选中已存在的Var.File结点,双击文件选择(FileOPs)栏中的类型(Type)结点,将类型(Type)结点加入到数据流中。
由于我们的分析是对商品进行,与顾客的个人信息无关,所以在类型(Type)中将顾客个人信息字段的方向(Direction)设为空(none),其他商品字段的方向(Direction)设为双向(Both)。
同时我们也将读入字段类型和字段取值。
2.2.2.2.2222生成关联分析数据流Clementine提供了三个可以进行关联分析的模型,他们分别是Apriori、GRI、Sequence,在这里我们选择GRI结点加入到数据流中。
执行该数据流,它的结果将在在管理器的Models栏中以与模型同名的结点显示,右键选择浏览该结点,结果如下图:
*结果数据表显示了各种商品间的关系,该表的每一行表明了当某种商品被购买时还有哪些产品可能被同时购买,它是居于关联分析中的支持度和可信度来分析的。
SSSSttttepepepep三:
图形化显示各商品之间的关系对数据进行关联分析除了利用模型外,我们还可以利用Graphs栏中的Web结点将它们之间的关系通过网状图显示。
选中Web结点将它连接到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Clementine 数据 挖掘 快速 上手
![提示](https://static.bingdoc.com/images/bang_tan.gif)