书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 数据挖掘weka数据分类实验报告.docx

数据挖掘weka数据分类实验报告.docx

文档编号：16892351
上传时间：2023-07-19
格式：DOCX
页数：14
大小：776.06KB

《数据挖掘weka数据分类实验报告.docx》由会员分享，可在线阅读，更多相关《数据挖掘weka数据分类实验报告.docx（14页珍藏版）》请在冰点文库上搜索。

数据挖掘weka数据分类实验报告.docx

数据挖掘weka数据分类实验报告

一、实验目的

使用数振挖掘中的分类算法，对数据集进行分类训练并测试。

应用不同的分类算法，比校他们之间的不同。

与此同时了解Wcka平台的根本功能与使用方法。

实验采用Wcka平台，数据使用Weka安装目录下data文件夹下的默认数据集iris,arff°

Wcka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发Neka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。

它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件oWcka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数損集，并评估由不同的学习方案所得出的结果。

三、数据预处理

Wcka平台支持ARFF格式和CSV格式的数据。

由于本次使用平台自带的ARFF格式数据，所以不存在格式转换的过程。

实验所用的ARFF格式数損集如图1所示

图1ARFF格式数据集（iris,arff）对于iris数据集，它包含了150个实例〔每个分类包含50个实例〕，共有sepallength'sepalwidth・petallength、petalwidth和class五种属性。

期中前四种属性为数值类型，class属性为分类属性，表示实例所对应的的类别。

该数据集中的全部实例共可分为三类：

IrisSetosa、IrisVersicolour^IrisVirginies。

实验数据集中所有的数据都是实验所需的，因此不存在属性筛选的问趣。

假设所采用的数据集中存在大童的与实骑无关的属性，那么需要使用wcka平台的Filter•〔过滤器〕实现属性的筛选。

实验所需的训练集和测试集均为•仃°

四、实验过程及结果

应用ids数据集，分别采用LibSVM<4.5决策树分类器和朴素贝叶斯分类器进行测试和评价，分别在训练数損上训练出分类模型，找出各个模型最优的参数值，并对三个模型进行全面评价比拟，得到一个最好的分类模型以及该模型所有设置的最优参数。

最后使用这些参数以及训练集和校验集数据一起构违出一个最优分类器，并利用该分类器对测试数据进行预测。

1、LibSVM分类

Weka平台部没有集成libSVM分类器，要使用该分类器，需要下载libsvni.jar并导入到Weka中。

用uExplorer°翻开数据集Miris.arffM，并在Explorer中将功能面板切换到“Classify〞。

点“Choose〞按钮选择Mfunctions〔weka.classifiers.functions.LibSVM〕M*选择LibSVM分类算法。

在TestOptions面板中选择Cross-Validatioinfolds=10*即十折交叉验证。

然后点击“start〞按钮:

使用LibSVM分类算法训练数据集得出的结果

参数—SO-K2-D3-G0.0-R0.0-NO.5-M40.0

==Classifierncxiel（fulltraining3et）===

Timetakentobuildnodcl:

0・023cconda

==Stratifiedcross-validation=====Sunmary===

ConfusionMatrix=■

5000Ia=Iris-setcsa

0473Ib=Iris-versicolcr

0248Ic=Iris-virginica

结果分析：

使用该参数指定的LibSVM训练数据集，得到准确率为96.6667%，其中150个实例中的145个被正确分类•5个被错误分类。

根扌思混淆矩阵，被错误分类实例的为：

2个b类实例被错误分类到c:

3个c类实例被错误分类到b。

该算法P=0.967，R二0.967，ROC面积为0.975。

将模型应用于测试集：

使用LibSVM分类算法测试数据集得出的结果

===Re-evaluationontestset===

Usersuppliedtest3et

Relation:

iris

Instances:

unknown（yet）・Readingincreirfin^ally

Attributes:

5

===Summary==

CorrectlyClassifiedInstancesIncorrectlyClassifiedInstancesKappastatistic

Meanabsoluteerror

Rootmeansquarederror

ToualNuiri>erorInsuances

148

2

Q・0943

150

98.6667%

1.3333%

=DetailedAccuracyBy

Class=

TPRate

FPRate

Precision!

Recall

F-Measure

ROCArea

Class

1

0

1

Iri3-aetosa

0

1

o.g?

Iri3-ver3icolor

1

Iris-virginica

===ConfusionMatrix===

abc<—classifiedas

SO00Ia=Iris-setosa

0482Ib=Iris-versicclor

0050Ic=Iris-virginica

分类误差：

WekaClassifierVisualrze:

10:

01:

47・functions.LibSVM（iris）

结果分析：

准确率为9&6667%，只有两个实例被错误分类。

P二0.987，R二0.987，ROC面积为0.99

2、决策树分类器

依然使用十折交又验证，训练集和测试集相同。

使用C4.5决策树分类算法训练数据集得出的结果

参数：

-C0.25-M2

===Stratifiedcross-validation======Suranary===

CorrectlyClassifiedInstances

144

96

IncorrectlyClassifiedInsranoes

6

4

Kappastatistic

Keanabsoluteerror

Rootmeansquarederror

0・158€

Relativeabsoluteerror

7.8705%

Rootrelativesquarederror

33.6353%

TotalNunberofInstances150

-—DetailedAccuracyByClas3

TPRate

F?

Rate

Precision

Recall

F-Measure

ROCArea

Class

0

1

Iris-setosa

Ins-versicolor

0.9€

0・9S

Iri3-virginicQ

ReiahtedAvq・0・96

===ConfusionMatrix===

abc<——cla^^ificdan

4910Ia=Iris-setosa

0473Ib=Iris-versicolor

0248Ic=Iris-virginioa

结果分析：

使用该参数指定的决策树分类器训练数扌忌集，得到准确率为96%，其中150个实例中的144个被正确分类，6个被错误分类。

根据混淆矩阵，被错误分类实例的为：

2个b类实例被错误分类到c,1个b类实例被错误分类到a；3个c类实例被错误分类到b。

该算法

P二0.96，R=0.96>ROC面积为0.968。

将模型应用于测试集：

使用C4.5分类算法测试数据集得出的结果

==Re-evaluationontescset===

Usersuppliedzest3et

Relation:

iris

Instances:

unknown（yet）・Readingincrementally

Attributes:

==suirmary===

CorrectlyClassifiedInstances

147

98

IncorrectlyClassifiedInstances

5

2

Kappastatistic

0・97

Meanahoolutcerror

Rootmeansquarederrer

TotalNumberofIns*ance3

L50

==DetailedAccuracyByClas3

TFRate

FFRate

Precision

Recall

F-Measure

ROCArea

Class

1

0

1

Iris-setosa

Iris-versicolor

0.9€

Iris-virginica

==ConfusionMatrix===

abc<—classifiedas

5000Ia=Iris-secosa

0491Ib=Iris-versicolor

0248Ic=Iris-virginica

分类误差：

结果分析：

准确率为98%，有3个实例被错误分类。

戸二0・98，R二，ROC面积为0.993

3、朴素贝叶斯分类器

使用朴素贝叶斯分类算法训练数据集得出的结杲参数：

无

==Summary==

CorrectlyClassifiedInstances

143

IncorrectlyClassifiedInstances

7

Kacpastatiscic

yfeanabsoluteerror

Roc匸meansquarederror

Relativeabsoluteerror

8.4391%

Rootrelative3quarederror

32.6809%

TotalNumberofInotancco150

==DetailedAccuracyByClass===

TPRate

FFRate

Precision

Recall

F-Measure

ROCArea

Class

1

0

L

1

Iris-setosa

0.931.

Iris-versicoLor

Iris-virginioa

KelgtuedA、/

==ConfusionMatrix===

aDc<—ciassirieias

5000a=Iris-setosa

0473b=Iris-versicolor

0446c=Iria-virginica

结果分析：

使用朴素贝叶斯分类器训练数据集，得到准确率为95.3333%，其中150个实例中的143个被正确分类，7个被错误分类。

根据混淆矩阵，被错误分类实例的为：

4个b类实例被错误分类到c:

3个c类实例被错误分类到b。

该算法P=0.953，R=0.953*ROC面积为0.994。

将模型应用于测试集：

使用朴素贝叶斯分类算法测试数据集得出的结果

CorrectlyClassifiedInstances

144

96

IncorrectlyClassifiedInstances

6

4

Kappastatistic

Meanabsoluteerror

Rootmeansquarederror

TctalNuirberofInstances

150

===Summary==

Class===

===Re-evaluationcntestsez===

Usersuppliedte3tset

Relation:

iris

Instances:

unknown（yet）・Readingincrementally

Attributes:

TPRate

FPRate

Precision

Recall

F-Keasure

ROCArea

Class

1

0

1

Iris-setcsa

Iris-versicolor

Iris-virginica

Weighted襄vg・0・96

===DetailedAccuracyBy

===ConfusionMacrix===

abc<——classifiedas

5000Ia=Iris-setcsa

0473Ib=Iris-versicolor

0347Ic=Iris-virginica

分类误差：

结果分析：

准确率为96%，有6个实例被错误分类。

戸二0・96,R二，ROC面积为0.995

4、三种分类算法比拟：

LibSVM

C4.5决策树

朴素贝叶斯

校验准确率

98.6667%

98%

96%

训练

混淆矩阵

校验

混淆矩阵

标准误差

0.0943

0.1483

比校结果分析：

LibSVM算法相比决策树算法、朴素贝叶斯算法具有更好的分类性能。

五、实验总结

通过本次实验，我对Wcka平台有了比拟完整和深入的认识，掌握了使用Wcka平台进行数据挖掘的方法，包括数据预处理、分类、聚类、关联分析等。

通过实验，对数据挖掘本身也有了比拟直观的认识。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘 weka 分类实验报告

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘weka数据分类实验报告.docx
链接地址：https://www.bingdoc.com/p-16892351.html

数据挖掘weka数据分类实验报告.docx

热门标签