聚类分析算法 聚类分析算法对高校学生成绩分析的应用研究.docx
- 文档编号:15103442
- 上传时间:2023-06-30
- 格式:DOCX
- 页数:7
- 大小:21.07KB
聚类分析算法 聚类分析算法对高校学生成绩分析的应用研究.docx
《聚类分析算法 聚类分析算法对高校学生成绩分析的应用研究.docx》由会员分享,可在线阅读,更多相关《聚类分析算法 聚类分析算法对高校学生成绩分析的应用研究.docx(7页珍藏版)》请在冰点文库上搜索。
聚类分析算法聚类分析算法对高校学生成绩分析的应用研究
聚类分析算法聚类分析算法对高校学生成绩分析的应用研究
聚类分析算法对高校学生成绩分析的应用研究***15级信管4班xxxx摘要:
数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
聚类分析的目标就是在相似的基础上对收集数据来分类。
聚类的应用源于很多不同的领域,包括数学,计算机科学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
聚类分析常用算法原理:
K-means,DBSCAN,层次聚类。
聚类分析是非监督学习的很重要的领域。
所谓非监督学习,就是数据是没有类别标记的,算法要从对原始数据的探索中提取出一定的规律。
关键词:
数据挖掘聚类分析学生成绩分析1.概述1.1研究意义数据挖掘的方法有很多种,聚类分析法是目前最有应用前景的方法之一。
聚类分析法能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,并能集中对特定的某个簇进行特定的分析。
本文旨在研究如何将聚类算法应用到学生成绩分析中,对学生成绩进行评价和分析,并从大量的学生成绩中提取出更有用的信息。
传统的方法是基于绝对分数的评价,这种方法存在一定的缺陷,不能充分反映学生原始成绩中蕴涵的信息。
对学生原始成绩进行登记评定是教学管理中的重要环节,传统的评定方法是基于分数的绝对评价,这种方法存在一定缺陷。
学生成绩分析是一个典型的多层次、多角度、多指标的综合评估分析问题,利用数据挖掘中的聚类分析算法获取学生成绩中隐含的规律,挖掘各科成绩背后所表达出来的学生的个性能力差异。
因此,论文应用聚类分析的思想,对学生的成绩进行划分和评价,弥补了传统方法的缺陷,其评价结果为教学人员提供了有利的依据。
1.2背景现有的分类是人类认识世界的方式,也是管理世界的有效手段。
分类在科学研究中非常重要,许多科学研究都是从分类工作出发的。
没有分类就没有效率,没有分类,这个世界就没有秩序。
最初分类都是定性的分类,后来随着科学的发展,产生了数值分类学,再后来从数值分类学等研究中抽象出来专门的定量聚类的方法,包括基于统计学的各种聚类分析和基于模糊数学的聚类技巧等。
在多元统计学中,聚类分析又叫点群分析,乃是研究样品或指标的分类问题的一种多元统计方法。
所谓类(cluster),通俗地讲,就是相似元素的集合。
聚类分析常用算法原理:
K-means,DBSCAN,层次聚类。
聚类分析是非监督学习的很重要的领域。
所谓非监督学习,就是数据是没有类别标记的,算法要从对原始数据的探索中提取出一定的规律。
而聚类分析就是试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个“簇”。
高校是教学和科研的重要基地,也是培养人才的重要场所,教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。
从目前来看。
各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。
这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在现有的教学管理系统中,不论是管理人员、教师还是学生能进行的数据操作很局限,大量的数据信息不能得到充分应用。
1.3发展现状聚类分析对很多领域都产生了巨大的作用,具体表现在以下不同的方面:
(1)商业领域:
聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。
聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
(2)生物领域:
聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。
(3)地理领域:
聚类能够帮助在地球中被观察的数据库商趋于的相似性。
(4)保险行业领域:
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。
(5)因特网领域:
聚类分析被用来在网上进行文档归类来修复信息。
(6)电子商务领域:
聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
2.数据挖掘理论2.1数据挖掘数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
在人工智能领域,习惯上又称之为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
知识发现过程由以下三个阶段组成:
(1)数据准备,
(2)数据挖掘,(3)结果表达和解释。
数据挖掘可以与用户或知识库交互。
2.2聚类分析聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
聚类方法:
(1)层次聚类(HierarchicalClustering):
合并法、分解法、树状图。
(2)非层次聚类:
划分聚类、谱聚类。
2.3三种聚类分析常用算法2.3.1KMeans聚类算法属于非层次聚类法的一种。
KMeans算法在给定一个数k之后,能够将数据集分成k个“簇”C={C1,C2,⋯,Ck}不论这种分类是否合理,或者是否有意义。
算法需要最小化平方误差:
KMeans的基本算法流程输入:
样本数据集D,聚类簇数k
(1)从样本中随机选取k个样本点作为初始的均值向量{μ1,μ2,⋯,μk}
(2)循环以下几步直到达到停止条件:
(2.1)令Ci=∅(1≤i≤k)(2.2)对所有样本点计算他们到k个均值向量之间的距离,取其中距离最短的距离对应的均值向量的标记作为该点的簇标记,然后将该点加入相应的簇Ci(2.3)对每一个簇计算他们新的均值向量,如果相比之前的向量有变化,就更新,将其作为新的均值向量,如果没有变化就不变。
可以看出KMeans的基本算法是很容易理解的,算法本身也挺简单,运行较快,所以KMeans可用于非常大型的数据集。
2.3.2密度聚类(DBSCAN)密度聚类的思想是不同于KMeans的,但是更符合我们人类的思维,基本的思想是通过是否紧密相连来判断样本点是否属于一个簇。
代表性的算法就是DBSCAN,它基于一组邻域参数(ϵ,MinPts)来表征某处样本是否是紧密的。
在介绍算法之前先介绍一些概念。
ϵ-邻域:
即对于样本点xi,和它的距离在ϵ之内的属于样本集D中的点的集合,即Nϵ(xj)={si∈D|dist(xi,xj)≤ϵ}2.3.3层次聚类层次聚类是一类算法的总称,是通过从下往上不断合并簇,或者从上往下不断分离簇形成嵌套的簇。
这种层次的类通过“树状图”来表示。
AgglomerativeClustering算法是一种层次聚类的算法。
算法的原理很简单,最开始的时候将所有数据点本身作为簇,然后找出距离最近的两个簇将它们合为一个,不断重复以上步骤直到达到预设的簇的个数。
可以看到,一个很关键的地方就是判断簇之间的距离。
判断的准则叫做链接准则。
3.目标需求分析3.1课题意义学生成绩是教学效果的测量和学习质量的记录。
学生成绩数据蕴藏若大量信息,其分析挖掘对评价教学效果、促进教学改革、完善质量监控具有不可替代的作用,应该成为教学管理的重要环节。
在我国高等教育从规模发展转人内涵提升的今天,完善的教学质量管理体系建设已经成为高校内涵建设的首要任务,我国高校的管理者应当充分认识学生成绩信息内涵的丰富性和成绩分析对教学工作的反馈作用,学生成绩管理不应仅仅是数据登录与查询,而应该成为教学质量管理与监控的必要环节。
构建多维度、多视角、多层次的学生成绩分析方法体系和及时有效的反馈机制,形成人才培养的所有参与者都能关注学生成绩、深度分析挖掘、主动查找原因、积极改进提升的意识与氛围,必将对我国高等教育质量的提升起到重要推动作用。
3.2课题研究的原因我国高校学生成绩分析现状,存在着以下问题:
(1)高校学生成绩分析研究成果大多为计算机管理系统设计的内容,表明高校教学音理者对学生成绩管理的丰富内涵认识不够,对成绩分析重视不足,存在提交成绩就意味若教学工作结束的错误认识,导致学生成绩分析尚未纳人教学质最监控体系,成绩信息统计分析的反馈机制尚未建立,对人才培养的指导作用尚未发挥,属于学生成绩信息资源的浪费。
(2)方法研究不够,多维分析缺失。
目前,尽管有些高校开展了课程考试相关分析,但仅限于由任课教师(或命题人)完成的单广]课程的试卷分析。
这种分析方法存在的问题是:
命题分析多,教学分析少;强调学风多,反思白身少;分析指标单-,其结果不能全面反映教学整体情况,无法诊断教学中存在的问题。
强化学生成绩的整体性、历史性、比较性分析,分析原因,为教学决策和教学改革提供科学依据应该成为教学管理的重要环节。
(3)信息利用不够,反馈机制缺失。
目前,我国高校学生成绩管理流程一般为:
教学过程一考试阅卷一成绩登录,学生成绩仅用于课程学分、学籍资格、毕业资格、学位资格等审查,属于开环管理模式。
由于尚未形成有效的学生成绩信息分析与反馈机制,导致管理者不了解整体教学情况,管理决策缺乏针对性与科学性;教学单位不了解教师教学状况,教学改革缺乏及时性和有效性;学生对学习效果缺乏整体把握,学习方法的改进和学习目标的调整缺乏依据。
4.KMeans的应用4.1KMeans的特点总体上KMeans以及它很多聚类算法对于每一簇数据分布都是凸的情况效果都很好。
(1)对初始值敏感。
KMeans可能由于初始值选的不同,导致最终结果的不同。
我们要优化的其实是最小化平方误差,但是它很难优化,所以我们采用的是一种贪心算法,那么这种算法就可能掉进局部最优的坑里面,所以我们要尽量多选几个初始值多计算几次。
(2)对特殊分布的数据集不能够得出合理的结果比如上图,我们希望的结果应该是左图,但是KMeans只能得出右图,不能得出我们想要的结果。
4.2聚类分析工具软件(WEKA,SQLServer2012)WEKA是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免费的,非商业化的,基于JAVA环境下开源的机器学习(MachineLeaning)以及数据挖掘(DataMining)软件。
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归,聚类,关联规则以及在新的交互式界面上的可视化。
而开发者则可使用Java语言,利用WEKA的架构上开发出更多的数据挖掘算法。
在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
聚类,分类和关联分窗口提供对数据应用对应各类数据挖掘算法的界面,尤其对于成绩管理系统中大都是数值的数据。
因此,选用WEKA工具来对高校学生成绩分析能够得到很有效的结果。
MicrosoftSQLServer2012是微软发布的新一代数据平台产品,全面支持云技术与平台,并且能够快速构建相应的解决方案实现私有云与公有云之间数据的扩展与应用的迁移。
5.实验过程5.1数据挖掘过程数据挖掘是一个复杂的多阶段过程,如图所示,主要可以分为如下几个主要阶段:
(1)确定挖掘对象;
(2)数据准备;
①数据选择;
②数据预处理;
③数据的转换。
(3)数据挖掘;
(4)结果分析;
(5)知识表达和解释。
5.2聚类分析过程本文在数据挖掘过程当中所使用的工具是WEKA,而WEKA所支持的数据格式有两种:
ARFF文件和CSV文件。
故将原始数据EXCEL文件转换为ARFF或CSV文件。
转换方法为:
在EXCEL中打开“MARK.xls”,选择菜单—>另存为,在弹出的对话框中,文件名输入“Mark”,保存类型选择“CSV(逗号分隔)”,保存,便可得到“Mark.csv”文件。
其结果如图所示:
打开WEKA软件的Exporler菜单,点击Openfile按钮,打开刚得到的“Mark.csv”文件,点击“Save”按钮,在弹出的对话框中,文件名输入“Mark”,文件类型选择“Arffdatefiles(*.arff)”,这样就得到的数据文件为“Mark.arff”。
打开WEKA软件中的Exporler,点击刚才得到的“Mark.arff”切换到“Cluster”,点“Choose”按钮选择“SimpleKmeans”,这是WEKA中实现K均值的算法。
点击旁边的文本框,将“numClusters”设置为3,把实例分成三个簇,即K=3。
其他结果按默认值。
右击左下方“Resultlist”列出的结果,点“Visualizeclusterassignments”。
显示弹出的窗口给出了各实例的散点图。
在Cluster0簇里的实例,占总实例的32%,其中男生相对较多,这类学生在分专业时选择了硬件方向。
故在以后计算机专业的学生在分方向时,对计算机硬件结构及系统有一定了解,具有较强动手能力和创新意识的同学可以选择硬件方向。
在Cluster1簇里的实例,占总实例的41%,其中男生同样相对较多;
根据该簇里面各实例的成绩可以看出,在我们所分析的数据实例中,这类的学生在分专业时选择了网络方向。
因此,在以后计算机专业的学生在分方向时,对计算机常用的命令有很强的识别能力的同学可以选择网络方向。
在Cluster2簇里的实例,占总实例的27%,但其中女生相对较多;
女生也符合思维周密的要求,有耐心,并且有创新的意识。
根据本文所分析的数据来看,这类的学生在分专业时选择了软件方向。
6.总结在学生成绩分析工作中,利用标准偏移量为度量标准的K-means聚类分析算法能够有效的进行学生成绩分析,达到将具有相关特征的学生聚集为一类的目的,实现预设的数据聚类分析结果,标准偏移量K-means聚类分析算法适合对学生成绩数据进行聚类分析操作。
在利用标准偏移量K-means聚类分忻算法进行学生成绩分析过程中,除利用学科最大最小值方法进行初始聚类中心选取外,探索其它途径初始聚类中心选取方法及对所得学生聚集类所代表的相关信息分析工作将是今后需要加强研究和探讨的方向。
参考文献[1]谭庆.基于k-means聚类算法的试卷成绩分析研究,河南大学学报(自然科学版)JournalofHenanUniversity(NaturalScience)Vol.39No.4,Jul.2009[2]飞翔的蓝鲸.聚类分析常用算法原理,2018年01月01日10:
52:
32[3]陈蕾.高校学生成绩信息的分析与挖掘,文章编号:
1007-0079(2013)32--0217-02[4]孙菲,张健沛,董野,任福栋,于涛,郭春平.基于标准偏移量的学生成绩K-means聚类分析算法研究,齐齐哈尔大学学报JoumalofQiqiharUniversityVoL31No.2March,2015[5]容与4.利用K-means聚类分析技术分析学生成绩,2018-10-30
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析算法 聚类分析算法对高校学生成绩分析的应用研究 聚类分析 算法 高校学生 成绩 分析 应用 研究