毕业生就业数据分析系统开发毕业设计.docx
- 文档编号:15654103
- 上传时间:2023-07-06
- 格式:DOCX
- 页数:39
- 大小:770.29KB
毕业生就业数据分析系统开发毕业设计.docx
《毕业生就业数据分析系统开发毕业设计.docx》由会员分享,可在线阅读,更多相关《毕业生就业数据分析系统开发毕业设计.docx(39页珍藏版)》请在冰点文库上搜索。
毕业生就业数据分析系统开发毕业设计
毕业生就业数据分析系统开发
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:
所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:
日 期:
指导教师签名:
日 期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
日 期:
学位论文原创性声明
本人郑重声明:
所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:
日期:
年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:
日期:
年月日
导师签名:
日期:
年月日
注意事项
1.设计(论文)的内容包括:
1)封面(按教务处制定的标准封面格式制作)
2)原创性声明
3)中文摘要(300字左右)、关键词
4)外文摘要、关键词
5)目次页(附件不统一编入)
6)论文主体部分:
引言(或绪论)、正文、结论
7)参考文献
8)致谢
9)附录(对论文支持必要时)
2.论文字数要求:
理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:
任务书、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:
1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写
2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。
图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画
3)毕业论文须用A4单面打印,论文50页以上的双面打印
4)图表应绘制于无格子的页面上
5)软件工程类课题应有程序清单,并提供电子文档
5.装订顺序
1)设计(论文)
2)附件:
按照任务书、开题报告、外文译文、译文原文(复印件)次序装订
摘要
高校毕业生的就业问题已经成为全社会都关注的热点问题。
这些年来高校招生规模逐年扩大,不断增加的毕业生数目给高校的就业管理工作造成了很大的压力。
在这种形势下,如果仍然采用传统的毕业生管理办法,不仅仅工作效率低下,而且工作质量不高,很容易发生错误。
目前对高校毕业生的就业状况分析是较为简单的,大多仅仅按学校的就业率和专业就业率来进行评价,显得片面缺乏科学性。
根据这一情况,借助计算机对毕业生就业信息进行挖掘,对如今的教学质量和学生工作质量进行科学的综合分析,寻找影响毕业生就业困难的原因,以便对我们今后的教学和学生工作提出指导性的建议。
本课题针对学生的性别、素质培养、综合成绩、社会实践等方面在学生就业所反应的情况建立一个数据挖掘分析模型,由此得到对教学质量和学生工作质量评价的科学的新方法。
针对毕业生就业情况建立数据挖掘分析模型是数据挖掘分析方法的一个新尝试,这将进一步促进数据挖掘理论的发展,并且拓宽了数据挖掘分析方法的应用领域,同时对教学质量分析和学生工作质量分析提供科学评价的新方法。
关键字:
数据挖掘;贝叶斯定理;数据库
DevelopmentOfAnalysisSystemforGraduateEmploymentData
Abstract
Theemploymentofuniversitygraduateshasalreadybecamethehottopicwhichdrawsmuchattentionaroundtheentiresociety.Astheuniversityrecruitmentofstudentsscaleisexpandingyearbyyeargradually,theincreasingnumberofgraduatestudentshascreatedhugepressureforuniversity'ssupervisorywork.Underthissituation,ifwestillusethetraditionalpolicingmethodofthegraduate,boththeworkingefficiencyandtheworkqualitywillnotbesatisfyinganditwillbeveryeasytomakemistake.
Currently,theanalysistouniversitygraduates'workstatusisquitesimple.Mostoftheevaluationisbasedontheschoolemploymentrateandthespecializedemploymentrate,whichisconsideredtobeimproper.Accordingtothissituation,wefindtheinformationofthegraduatewiththeaidofthecomputerandcarryonthescientificandcomprehensiveanalysisofthequalityofteachingandthestudents’work.Wefocusonseekingtothecausesofdifficultyinemploymentinordertoproposesomesuggestionstoguidethenextteachingandtheworkofstudent.
Thetopicistoestablishadatamininganatomicmodelintermsofsex,qualitytraining,integratedresults,socialpracticeandsoontoobtainanewscientificmethodtoevaluatethequalityofteachingandthestudentworkquality.Thisdataanalysismethodisanewattempt,thiswillpromotethefurtherdevelopmentofdataminingtheory,andithasexpandedtheapplicationdomainofdatamininganalysismethod.Simultaneously,itprovidesanewscientificmethodtoevaluatethequalityofteachingandthestudentworkquality.
Keywords:
Data mining Baye theorem Database
引言
近年来随着人工智能技术和数据库技术的发展,数据挖掘技术出现。
数据挖掘是一个从模糊的、有噪声的、不完全的、大量的、随机的,从大量人们事先所不知道的、但又是潜在有用的信息和知识的一个过程。
需要我们不断挖掘。
本论文讲述的是运用数据挖掘技术中的贝叶斯分类算法对应届毕业生在毕业后的就业情况进行预测。
《毕业生就业数据分析系统开发》是按照数据挖掘方法及软件工程设计步骤,详细地说明了整个开发过程以及每一个技术细节。
同时,还阐述了课题的来源、需求分析、设计、实现和实验结果等情况。
第1章选题背景概述
1.1课题背景
随着数据库技术的不断发展以及数据库管理系统的推广应用,人们积累的数据越来越多。
而九十年代后因特网的出现,更是打破了各种限制,人们甚至能够跨越时空交换数据信息。
因此,展现在人们面前的数据不仅仅局限于某个部门、某个单位和某个行业等,而是浩瀚无限的信息海洋。
大量增加的数据背后隐藏着很多的重要信息,人们希望能够进行更高层次的分析,以便更好地利用这些数据。
虽然目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但是无法自动、智能地将等待处理的数据背后隐藏的重要信息和知识挖掘出来加以利用,无法根据现有的数据预测未来的发展趋势,并达到决策服务的目的,因此导致“数据海量爆炸但是知识贫乏”的现象。
因此,我们必须找到有关方法,自动地分析数据、自动地对数据汇总、自动发现和描述数据中的趋势、自动地对数据进行分类、自动地标记异常。
1.2课题的目的和意义
随着我国高等教育的普及,全国大部分高校都根据自身情况进行了扩招,于是造成如今高校毕业生的就业形势逐渐严峻的状态。
很多大学生都愁于找不到工作。
当前对于高校毕业生的就业状况的分析相对简单,大多仅仅按学校的就业率和专业就业率进行评价,显得片面、缺乏科学性。
在现实实际中,所谓名校,热门专业等等,并不能保证毕业生绝对能就业。
从微观上看,学生自身的素质和某些硬性条件是影响就业的关键。
根据这一情况,借助计算机对毕业生的就业信息进行挖掘,可以对目前的教学质量进行科学的综合分析,寻找影响毕业生就业的因素,以便对我们今后的教学和学生工作提出指导性建议。
本课题正是在这一背景下提出,利用数据挖掘任务之一的分类,对过往的毕业生就业信息建立预测模型,同时应用该模型对即将的毕业生的就业状况进行预测,以便为学校招生就业部门的工作提供参考与建议。
《毕业生就业数据分析系统开发》就是为了解决这个就业预测问题而开发的,它采用数据挖掘方法,通过统计分析,应用贝叶斯定理对未来即将就业的毕业生的就业趋势进行了预测。
可以预测到他们的就业情况和就业的概率。
该系统要求用户录入毕业生的各项相关数据,同时在录入后可以对录入的数据进行抽样分析,得到相应的计算模型,并测试该模型的可靠性及精确度,根据该计算模型对毕业生就业情况进行预测,得出就业统计分析图和就业概率统计图。
1.3国内外发展概况
1.3.1国外研究和发展现状
与数据挖掘(DataMining)极为相似的术语一一从数据库中发现知识(KDD)一词,首次出现在1989年8月在美国底特律召开的第1l届国际人工智能联合会议的专题讨论会上。
1993年以后,美国计算机协会(ACM)每年都举行了专门的会议研究探讨数据挖掘技术。
会议名称为ACMSIGKDDIntemationalConferenceonKnowledgeDiscoveryandDataMining,简称KDD会议。
KDD会议的规模由原来的专题讨论会发展到国际学术大会。
研究重点也逐渐从发现方法转向系统应用。
并且注重多种发现策略和技术的集成,以及多种学科之问的相互渗透。
国外的研究重点从发现方法逐渐向系统应用直到专享大规模的综合系统开发,并且注重多种发现策略和技术的集成。
1.3.2国内研究和发展现状
与国外相比.国内对DMKD的研究稍晚,没有形成整体力量。
1993年国家自然科学基金首次支持中科院合肥分院对该领域的研究项目。
目前从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。
研究领域一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。
国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究。
1.4指导思想
本设计主要采用数据挖掘技术对毕业生就业情况进行预测。
整个设计关键在于贝叶斯定理的分类算法实现。
该设计方案主要采用数据挖掘技术,通过对往届毕业生就业数据的导入,对其进行统计分析,应用贝叶斯定理建立预测模型,并应用该模型对未来即将就业的毕业生的就业趋势进行预测。
可以预测到他们的就业情况和就业的概率。
1.5数据挖掘技术
1.5.1数据挖掘技术的产生背景
随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。
数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。
其主要任务是关联分析、分类、预测时序模式和偏差分析等。
是知识发现(knowledgediscoveryindatabase)的关键步骤。
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。
起初各种商业数据是存储在计算机的数据库中的,然后发展到可以对数据库进行查询和访问,进而发展到对数据库的即时遍历。
数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
1.5.2数据挖掘技术的定义及含义
数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
从广义上讲,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。
人们把数据看作是形成知识的源泉,不断地挖掘。
原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。
在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
数据挖掘也是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。
商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。
分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。
但所有企业面临的一个共同问题是:
企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
1.6贝叶斯分类算法
1.6.1贝叶斯算法的介绍
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。
在许多场合,朴素贝叶斯(NaiveBayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。
由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。
为此,就衍生出许多降低独立性假设的贝叶斯分类算法,如TAN(treeaugmentedBayesnetwork)算法。
1.6.2贝叶斯定理
贝叶斯定理(Bayes'theorem)是概率论中的一个结论,它跟随机变量的条件概率以及边缘概率分布有关。
在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
贝叶斯公式的用途在于通过己知三个概率函数推出第四个。
它的内容是:
在B出现的前提下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以B出现的概率。
通过联系A与B,计算从一个事件产生另一事件的概率,即从结果上溯原。
作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中,某个随机事件的概率该如何被赋值,有着不同的看法:
频率主义者根据随机事件发生的频率,或者总体样本里面的发生的个数来赋值概率;贝叶斯主义者则根据未知的命题来赋值概率。
这样的理念导致贝叶斯主义者有更多的机会使用贝叶斯定理。
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。
(1.1)
其中P(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:
(1)P(A)是A的先验概率或边缘概率。
之所以称为"先验"是因为它不考虑任何B方面的因素。
(2)P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
(3)P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
(4)P(B)是B的先验概率或边缘概率,也作标准化常量(normalizingconstant)。
按这些术语,Bayes定理可表述为:
后验概率=(相似度*先验概率)/标准化常量。
也就是说,后验概率与先验概率和相似度的乘积成正比。
另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardisedlikelihood),Bayes定理可表述为:
后验概率=标准相似度*先验概率。
1.6.3朴素贝叶斯分类的原理与流程
朴素贝叶斯分类法是一种十分简单的分类算法,朴素贝叶斯分类名字缘由是因为这种方法的思想很朴素,朴素贝叶斯的思想基础是这样的:
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。
通俗说,就好比这么个道理,你在街上看到一个黑人,我们不能确切说他是从哪里来的,但是你十有八九猜是非洲人。
主要原因是黑人中非洲人的比率最高,不能否定黑人也可能是美洲人或其他,但是在没有其它可用信息下,我们一定是会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
朴素贝叶斯分类法的正式定义如下:
1、设
为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合
。
3、计算
。
4、如果
,则
。
现在的关键是计算第3步中各个条件概率,就能得出第4步的最大值。
接下来我们可以这么做:
1、先要找到一个已知分类的待分类项集合,这个集合称为训练样本集。
2、然后统计得到在各类别下各个特征属性的条件概率估计。
即
。
3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
(1.2)
因为分母对于所有类别为常数,即我们只要将分子最大化。
又因各特征属性为条件独立的,所以有:
(1.3)
根据上述分析,朴素贝叶斯分类的流程可以由下图1-1表示:
图1-1朴素贝叶斯分类流程图
可以看到,整个朴素贝叶斯分类分为三个阶段:
第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。
这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。
这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率,并将结果记录。
其输入是特征属性和训练样本,输出是分类器。
这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。
第三阶段——应用阶段。
这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。
这一阶段也是机械性阶段,由程序完成。
1.6.4估计类别下特征属性划分的条件概率及Laplace校准
我们可以看出计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤,当特征属性为离散值时,只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y),下面重点讨论特征属性是连续值的情况。
当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。
即:
(1.4)
而
。
因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入上述公式即可得到需要的估计值。
另外出现P(a|y)=0时应该怎么处理。
当某个类别下某个特征项划分没有出现时,就会产生这种现象,这种现象会令分类器质量大大降低。
为解决这个问题,我们引入Laplace校准,其思想很简单,就是对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面,问题得到解决。
1.6.5贝叶斯定理应用
贝叶斯定理用于投资决策分析是在已知相关项目B的资料,而缺乏论证项目A的直接资料时,通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。
如果我们用数学语言描绘,即当已知事件Bi的概率P(Bi)和事件Bi已发生条件下事件A的概率P(A│Bi),则可运用贝叶斯定理计算出在事件A发生条件下事件Bi的概率P(Bi│A)。
按贝叶斯定理进行投资决策的基本步骤是:
(1)列出在已知项目B条件下项目A的发生概率,即将P(A│B)转换为P(B│A);
(2)绘制树型图;
(3)求各状态结点的期望收益值,并将结果填入树型图;
(4)根据对树型图的分析,进行投资项目决策;
搜索巨人Google和Autonomy,一家出售信息恢复工具的公司,都使用了贝叶斯定理(Bayesianprinciples)为数据搜索提供近似的(但是技术上不确切)结果。
研究人员还使用贝叶斯模型来判断症状和疾病之间的相互关系,创建个人机器人,开发能够根据数据和经验来决定行动的人工智能设备。
1.7小结
本章介绍了本课题选题的的背景、目的和意义。
阐述了数据挖掘技术的概念和含义。
本章主要归纳了数据挖掘技术中的贝叶斯分类法,详细描述了朴素贝叶斯分类的原理与流程以及它的应用。
第2章方案论证
2.1设计原理、方案选择
随着社会发展,科学进步,计算机技术日益提高,以及计算机用户的操作水平的不断提高,用户对计算机应用系统的要求也越来越高。
如何保证设计开发出来的应用系统能够适应用户的更高要求,是每个程序开发人员必须先要考虑的问题。
同时,在设计过程中也应充分考虑系统的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业生 就业 数据 分析 系统 开发 毕业设计