商业智能及其关键技术在统计工作中的应用研究数据挖掘部分詹学朋Word格式.docx
- 文档编号:5222636
- 上传时间:2023-05-04
- 格式:DOCX
- 页数:30
- 大小:1.26MB
商业智能及其关键技术在统计工作中的应用研究数据挖掘部分詹学朋Word格式.docx
《商业智能及其关键技术在统计工作中的应用研究数据挖掘部分詹学朋Word格式.docx》由会员分享,可在线阅读,更多相关《商业智能及其关键技术在统计工作中的应用研究数据挖掘部分詹学朋Word格式.docx(30页珍藏版)》请在冰点文库上搜索。
1.2.2商业智能在统计中的应用现状5
1.3论文研究内容结构5
第2章商业智能及其关键技术在统计中的应用7
2.1商业智能的概念和理论7
2.1.1商业智能的基本概念7
2.1.2商业智能的技术构成7
2.1.3商业智能工具的选择8
2.2统计数据库与数据仓库9
2.2.1统计数据库9
2.2.2统计应用中的数据仓库技术10
2.3OLAP及其在统计中的应用11
2.3.1联机分析处理(OLAP)概念及功能11
2.3.2基于统计数据的OLAP分析及应注意的问题12
2.4DM及其在统计中的应用15
2.4.1数据挖掘(DM)的基本概念和分类15
2.4.2DM与DW、OLAP及统计学的关系16
2.4.3数据挖掘在统计数据分析中的应用17
2.5基于商业智能的统计决策分析系统总体框架19
第3章科技统计的商业智能解决方案设计21
3.1科技统计21
3.1.1科技统计的概念21
3.1.2科技统计指标21
3.1.3商业智能在科技统计中的应用意义22
3.2利用SQLServerBI构建科技统计的商业智能解决方案23
3.2.1MicrosoftSQLServer的商业智能体系23
3.2.2解决方案的总框架23
3.2.3使用SQLServerManagementStudio工具管理模型24
3.3科技统计数据仓库的设计24
3.3.1科技统计数据仓库中的主题设计24
3.3.2科技统计仓库中的维度以及维度层次设计25
3.3.3科技统计仓库中的度量值设计26
3.4基于SQLServer的科技统计决策分析模型26
3.4.1SQLServer的多维数据建模思想26
3.4.2SQLServer数据挖掘算法27
3.4.3SQLServer的数据挖掘建模过程40
第4章OLAP在科技统计数据分析中的应用43
4.1构建专利成果的多维数据模型43
4.1.1逻辑模型的设计43
4.1.2物理模型的设计44
4.2专利成果的OLAP多维分析45
4.3基于OLAP查询结果的我国国内专利发展现状分析49
第5章数据挖掘技术在专利成果分析中的综合应用54
5.1数据源的选取54
5.2变量的离散化处理方法54
5.3基于贝叶斯算法的关键影响因素分析56
5.4关联规则分析与挖掘61
5.5聚类分析与挖掘66
5.6基于决策树和Logistics回归的分类挖掘及其预测准确度比较69
第6章论文总结74
6.1主要研究工作74
6.2创新之处74
6.3局限和不足75
参考文献76
附录1:
Excel数据挖掘插件的安装与配置79
攻读硕士学位期间发表论文及参与科研项目的情况85
致谢86
第5章数据挖掘技术在专利成果分析中的综合应用
5.1数据源的选取
挖掘集是由指标_ID、时间、地区、专利成果指标以及与其相关的科技指标和社会经济指标构成的二维表(如图5-1),其物理结构和数据是存储在计算机的SQLServer数据库中的,在数据库中把该数据集命名为“专利数据挖掘数据集”。
该表包含我国(不含港澳台)31个省市自治区地区从1998年到2007年与专利相关的科技及社会经济统计指标的数值。
这里选取申请量作为专利成果的衡量指标,设置3个指标,分别为专利申请受理量(项)、发明专利申请受理量(项)、非发明专利申请受理量;
与专利申请相关的统计指标共22个,分别是:
科技活动人员(万人)、科学家工程师(万人)、万人口科技活动人员(人)、R&
D人员(万人)、R&
D人员占科技活动人员的百分比、R&
D科工(万人)、科技经费支出额(亿元)、科技经费支出占GDP的百分比(%)、R&
D经费(亿元)、R&
D经费占GDP的百分比(%)、地方财政科技拨款(亿元)、财政科技拨款占财政支出的百分比(%)、高技术产业规模以上企业总产值(亿元)、高技术产业规模以上企业增加值(亿元)、规模以上工业企业增加值中高技术产业所占百分比(%)、就业人数(万人)、地区生产总值(亿元)、人均地区生产总值(元)、工业总产值(亿元)、工业增加值(亿元)、进出口贸易总额(亿元)、城市人均可支配收入(元)。
表5-1专利成果挖掘表
列名
数据类型
允许空
指标_ID
int
N
年份
地区
nvarchar(50)
专利申请受理量
Y
发明专利申请受理量
非发明专利申请受理量
科技活动人员
float
。
5.2变量的离散化处理方法
变量按变量值是否连续可分为连续变量与离散变量两种.离散变量是指其数值只能用自然数或整数单位计算的则为离散变量。
反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。
在数据挖掘实践中,在一些情形下将连续变量进行离散化处理,再将离散化的结果应用于算法有很多好处:
1)离散化结果将会减少连续变量特征值的个数,这样可以节约存储空间。
2)连续变量经过离散化后,更有利于数据的理解、使用和解释。
3)离散化处理使得算法的学习更为准确和迅速。
4)有些算法只能应用于离散型数据,要使用该类算法就必须对连续变量进行离散化处理。
常用的离散化方法可以分为无监督离散化方法和有监督离散方法,其中,无监督的方法有分箱法、根据直观化分离散化以及基于聚类分析的离散化等,有监督离散化方法有1R离散化方法、基于熵的离散化方法以及基于卡方的离散化方法等。
MicrosoftSQLServer2005AnalysisServices提供了中以下几种离散化方法,如表5-2所示。
表5-2SQLServer2005提供的几种离散化方法介绍
离散化方法
原理及使用范围
聚类
(clusters)
该方法使用K-Means算法对变量值执行单维度聚类分析,从而对连续变量分组。
K-Means算法通常使用高斯分布。
此方法只能用于数值列。
等面积(EqualAreas)
该方法考察变量值在总体中的分布情况并创建组限,以使整个总体在各组内均匀分布。
换言之,如果将连续值的分布情况绘制为曲线,则曲线下每组范围所覆盖的区域应该相等。
该方法最适用于正态分布曲线。
均匀划分
(EqualRanges)
该方法以相等的值范围将成员分组到存储桶中。
如果有4个存储桶并且某一属性的所有成员的值范围为40,则分组范围将为1-10、11-20、21-30和31-40。
该方法适用于变量值分布比较均匀的情况。
阈值(Thresholds)
该方法基于连续变量值的分布曲线的转换点(拐点)进行分组,其中这些拐点是改变梯度方向的点。
如果点数多于请求的组数N,则将点按高度排序并选择前N个点。
自动化
(Automatic)
该方法根据属性结构自动从下面的分组方法中选择最佳方法:
EqualAreas、Clusters、EqualRanges或Thresholds。
由于本文使用的科技统计指标和社会经济指标基本上都是连续型的数值变量,故需要根据所选择算法的要求进行相应的离散化处理。
默认情况下,在AnalysisServices中,连续变量的离散化方法设置为“自动化(Automatic)”,即由SQLServer程序根据属性结构自动从下面的分组方法中选择最佳方法:
后面在应用具体算法时,对变量的离散化处理不再赘述。
5.3基于贝叶斯算法的关键影响因素分析
由于数据挖掘所分析的数据通常涉及多个变量,有些大型的项目甚至要用到上百个变量,以至于变量之间关系错综复杂,变量之间的关系以及影响模式很难把握。
关键影响因素分析主要用于检测输入变量(或称属性、指标)对目标变量(可预测变量)的影响,从而找出影响目标变量取值的关键因素。
本文对所选取的与专利申请受理量指标以及与它相关的22个指标(包括科技指标和社会经济指标)利用Microsoft贝叶斯算法进行关键影响因素分析与挖掘,其中专利申请量为目标变量,其他22个指标为输入变量。
一、模型的建立
本文利用Microsoft贝叶斯算法来创建模型。
Microsoft贝叶斯算法不仅支持快速地创建预测功能的挖掘模型,并且提供了一种浏览数据、理解数据的新方法。
实证部分主要使用其后一种功能,即利用贝叶斯算法分析和挖掘影响专利申请受理量的关键因素和模式,它可以作为建立其他挖掘模型的基础。
需要注意的是Microsoft贝叶斯算法只支持离散型属性,所以使用该算法时连续型输入变量和目标变量都需要进行离散化处理。
使用Microsoft贝叶斯算法创建的挖掘模型程序代码如下。
CREATEMININGPatent_Bayes
([指标_ID]LONGKEY,
[专利申请受理量]LONGDISCRETIZEDPREDICT_ONLY,
[科技活动人员]DOUBLEDISCRETIZED,[科学家工程师]DOUBLEDISCRETIZED,[万人口科技活动人员]DOUBLEDISCRETIZED,[R&
D人员]DOUBLEDISCRETIZED,[R&
D人员占科技活动人员百分比]DOUBLEDISCRETIZED,[地方财政科技拨款]DOUBLEDISCRETIZED,[财政科技拨款占财政支出的百分比]DOUBLEDISCRETIZED,[][R&
D科工]DOUBLEDISCRETIZED,[科技经费支出额]DOUBLEDISCRETIZED,[科技经费支出占GDP的百分比]DOUBLEDISCRETIZED,[R&
D经费占GDP的百分比]DOUBLEDISCRETIZED,[R&
D经费]DOUBLEDISCRETIZED,[R&
D经费占GDP的百分比]DOUBLEDISCRETIZED,[地方财政科技拨款]DOUBLEDISCRETIZED,[财政科技拨款占财政支出的百分比]DOUBLEDISCRETIZED,[高技术产业规模以上企业总产值]DOUBLEDISCRETIZED,[高技术产业规模以上企业增加值]DOUBLEDISCRETIZED,[规模以上工业企业增加值中高技术产业所占百分比]DOUBLEDISCRETIZED,[就业人数]DOUBLEDISCRETIZED,[地区生产总值]DOUBLEDISCRETIZED,[人均地区生产总值]DOUBLEDISCRETIZED,[进出口贸易总额]DOUBLEDISCRETIZED,[城市人均可支配收入]DOUBLEDISCRETIZED
)USINGMicrosoft_Naive_Bayes
利用SSAS数据挖掘向导也可以创建贝叶斯模型,模型的结构如图5-1所示。
图5-1利用SSAS创建贝叶斯模型
二、依赖关系网络
“依赖关系网络”用来显示输入变量和可预测变量之间的依赖关系。
依赖关系的信息全部来自于所训练的贝叶斯模型。
通过对滑动条的上下移动,可以查看输入变量与专利申请受理量之间的相对强弱关联程度,如图5-2显示了关联程度在50%以上的依赖关系,以及图5-3显示了关联程度在80%以上的依赖关系。
通过整理和分析,各输入变量与专利申请受理量关联强度大小依次为:
地方财政科技拨款>
科技经费支出额>
工业总产值>
R&
D经费>
高技术产业规模以上企业增加值>
进出口贸易总额>
工业增加值>
D科工>
地区生产总值>
D人员>
科学家工程师>
高技术产业规模以上企业总产值>
科技活动人员>
人均地区生产总值>
城市人均可支配收入>
财政科技拨款占财政支出的百分比>
万人口科技活动人员>
D经费占GDP的百分比>
科技经费支出占GDP的百分比。
图5-2依赖关系网络图
(一)
图5-3依赖关系网络图
(二)
三、特征分析
特征分析包括两个方面的内容,一是目标变量为某个分类时其所属的样本的特征,二是输入变量在不同取值条件下目标变量更倾向于哪个分类。
通过特征分析可以挖掘影响目标变量取值的关键因素和规则。
特征分析的主要理论依据是通过对训练样本中各种条件概率的计算要探索输入变量对目标变量的影响模式。
目标变量专利申请受理量经过离散化处理后分为5组,即:
<
7063,7063-22905,22905-42978,42978-90443,>
=90443。
首先,分析专利受理申请为某个取值区间时其所在地区在相应的年份各种科技指标和社会经济指标的特征。
例如,专利申请量小于7063项的地区在相应的年份所具有的特征:
进出口贸易总额小于244.398亿元、高技术产业规模以上企业总产值小于730.327亿元、高技术产业规模以上企业增加值小于194.087亿元以及地方财政科技拨款小于11.174亿元等,如图5-4所示。
同样,还可以分析专利申请受理量其他分组的特征。
图5-4专利申请受理量为“<
7063”时的特征图
对各个分组属性选取概率较高的特征并整理在表5-3中。
表5-3概率较高的特征
输入指标名
输入指标值
概率
7063
进出口贸易总额(亿元)
344.978
100%
高技术产业规模以上企业增加值(亿元)
194.087
99%
高技术产业规模以上企业总产值(亿元)
730.327
97%
地方财政科技拨款(亿元)
11.174
94%
D经费(亿元)
37.883
85%
工业总产值(亿元)
3908.075
84%
科技经费支出额(亿元)
78.990
工业增加值(亿元)
1191.669
81%
万人口科技活动人员(人)
25.132
80%
7063-22905
地方财政科技拨款亿元
11.174-30.885
76%
工业总产值亿元
3908.075-11148.619
69%
工业增加值亿元
1191.669-3379.285
66%
科技经费支出额亿元
78.990-219.637
63%
22905-42978
高技术产业规模以上企业总产值亿元
2928.467-6668.143
64%
万人口科技活动人员人
25.132-57.073
高技术产业规模以上企业增加值亿元
602.867-1835.5345
30.885-66.110
55%
地区生产总值亿元
6796.659-12079.647
城市人均可支配收入元
9194.310-12375.364
RD人员万人
5.781-9.128
进出口贸易总额亿元
1764.594-3113.879
42978-90443
12375.364-17140.854
70%
RD科工万人
7.599-12.064
9.128-14.608
人均地区生产总值元
19202.218-32027.428
60%
12079.647-20070.611
科学家工程师万人
15.404-21.787
25.132-57.073
>
=90443
=97.499
=21.787
=11496.060
=2389.283
=10972.652
=39072.299
(注:
根据贝叶斯挖掘结果整理而得。
)
其次,对专利申请量在不同取值区间之间的特征进行对比分析,譬如回答专利申请量高的样本和专利申请量低的样本有什么区别。
图5-5描述了专利申请量为“<
7063”与专利申请量为“42978-90443”所属样本的特征区别,直方图长短表示概率的大小。
不仅可以进行两个具体状态的比较,还可以把某一状态与其他所有状态进行比较分析,例如图5-6显示了专利申请受理量为“>
=29691”与专利申请受理量为其他所有可能状态的特征比较。
图5-5专利申请量不同状态下的特征比较
图5-6专利申请量为某一状态与其他所有状态下的特别比较
5.4关联规则分析与挖掘
尽管贝叶斯算法为我们提供了一种快速浏览和理解数据的方法,但是要想挖掘出更加复杂、隐藏更深的规则和模式,还需要借助其他更强大的挖掘算法。
“啤酒与尿布”的故事一度成为数据挖掘研究者津津乐道的经典案例,它正是应用了一种很重要的数据挖掘算法——关联规则。
目前,关联规则挖掘在购物篮分析、分类设计、交叉销售以及客户关系管理等诸多领域都有很成功的应用。
本文提出把关联规则挖掘应用到专利成果的分析之中。
本文利用Microsoft关联规则算法来创建模型。
由于专利申请受理量可以分解为发明专利申请受理量和非发明专利申请受理量,于是分别构建可预测变量为专利申请受理量、发明专利申请受理量和非发明专利申请受理量的三个关联规则模型。
Microsoft关联规则算法不接收连续性变量,因此创建模型时必须对连续性变量进行离散化处理。
可预测变量为专利申请受理量的关联规则模型的DMX程序代码如下:
CREATEMININGPatent_Association
[专利申请受理量]DOUBLEDISCRETIZEDPREDICT_ONLY,
)USINGMicrosoft_Association_Rules(Minimum_Support=0.03,Minimum_Probability=0.7,Minimum_Importance=0.3)
其中,该模型设置最小支持度Minimum_Support=0.03,即只有当包含某项集的事例个数大于3%时这个规则才被发现,同时设置最小置信度(即概率)Minimum_Probability=0.7、最低重要性(即增益)Minimum_Importance=0.3。
其他两个关联规则模型于此类似,唯一不同是可预测变量分别为发明专利申请受理量和非发明专利申请受理量,它们的DMX程序代码不再赘述。
该三个关联规则模型也可以在SSAS数据挖掘向导中创建,模型的结构如图5-7所示。
图5-7利用SSAS创建关联规则模型
二、挖掘结果的分析
为了叙述的方便,这里把可预测变量为专利申请受理量、发明专利申请受理量和非发明专利申请受理量的三个关联规则模型分别简称为“关联模型
(一)”、“关联模型
(二)”和“关联模型(三)”。
以下图5-8、图5-9和图5-10分别是三个关联规则模型所发现的规则。
图5-8关联模型
(一)所发现的规则
图5-9关联模型
(二)所发现的规则
图5-10关联模型(三)所发现的规则
通常,所发现的规则的概率越高且重要性越高,说明规则越重要,我们分析的时候可以着重注意这些规则。
例如,挑选出每个模型所发现的概率等于1且重要性最高的一条规则,整理如表5-4所示。
表5-4三条“高概率且高
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商业 智能 及其 关键技术 统计工作 中的 应用 研究 数据 挖掘 部分 詹学朋