医学数据挖掘.docx
- 文档编号:778299
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:9
- 大小:19.91KB
医学数据挖掘.docx
《医学数据挖掘.docx》由会员分享,可在线阅读,更多相关《医学数据挖掘.docx(9页珍藏版)》请在冰点文库上搜索。
医学数据挖掘
第一章
一.填空
1.数据挖掘和知识发现的三大主要技术为:
数据库、统计学、机器学习
2.数据挖掘获得知识的表现形式主要有6种:
规则、决策树、知识基网络权值、公式、案例
3.规则是由前提条件、结论两部分组成
4.基于案例推理的基础是案例库
5.知识发现的基本步骤:
数据选择、处理、转换、数据挖掘、解释与评价。
数据挖掘是知识发现的关键步骤
6.数据挖掘的核心技术是:
人工智能、机器学、统计学
7.目前数据挖掘在医学领域的应用集中在疾病辅助诊断、药物开发、医院信息系统、遗传学等方面
二.名解
1.数据挖掘:
在数据中正规的发现有效的、新颖的、潜在有用的、并且最终可以被读懂的模式的过程
2.案例推理:
当要解决一个新问题时,利用相似性检索技术到案例库中搜索与新问题相似的案例,再经过对就案例的修改来解决新问题
三.简答
1.数据挖掘的特点
a挖掘对象是超大型的,b发现隐含的知识,c可以用于增进人类认知的知识,d不是手工完成的
2.案例是解决新问题的一种知识,案例知识表示为三元组
a问题描述:
对求解的问题及周围环境的所有特征的描述,b解描述:
对问题求解方案的描述,c效果描述:
描述解决方案后的结果情况,是失败还是成功
3.医学数据挖掘存在的关键问题
a数据预处理,b信息融合技术,c快速的鲁棒的书库挖掘算法,d提供知识的准确性和安全性
4.数据挖掘在遗传学方面的应用
遗传学的研究表明,遗传疾病的发生是由基因决定的,基因数据库搜索技术在基因研究上做出了很多重大发现,其工作主要包括:
a从各种生物体的大量序列中定位出具有某种功能的基因,b在基因中搜索与某种具有高阶结构或功能的蛋白质相似的高阶结构序列
第二章
一.填空
1.的对象分为:
关系型、数据仓库、文本、复杂类型
2.从用户角度来看,数据仓库的基本组成包括:
数据源、数据存储、应用工具、可视化用户界面
3.数据仓库是最流行的数据模型是多维数据模型,多维数据模型将数据看作是数据立方体的形式,数据立方体是由维和事实来定义
4.常用的多维数据模式包括:
星型模式、雪花模式、事实星座模式。
星型模式是由事实表和维表构成
5.DM分为:
WEB内容挖掘、WEB结构挖掘、WEB使用挖掘
二.名解
1.数据仓库:
一个面向主题的、集成的、时变的、非易失的数据集合,用以支持管理活动的决策过程
2.数据立方体:
指以两维或多维来描述或者分类数据。
这里的维类似于关系数据结构中的属性或者字段
3.WEB数据挖掘:
指同万维网相关数据的挖掘
三.简答
1.人们使用文本的三个主要目的
a用户需要便利的获得全文文本,即文献检索,b用户应用此类数据库确定需要阅读的相关资料,c用户希望从文本数据库中获得信息的特异性片段,即从相关资料的特异性部分获得某个特意问题的答案
2.数据库中的数据可以分为五个类别
a网页的内容,b网页间的结构,c网页内的结构,d描述用户如何使用网页的数据,e用户的人口统计学和注册信息
第三章
一.填空题
1.确定商业目标,认清数据挖掘的目的是的第一步
2.影响结果质量的两个因素是:
所采用技术的有效性(模型的选择),用于挖掘的数据的质量和数量
3.数据质量的含义包含四个方面:
数据的正确性,数据的一致性,数据的完整性,数据的可靠性
4.数据清洗的技术:
空值处理,噪音数据,不一致数据等处理技术
5.数据挖掘模型按功能可分为:
预测模型,描述模型.其中前者包括:
分类模型,回归模型,时间序列模型;后者包括:
聚类模型,关联模型,序列模型
6.模型准确性的测试分为三类:
简单验证,交叉验证,自举法
二.名词解释
1.静态数据:
开展业务活动所需要的基本数据(动态数据的基础,保持数据的唯一性)
动态数据:
指每笔业务发生时产生的事务处理信息
2.数据归纳:
其目的是建立用于挖掘的合适的数据集合,缩小处理范围,是在数据选择的基础上对挖掘数据的进一步约简,又叫数据缩减或数据收缩
三:
简答
1模型的六个阶段
理解问题,理解数据,准备数据,建立模型,方案评估,方案实施
2.数据准备包含的方面
a从多个数据源中整合数据挖掘所需要的数据,保证数据的综合性,易用性,数据的质量和数据的时效性如何从现有数据中衍生出所需要的指标
3.在数据生成,处理和管理的许多阶段都会引入错误,主要包括
a数据输入和获得过程的错误数据集成所表现出来的错误(a度量纲问题b命名冲突问题c数据精度问题d汇总问题)数据传输过程所引入的错误
4.通过历史数据预测未来,它的的有效性的前提条件隐藏着三个假设为
a过去是将来的好的预测器数据是可利用的数据包含我们想要的预测
5.预测模型和描述模型的区别
数据挖掘模型按照功能分为预测模型和描述模型.在预测模型中,用来预测的称为独立变量,要预测的称为相关变量或目标变量.预测模型包括分类模型,回归模型和时间序列模型;描述模型包括聚类模型,关联模型和序列模型.前者有时又称为有监督学习,可直接用来检测模型的准确性,一般在建立这些模型时,使用一部分数据作为样本,用另一部分数据来检验,校正模型;后者又称为无监督学习,因为在模型建立前结果是未知的,模型的产生不受任何监督
第四章
一.填空
1.关联分析就是用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的联系可以利用关联规则或者频繁项集的形式表示
2.关联规则算法通常采用的策略是把关联规则挖掘任务分解为两步:
找出所有频繁的项集;由频繁项集产生强关联规则
3算法的两大缺点:
可能产生大量的候选集,可能需要重复扫描数据库
4算法优化的四种思路:
减少描述的次数,对挖掘的数据集中进行扫描,利用修剪技术来减少候选集的大小,并行数据挖掘
5.同层关联规则可以采用的两种支持策略:
统一的最小支持度,递减的最小支持度
第五章聚类分析
一,填空.1.大多数聚类算法采用的两种具有代表性的数据结构:
数据矩阵,相异度矩阵.
2.基于划分的聚类分析方法有平均算法中心点算法算法.
3.孤立点挖掘的方法主要有:
基于统计的方法,基于距离的方法,基于偏离的方法.
4.两种基于偏离的孤立点的检测技术是:
序列异常技术,数据立方体技术.
二,名词解释
1.聚类分析,是一个将数据集划分为若干组成类的过程.并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据是不相似的.
2.相异度矩阵,是一个对象-对象结构,它存放所有n个对象两两之间所形成的差异性(相似性)
3.孤立点,与其他数据有显著区别的数据对象的集合。
4,孤立点挖掘,
三,简答
1平均算法的操作流程:
给定K后,1,从数据对象中任意选择K个对象作为初始聚类中心。
2,计算每个聚类的平均值,用该平均值代表相应的聚类中心。
3,计算每个对象与这个中心的距离,并根据最小距离重新对相应对象进行划分,将它分配到与它最近的聚类中。
4,循环。
5,直到每个聚类不在发生变化为止。
2.孤立点产生的原因:
1,度量或执行错误导致。
2.固有的数据变异的结果。
3.孤立点挖掘问题可以看成是2个问题;
1,定义在数据集中的什么是不一致的数据。
2,找到一个能够挖掘出所定义的孤立点的有效方法。
第六章决策树
1.决策树的基本组成部分:
决策节点分枝叶子
2.在决策树中最上面的节点称为根节点是整个决策树的开始,每个分枝是一个新的决策点或者是树的叶子,每个叶节点代表一种可能的分类的结果。
3提出的概念学习系统是一种早期的决策树学习方法,它是许多决策树算法的基础
4.一个完整的决策树构造过程应包含决策树的创建和决策树的剪枝
5.决策树修剪的3种方法前修剪方法,后修剪方法,混合的修剪方法
第八章人工神经网络
一、填空
1、大多数生物神经元由细胞体、轴突、树突和突触组成
2、人工神经网络是对生理神经元的模拟,有向弧则是轴突——突触——树突对的模拟,有向弧的权值表示两处理单元间相互作用的强弱
3、在结构上,人工神经网络可以分为:
输入层、隐蔽层、输出层,每一层可以包含若干个节点(神经元),层与层之间的节点相互联系
4、算法包括信息的正向传递和误差的反向传播
5、网络按照连接权值可以有三种训练方法:
死记式学习、有监督学习(有导师学习)、无监督学习(无导师学习)
二、名词解释
1、人工神经网络是一个对人脑的某种程度上的抽象、简化和模拟的数学模型,它能用电子线路来实现或用计算机来模拟人的自然智能,从人脑的生理结构出发来研究人的智能行为,模拟人脑对信息进行处理的功能
三、简答
1、人工神经网络历史发展的四个阶段
a产生时期:
模型;b高潮时期:
感知机;c低潮时期;d热潮时期:
网络
2、人工神经网络的基本功能
a联想记忆功能b非线性映射能力c分类、识别与图像处理功能d控制与优化计算功能e知识处理功能
3、人工神经网络的工作过程
a学习阶段:
对网络进行训练,主要是调整网络神经元的连接权值和连接方式
b工作阶段:
训练好的网络即可用于实际工作,此时网络的连接权值和连接方式固定不变,工作过程表现为输入数据在状态空间的映射和变化过程,神经网络最终的稳定状态即是工作输出
4、算法基本思想
算法的学习过程由信号的正向传播与误差的反向传播的两个过程组成
a正向传播:
输入样本→输入层→各隐层→输出层;若输出层实际输出与期望输出不同,则转入b
b误差的反向传播:
输出误差(某种形式)→隐层→输入层;通过将输出误差的反传分摊给各层所有单元,从而获得各层单元的误差信号,修改各神经元的权值
5、神经网络的建模步骤
a、确定训练样本集:
训练样本含量适宜b、样本的归一化处理c、神经网络结构设计:
输入层、隐含层、输出层设计d、神经网络权值初始化e、利用算法学习建模
第十章医学决策支持系统
一、填空
1、常见的狭义医学决策支持系统包括:
医疗专家系统和临床决策支持系统两种
2、医院信息系统()分为医院管理信息系统()和临床信息系统()
3、数据仓库的逻辑数据模型是多维结构的数据视图,也称多维数据模型,其最流行的表现形式是数据立方体
4、多维数据模型常用的有:
星型模型、雪花模型、星网模型,其中星型模型是最常见的多维数据模型,星型模型由事实表和唯表构成
5、多维数据分析包括切片、切块、旋转、上钻、下钻等五个基本操作
6、信息系统经历了电子数据处理系统、管理信息系统和决策支持系统三个阶段
二、名解
1、决策支持系统:
指为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,并通过调用各种数据分析工具提取决策信息,帮助决策者提问决策水平和质量,解决了由计算机自动组织和协调以数值计算为主体的数据模型和仿真模型的运行,以及中大量数据的存取和处理,从而达到更高层次的辅助决策能力
2、医学决策支持系统:
通常我们从广义和狭义两个角度来定义
广义:
指在医学信息系统基础上发展起来的,以支持各级医疗卫生人员辅助决策为的的计算机信息系统
狭义:
一种通过计算机进行模型计算,知识推理以及从医学数据中获得诊断信息和诊断的知识以支持医学诊断辅助决策为目的的计算机信息系统
3、数据仓库:
值一个面向主题的、集成的、时变的、非易失的数据集合,用以支持管理获得的决策过程
4、(联机分析处理):
是分析人员,管理人员和执行人员能够从多种角度对从原始数据中转化出来的,能够真正为用户所理解的并真实反映企业多维特性的信息进行快速、一致、交互的存取,从而获得数据更深入了解的一类软件技术
三、简答
1、发展的四个阶段
a、以模型库为核心的;b、模型库与知识推理结合的智能;c、的新型;d、网络环境的综合
2、医院管理决策支持系统的分析功能
a、医疗质量决策分析;b医疗病源决策分析;c、业务成本决策分析;d、财务与效益决策分析;e、医保决策分析与监控
3、数据仓库结构
包括的几类数据:
当前基本数据,轻度综合数据,高度综合数据及原数据
当前基本数据:
最近时期的业务数据,是用户最感兴趣的部分,数据最大,随时间的推动由的时间控制机制转为历史基本数据,一般存储于磁盘与介质
轻度综合数据:
从当前数据中提取出来的用于提供决策分析的数据设计这层数据结构会遇到综合处理数据的时间段选取、综合数据包含哪些属性和内容等问题
高度综合数据:
是准决策数据,十分精炼
原数据:
是关于数据的数据,它是描述数据仓库内数据的结构和建立方法的处理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 数据 挖掘